260513(수)

🦠 [자료조사] AMR(항생제 내성) 예측 모델 라인업 및 도입 이유 분석

📌 1. 왜 하필 이 4가지(MLP, GCN, GAT, GIN) 모델인가? (합리적인 이유)

AMR(항생제 내성) 예측의 핵심은 "약물(항생제)의 화학적 구조"와 "세균(균주)의 게놈 특성"이 만나서 어떤 반응을 일으킬지 맞히는 것임.

약물의 분자 구조는 원자(Node)와 화학 결합(Edge)으로 이루어진 그래프(Graph) 형태임. 반면, 게놈 데이터나 약물의 기본 물리화학적 특성은 표(Table)나 단순 숫자 나열(Vector) 형태임.

이 4가지 모델을 순서대로 테스트해야 하는 이유:

회의록에 적힌 *"게놈 정보 유무에 따른 성능 상승/무너짐 분석"*을 제대로 하려면, 인공지능이 '약물의 분자 구조를 얼마나 깊이 이해하고 있는가'를 통제해야 함.

단순 암기만 하는 모델(MLP)부터, 분자 구조를 대충 보는 모델(GCN), 핵심만 짚어보는 모델(GAT), 미세한 차이까지 현미경으로 보는 모델(GIN)을 단계별로 비교해야만 "우리 모델이 Unseen 환경에서 망가진 이유가 데이터를 못 봐서인지, 분자 구조 이해력이 딸려서인지" 정확히 진단할 수 있기 때문임.

📌 2. 각 모델별 상세 개념 및 테스트 이유 (AMR 관점)

1) MLP (Multi-Layer Perceptron) : "기본기 측정용 체온계"

개념 설명: 가장 전통적이고 기본적인 딥러닝(인공신경망) 모델임. 그래프(분자 구조) 모양을 그대로 이해하지 못하고, 데이터를 1차원으로 길게 펴서(표 형태로 만들어서) 학습함.
고등학생 비유: 학생한테 화학 분자 모형(레고 블록)을 직접 만져보게 하는 게 아니라, "이 약물은 탄소가 5개, 수소가 10개, 무게는 얼마야" 라는 텍스트 요약본만 주고 외우게 하는 것과 같음.
테스트하는 합리적 이유 (도입 목적):
- 최소 기준점(Baseline) 설정: 굳이 복잡한 그래프 인공지능을 안 써도, 게놈 데이터랑 약물의 기본 특성만으로 내성을 쉽게 맞힐 수 있는 거 아님? 이 질문에 답하기 위해 필수적으로 돌려봐야 함.
- 만약 복잡한 모델(GIN 등)과 MLP의 성능 차이가 별로 없다면, 데이터 자체가 구조적 특성보다는 특정 게놈 수치에 의존적이라는 의미로 해석할 수 있음.

2) GCN (Graph Convolutional Network) : "주변 눈치 보기 (기본 그래프 탐색)"

개념 설명: 그래프 신경망(GNN)의 가장 스탠다드한 모델. '나(특정 원자)'의 정보를 업데이트할 때, '나와 직접 연결된 이웃 원자들'의 정보를 골고루 섞어서 가져옴.
고등학생 비유: "친구를 보면 그 사람을 안다"는 말처럼, 특정 원자가 항생제 내성에 어떤 역할을 하는지 파악하기 위해 내 주변(결합된 원자들)을 둘러보며 정보를 흡수하는 방식임.
테스트하는 합리적 이유 (도입 목적):
- 항생제의 효능은 원자 하나가 아니라, 여러 원자가 뭉친 '기능기(Functional Group)'에 의해 결정됨. GCN은 이 기능기의 형태를 파악하는 데 가장 표준적이고 검증된 모델임. 약물 구조를 '그래프'로 인식했을 때의 기본적인 성능 향상폭을 확인하기 위해 씀.

3) GAT (Graph Attention Network) : "선택과 집중 (족집게 과외)"

개념 설명: GCN과 비슷하지만 '어텐션(Attention, 주의력)' 개념이 추가됨. GCN이 주변 이웃 원자들의 정보를 n분의 1로 똑같이 가져온다면, GAT는 "어떤 이웃이 더 중요한지" 가중치를 두어 편식해서 가져옴.
고등학생 비유: 족집게 과외 선생님이 분자 구조를 보면서 "야, 이 약물에서는 다른 데 보지 말고 여기 '베타락탐 고리(특정 구조)' 부분에만 형광펜 쫙 긋고 집중해! 이게 내성의 핵심이야"라고 알려주는 것과 같음.
테스트하는 합리적 이유 (도입 목적):
- 회의록을 보면 unseen 데이터에서 성능이 무너지는 현상(robust learning 필요)을 고민하고 있음. GAT는 특정 내성 유발 핵심 구조(패턴)에 '가중치'를 주기 때문에, 처음 보는 약물(Unseen)이 들어와도 그 '핵심 구조'만 존재한다면 더 강건하게(Robust) 정답을 맞출 확률이 높음.

4) GIN (Graph Isomorphism Network) : "미세한 차이 감별사 (최강의 표현력)"

개념 설명: 수학적으로 서로 다른 두 그래프(분자)를 다르게 인식하는 능력(표현력)이 가장 극대화되도록 설계된 현존하는 가장 강력한 GNN 구조 중 하나임.
고등학생 비유: 얼핏 보면 똑같이 생긴 짝퉁 명품 가방과 진품을 현미경으로 들이대서 땀수 하나하나까지 비교해 귀신같이 찾아내는 명품 감정사와 같음. GCN은 종종 짝퉁과 진품을 같다고 착각하지만, GIN은 절대 속지 않음.
테스트하는 합리적 이유 (도입 목적):
- 회의록에 cold-drug, scaffold 단위로 쪼개서 실험한다는 내용이 있음. 항생제 연구에서는 전체 뼈대(Scaffold)는 똑같은데 끝에 원자 하나만 다르게 붙여도 내성 결과가 완전히 뒤집히는 경우가 허다함.
- 이렇게 "비슷하게 생겼지만 정답은 다른" 아주 까다로운 약물들을 구별해 내려면(High difficulty), 구조를 미세하게 분리해 내는 GIN 모델의 도입이 필수적임.

💡 3. 결론: 보고서/발표용 요약 (인사이트)

현재 회의록(image_62abe0.jpg)에서 제기된 문제인 "Unseen 환경에서의 일반화(Robust learning) 및 다양한 학습적 difficulty 대응"을 해결하기 위해, 위 4가지 모델 라인업은 매우 훌륭한 실험 설계임.

실험의 합리성:
1. MLP: "분자 구조(그래프)를 아예 무시해도 풀리는 문제인가?" (기본 난이도 측정)
2. GCN: "분자 구조를 형태대로 인식하면 성능이 오르는가?" (구조 정보의 유효성 검증)
3. GAT: "항생제 내성에 치명적인 특정 '핵심 화학 구조'에 집중하면 처음 보는 약물(Unseen)도 예측 가능한가?" (Robustness 확인)
4. GIN: "구조가 거의 비슷한 약물(Scaffold split)들 사이의 미세한 약효 차이도 잡아낼 수 있는가?" (최고 난이도 대응력 확인)

AMR stands for Antimicrobial Resistance.

논문 핵심 방향 요약

현재 Overleaf 논문 핵심은
“미래에 등장하는 구조적으로 새로운 약물에도 모델이 잘 예측할 수 있는가” 임

기존 많은 연구들은 random split으로 평가함.

예를 들면

train에도 비슷한 약물이 있고
test에도 비슷한 약물이 있음

이러면 모델이 진짜로 잘한 게 아니라
그냥 비슷한 걸 외운 것일 수도 있음

그래서 실제 병원이나 실제 신약 개발 상황에서는 성능이 크게 떨어질 수 있음

현재 논문은 이걸 문제로 봄

특히

시간이 지나면서 (Temporal Shift)
약물 구조가 달라지면서 (Structural Shift)

모델이 얼마나 무너지는지를 봄

그리고

scaffold (큰 화학 골격)
local edit (작은 구조 변화)

를 기준으로

어디서 성능이 특히 많이 깨지는지 분석함

그리고

그런 어려운 구조를 train 단계에서 미리 robust하게 학습시키면
미래 generalization이 좋아질 수 있다

를 보여주려는 논문임.

즉

단순히

세균 + 항생제 → 내성 예측

이 아니라

본질적으로는

biological target + molecule → activity prediction

문제를 다루는 논문임

조사해야 하는 분야

1. 항암제 활성 예측 (Cancer Drug Response Prediction)

이게 뭐냐

쉽게 말하면

“이 항암제가 이 암세포에 잘 듣는가?”

를 예측하는 문제임

예를 들어

같은 항암제라도

폐암에는 잘 듣고
대장암에는 잘 안 들 수 있음

그래서 모델은

암세포의 유전자 정보
항암제의 화학 구조

를 보고

Sensitive / Resistant

또는

IC50 (얼마나 잘 듣는지)

를 예측함

현재 논문이랑 완전히 비슷한 이유

현재 논문

세균 + 항생제 → 내성 여부

확장하면

암세포 + 항암제 → 반응 여부

거의 구조가 같음

현재 논문확장 버전

bacteria isolate	cancer cell line
antibiotic	anticancer drug
genome feature	mutation / expression
resistant	drug response
MIC	IC50 / AUC

즉
현재 방법을 거의 그대로 가져갈 수 있음

이게 가장 중요함

대표 데이터셋

GDSC

가장 유명함

영국 Sanger Institute에서 운영

암세포 + 항암제 반응 데이터

거의 필수로 봐야 함

공식 설명:

molecular features of cancers can predict anti-cancer drug response

즉

유전자 정보로 약물 반응 예측 가능하다는 뜻

CTRP

Broad Institute

다양한 compound를
암세포에 넣고 반응 측정한 데이터

실험 규모가 큼

PRISM

엄청 중요함

4,000개 넘는 약물을
500개 넘는 암세포에 테스트함

대규모 screening 데이터

DepMap / CCLE

암세포의

mutation
expression
dependency

같은 feature 제공

입력 feature로 매우 중요함

여기서 조사할 것

제일 중요

temporal split 가능한가

즉

년도 정보가 있는가

예를 들어

train : 2018 이전
test : 2020 이후

처럼 나눌 수 있어야 함

이게 없으면
현재 논문의 핵심 claim이 약해짐

scaffold split 가능한가

drug SMILES가 있는가

SMILES가 있어야

scaffold
local edit
activity cliff

분석 가능함

이건 거의 필수

2. 단백질 활성 예측 (Protein-Ligand Activity Prediction)

이게 뭐냐

쉽게 말하면

“이 약물이 이 단백질에 붙는가?”

또는

“이 약물이 이 단백질을 막을 수 있는가?”

를 예측하는 문제임

예를 들어

암 치료에서는

EGFR
HER2
IDH1
VEGFR

같은 단백질이 중요함

어떤 약물이
이 단백질에 잘 결합하면
좋은 치료제가 될 가능성이 높음

현재 논문과 연결

현재 논문

세균 genome + 항생제 → 내성

확장하면

protein sequence + compound → binding affinity

가 됨

현재 논문확장 버전

bacteria genome	protein sequence
antibiotic	ligand
resistance	activity
MIC	IC50 / Ki / Kd

역시 구조가 매우 비슷함

NeurIPS에서는
이쪽이 오히려 더 강함

대표 데이터셋

BindingDB

가장 유명함

protein + small molecule

결합 강도 데이터 제공

대표 benchmark

거의 무조건 조사해야 함

ChEMBL

엄청 큼

bioactivity database

거의 모든 약물 논문에서 등장함

반드시 봐야 함

Davis

Kinase inhibitor benchmark

많이 씀

깔끔함

KIBA

역시 kinase benchmark

Davis랑 같이 자주 사용

TDC

Therapeutics Data Commons

benchmark platform

요즘 논문에서 많이 사용

정리 잘 되어 있음

여기서 조사할 것

assay date 있는가

temporal split 가능한가

이게 핵심

scaffold / local edit 가능한가

SMILES 존재 여부 확인

무조건 중요

3. Activity Cliff

이게 진짜 중요함

이 논문의 핵심 중 하나임

쉽게 설명

엄청 비슷하게 생긴 두 약이 있음

그런데

하나는 효과가 엄청 좋고
하나는 거의 효과가 없음

이걸

Activity Cliff

라고 함

즉

조금만 구조가 바뀌었는데
결과가 엄청 달라지는 현상

임

왜 중요하냐

AI 모델은 보통

비슷하게 생겼으면
비슷한 결과겠지

라고 학습함

그런데 실제 약물은

그게 자주 틀림

그래서 모델이 여기서 크게 실패함

이게 현재 논문의 local-edit-aware 아이디어랑
직결됨

대표 논문

MoleculeACE

거의 필수

activity cliff benchmark

무조건 읽어야 함

van Tilborg paper

매우 중요

많은 ML 모델들이
activity cliff에서 여전히 약하다고 보여줌

현재 intro에서도 이미 연결되어 있음

이 부분을 더 강하게 써야 함

4. CARA benchmark

이게 뭐냐

현실적인 drug discovery benchmark

즉

진짜 신약개발 상황처럼 평가하자

라는 benchmark

왜 중요하냐

현재 논문도 똑같음

random split → 너무 쉬움
real-world split → 중요함

CARA도 같은 주장임

그래서

related work에 반드시 들어가야 함

5. 논문 제목 방향

현재 제목

Structure-Aware Robust Learning Improves Temporal Generalization in Antibiotic Response Prediction

이건 너무 좁음

AMR 논문처럼 보임

NeurIPS에서는 약함

더 좋은 방향

Structure-Aware Robust Learning for Temporal Generalization in Molecular Activity Prediction

또는

Structure-Aware Learning under Temporal and Structural Shift

이렇게 broader하게 가야 함

최종 목표

중요한 건

AMR 논문

이 아니라

General Molecular ML 논문

처럼 보이게 만드는 것임

즉

AMR은

case study

로 두고

핵심 contribution은

Temporal + Structural Generalization

로 가져가야 함

이게 NeurIPS에서 훨씬 강함

데이터셋 확보

1. GDSC (Genomics of Drug Sensitivity in Cancer)

실제 데이터 형태

GDSC는 보통 이런 형태임

Drug NameCell LineIC50AUCTargetMutation

Erlotinib	A549	1.23	0.82	EGFR	WT
Gefitinib	HCC827	0.04	0.95	EGFR	Mut
Cisplatin	HCT116	3.12	0.61	DNA Damage	KRAS Mut

실제로는

Drug × Cell Line Matrix

형태로 사용됨

GDSC 공식 설명에서도

DRUG_NAME
CELL_LINE_NAME
LN_IC50
AUC
PUTATIVE_TARGET

같은 컬럼을 사용함 (cog.sanger.ac.uk)

2. PRISM (Broad Institute)

실제 데이터 형태

PRISM은 이런 느낌임

CompoundCell Linelog fold changeViabilityDose

Disulfiram	A549	-1.42	Low	10 μM
Tepoxalin	HCC827	-0.88	Medium	10 μM
Gefitinib	PC9	-2.31	Very Low	10 μM

즉

약물을 넣었을 때
암세포가 얼마나 죽었는가

를 측정함

Broad 공식 설명:

4,518 compounds screened against 578 cell lines (DepMap)

즉 엄청 큰 규모의 screening 데이터임

대표 파일명도

primary-screen-logfold-change.csv
dose-response-curve-parameters.csv

이런 형태임 (DepMap)

3. BindingDB

실제 데이터 형태

BindingDB는 이런 형태임

Target ProteinLigandSMILESKiKdIC50

EGFR	Gefitinib	C1=CC...	2.1 nM	1.8 nM	5.0 nM
HER2	Lapatinib	CCN(CC)...	8.3 nM	6.4 nM	12 nM
VEGFR2	Sorafenib	CNC(=O)...	15 nM	10 nM	21 nM

즉

이 약물이
이 단백질에 얼마나 잘 붙는가

를 기록함

TDC 설명에서도

target amino acid sequence + compound SMILES → binding affinity prediction

으로 정의함 (DepMap)

4. ChEMBL

실제 데이터 형태

ChEMBL은 보통 이렇게 생김

MoleculeTargetAssay TypeStandard ValueStandard TypeSMILES

Compound A	EGFR	Binding	12	IC50	CCN(C)...
Compound B	HER2	Functional	4.5	Ki	COC1...
Compound C	IDH1	Enzyme	31	EC50	CCCN...

즉

어떤 분자가
어떤 단백질에 대해
어떤 실험에서
얼마나 활성이 있었는가

를 기록함

ChEMBL은 사실상

bioactivity의 대형 백과사전

처럼 생각하면 됨

Drug discovery 논문에서는 거의 항상 등장함

교수님이 가장 좋아하는 포인트

이걸 보여줄 때 중요한 건

“아 그래서 진짜 현재 논문 구조랑 똑같네”

라는 느낌을 주는 것임

즉

세균 + 항생제
↓
암세포 + 항암제
↓
단백질 + Ligand

이렇게

문제 구조가 완전히 같다는 걸
이미지로 바로 이해시키는 게 핵심임

그래서

이 4개 이미지는
노션에 꼭 들어가야 함

'Others' 카테고리의 다른 글

[khkim] MICCAI26 Mathena논문 Rebuttal (0)	2026.05.09
[Tien] Birth defect's experiments results (0)	2026.05.09
[smlee] 학생자율연구 기획 (0)	2026.03.30
[khkim] 학생자율연구 주제 피드백: Biosignal × LLM (0)	2026.03.30
Zhejiang Provincial People’s Hospital 데이터셋(MLUA 데이터, TSD) (0)	2026.02.18

🦠 [자료조사] AMR(항생제 내성) 예측 모델 라인업 및 도입 이유 분석

📌 1. 왜 하필 이 4가지(MLP, GCN, GAT, GIN) 모델인가? (합리적인 이유)

📌 2. 각 모델별 상세 개념 및 테스트 이유 (AMR 관점)

1) MLP (Multi-Layer Perceptron) : "기본기 측정용 체온계"

2) GCN (Graph Convolutional Network) : "주변 눈치 보기 (기본 그래프 탐색)"

3) GAT (Graph Attention Network) : "선택과 집중 (족집게 과외)"

4) GIN (Graph Isomorphism Network) : "미세한 차이 감별사 (최강의 표현력)"

💡 3. 결론: 보고서/발표용 요약 (인사이트)

논문 핵심 방향 요약

조사해야 하는 분야

1. 항암제 활성 예측 (Cancer Drug Response Prediction)

이게 뭐냐

현재 논문이랑 완전히 비슷한 이유

대표 데이터셋

GDSC

CTRP

PRISM

DepMap / CCLE

여기서 조사할 것

제일 중요

temporal split 가능한가

scaffold split 가능한가

2. 단백질 활성 예측 (Protein-Ligand Activity Prediction)

이게 뭐냐

현재 논문과 연결

대표 데이터셋

BindingDB

ChEMBL

Davis

KIBA

TDC

여기서 조사할 것

assay date 있는가

scaffold / local edit 가능한가

3. Activity Cliff

이게 진짜 중요함

쉽게 설명

Activity Cliff

왜 중요하냐

대표 논문

MoleculeACE

van Tilborg paper

4. CARA benchmark

이게 뭐냐

왜 중요하냐

5. 논문 제목 방향

Structure-Aware Robust Learning Improves Temporal Generalization in Antibiotic Response Prediction

더 좋은 방향

Structure-Aware Robust Learning for Temporal Generalization in Molecular Activity Prediction

Structure-Aware Learning under Temporal and Structural Shift

최종 목표

1. GDSC (Genomics of Drug Sensitivity in Cancer)

실제 데이터 형태

2. PRISM (Broad Institute)

실제 데이터 형태

3. BindingDB

실제 데이터 형태

4. ChEMBL

실제 데이터 형태

교수님이 가장 좋아하는 포인트

“아 그래서 진짜 현재 논문 구조랑 똑같네”

'Others' 카테고리의 다른 글

티스토리툴바