https://team-sudal.tistory.com/169
[khkim] AMR 모델 자료조사
### 📌 [AMR] 멀티모달 기반 AMR 예측 모델 최신 연구 동향 #### 1. 주요 모델 구조 * 항생제 분자 구조(Molecular Graph)와 세균 유전체 서열(Genomic Sequence)을 동시 학습하는 Multimodal GNN-Transformer 아키텍처임
team-sudal.tistory.com

16. Split 방식 조사
16.1 왜 split 방식이 중요한가
AMR 예측에서는 단순 random split만 쓰면 성능이 과대평가될 수 있음.
이유는 bacterial genome 데이터가 독립적인 샘플처럼 보이지만, 실제로는 서로 매우 비슷한 clone이나 같은 lineage에 속한 균주가 많기 때문임.
이런 경우 random split을 하면 거의 비슷한 균주가 train과 test에 동시에 들어갈 수 있음.
쉽게 말하면,
train set에 거의 같은 세균이 있고
test set에도 거의 같은 세균이 있으면
모델이 진짜 내성 원인을 배운 게 아니라
비슷한 세균을 외워서 맞히는 상황이 생김
따라서 AMR 모델에서는 성능 수치만 볼 게 아니라,
어떤 split에서 평가했는지를 반드시 같이 봐야 함.
17. AMR에서 고려해야 하는 split 방식
17.1 Random split
개념
전체 데이터를 무작위로 train / validation / test로 나누는 방식임.
예시:
전체 isolate
→ train 80%
→ validation 10%
→ test 10%
또는
train 80%
test 20%
AMR-GNN 논문도 antimicrobial별 AST label을 기준으로 stratified 80/20 split을 사용하고, 10개 random split에서 평균 성능을 보고함. (Nature)
장점
- 구현 쉬움
- 클래스 비율 유지하기 쉬움
- 모델 간 기본 성능 비교에 적합함
한계
- clone leakage 가능성 있음
- 같은 lineage가 train/test에 동시에 들어갈 수 있음
- 실제 새로운 균주에 대한 일반화 성능보다 높게 나올 수 있음
쉽게 말하면,
시험 문제와 거의 비슷한 문제가 학습 문제에 이미 들어간 상황이 될 수 있음.
사용 목적
random split은 기본 baseline으로는 필요함.
하지만 random split 성능만 보고 모델이 좋다고 주장하면 약함.
17.2 Stratified split
개념
resistant / susceptible 비율을 유지하면서 train/test를 나누는 방식임.
예시:
전체 데이터에서 resistant 30%, susceptible 70%라면
train/test에서도 비슷한 비율 유지
장점
- class imbalance 문제를 줄일 수 있음
- 항생제별 R/S 비율이 크게 다른 AMR 데이터에 적합함
- random split보다 평가가 안정적임
한계
- clone leakage 문제는 여전히 남아 있음
- species, hospital, year, clade 편향은 해결하지 못함
사용 목적
AMR에서는 최소한 stratified split을 기본으로 써야 함.
특히 antibiotic별로 resistant/susceptible 비율이 다르기 때문에 필요함.
17.3 Species holdout split
개념
특정 species를 아예 test set으로 빼는 방식임.
예시:
Train:
- E. coli
- K. pneumoniae
- P. aeruginosa
Test:
- S. aureus
즉, 모델이 학습 때 보지 못한 species에 대해 내성을 예측할 수 있는지 평가함.
장점
- cross-species generalization 평가 가능
- 진짜 OOD 성능 확인 가능
- robust learning 연구에 적합함
한계
- 매우 어려운 평가 방식임
- species별 resistance mechanism이 다르면 성능이 크게 떨어질 수 있음
- molecular feature나 conserved mechanism 정보가 없으면 일반화가 어려움
최근 genomic foundation model 기반 AMR 연구에서는 cross-species AMR prediction을 OOD generalization 문제로 정의하고, strict species holdout protocol에서 k-mer baseline이 무너질 수 있음을 지적함. (arXiv)
쉽게 말하면,
E. coli로 공부한 모델이 Klebsiella에서도 잘 맞히는지 보는 시험임.
사용 목적
현재 연구가 robust learning을 강조하려면 반드시 고려할 필요 있음.
17.4 Clade holdout split
개념
같은 species 안에서도 유전적으로 다른 clade를 test set으로 빼는 방식임.
예시:
같은 E. coli 안에서
Train:
- clade A
- clade B
Test:
- clade C
장점
- species holdout보다 현실적인 OOD 평가
- population structure bias 확인 가능
- clone이나 lineage shortcut을 줄일 수 있음
한계
- core genome phylogeny나 clustering이 필요함
- clade 정의 방식에 따라 결과가 달라질 수 있음
- 데이터 수가 적으면 split이 불안정해질 수 있음
최근 연구에서는 bacterial population structure와 clade-specific sampling이 AMR machine learning prediction을 교란할 수 있음을 지적했고, random split과 clade 기반 split 결과가 다르게 나타날 수 있음을 보임. (PLOS)
쉽게 말하면,
같은 종 안에서도 서로 먼 친척 균주를 test로 빼서, 모델이 족보를 외운 건지 진짜 내성 원인을 배운 건지 확인하는 방식임.
사용 목적
AMR 연구에서 random split보다 훨씬 설득력 있는 평가 방식임.
17.5 Clone-aware split
개념
거의 동일하거나 매우 가까운 clone이 train/test에 동시에 들어가지 않도록 나누는 방식임.
예시:
Genome similarity가 매우 높은 isolate들을 하나의 group으로 묶음
→ 같은 group은 train/test에 동시에 들어가지 않게 함
장점
- clone leakage 방지
- 실제 신규 균주 예측 성능에 더 가까움
- AMR 모델의 과대평가를 줄일 수 있음
한계
- clone 정의 기준이 필요함
- MLST, cgMLST, Mash distance, SNP distance 등 기준 선택 필요
- 기준에 따라 결과가 달라질 수 있음
AMR-GNN은 clonal relationship bias를 줄이기 위해 MLST 기반 clonal relationship decoupling을 적용함. 즉, clonal relationship이 너무 강하게 모델 학습에 반영되지 않도록 조절함. (Nature)
사용 목적
현재 연구에서 “robust learning”을 주장하려면 clone-aware split 또는 clonal decoupling을 고려하는 게 좋음.
17.6 Drug holdout split
개념
특정 항생제를 test set으로 빼는 방식임.
예시:
Train:
- ciprofloxacin
- ceftriaxone
- meropenem
Test:
- gentamicin
즉, 모델이 학습 때 보지 못한 항생제에 대해 내성을 예측할 수 있는지 평가함.
장점
- molecular feature branch의 효과를 평가하기 좋음
- 새로운 항생제에 대한 일반화 가능성 확인 가능
- 분자정보를 넣는 모델에서 특히 중요함
한계
- 항생제마다 작용기전이 다르면 매우 어려움
- genome-only 모델은 drug holdout에서 거의 일반화하기 어려울 수 있음
- drug class별 split을 따로 설계해야 함
쉽게 말하면,
모델이 이미 본 항생제만 맞히는지, 처음 보는 항생제에도 어느 정도 대응하는지 보는 시험임.
사용 목적
현재 연구가 분자정보 + 게놈 피처 동시 입력 구조라면 drug holdout은 매우 중요함.
분자정보를 넣는 이유를 보여줄 수 있는 split임.
17.7 Drug class holdout split
개념
특정 항생제 하나가 아니라, 특정 drug class 전체를 test set으로 빼는 방식임.
예시:
Train:
- beta-lactam 계열 제외한 항생제들
Test:
- beta-lactam 계열 항생제
장점
- 더 강한 OOD 평가
- drug molecular representation의 일반화 능력 확인 가능
- 새로운 계열 항생제 대응 가능성 평가 가능
한계
- 가장 어려운 split 중 하나임
- class별 데이터 수가 충분해야 함
- resistance mechanism이 계열별로 다르면 성능이 낮게 나올 수 있음
사용 목적
논문에서 강한 claim을 하려면 보조 실험으로 넣을 수 있음.
다만 초기 실험에서는 drug holdout을 먼저 하고, 이후 drug class holdout으로 확장하는 게 현실적임.
17.8 Time-based split
개념
과거 데이터를 train set으로, 미래 데이터를 test set으로 사용하는 방식임.
예시:
Train:
- 2010~2018 isolate
Validation:
- 2019~2020 isolate
Test:
- 2021~2023 isolate
장점
- 실제 임상 적용 상황과 가까움
- 시간이 지나면서 등장하는 새로운 resistance pattern 평가 가능
- surveillance 모델에 적합함
한계
- isolate collection year 정보가 필요함
- 연도별 데이터 수가 불균형할 수 있음
- 병원/지역 변화와 시간 변화가 섞일 수 있음
쉽게 말하면,
과거 데이터로 학습해서 미래에 새로 나오는 내성균을 맞히는지 보는 방식임.
사용 목적
실제 서비스나 임상 적용을 주장하려면 time-based split이 매우 설득력 있음.
17.9 Source / Hospital / Country holdout split
개념
특정 데이터 출처, 병원, 국가를 test set으로 빼는 방식임.
예시:
Train:
- Hospital A
- Hospital B
- Hospital C
Test:
- Hospital D
또는
Train:
- Korea
- Japan
- USA
Test:
- Germany
장점
- 실제 배포 환경에서의 domain shift 평가 가능
- 병원/지역별 sampling bias 확인 가능
- robust learning 연구에 적합함
한계
- metadata가 필요함
- source별 데이터 품질 차이가 성능에 영향을 줄 수 있음
- 국가/병원 effect와 species composition effect가 섞일 수 있음
사용 목적
외부 병원 데이터에 적용할 모델이면 중요함.
특히 clinical deployment를 주장하려면 좋은 평가 방식임.
18. Split 방식별 난이도 정리
Split 방식난이도목적추천 여부
| Random split | 낮음 | 기본 성능 확인 | 필수 |
| Stratified random split | 낮음 | R/S 비율 유지 | 필수 |
| Clone-aware split | 중간 | clone leakage 방지 | 강력 추천 |
| Clade holdout | 중간~높음 | population structure bias 확인 | 강력 추천 |
| Species holdout | 높음 | cross-species 일반화 | robust claim 시 필요 |
| Drug holdout | 높음 | 새로운 항생제 일반화 | 분자정보 모델이면 필요 |
| Drug class holdout | 매우 높음 | 새로운 계열 일반화 | 보조 실험 |
| Time-based split | 중간~높음 | 미래 데이터 일반화 | 임상 적용 주장 시 필요 |
| Hospital/source holdout | 중간~높음 | 외부기관 일반화 | 가능하면 추천 |
19. 현재 연구에서 추천하는 split 구성
현재 연구가 분자정보 + 게놈 피처를 동시에 넣는 AMR 모델이라면 아래 split 구성이 적절함.
1순위: 기본 성능 확인
Stratified random split
목적:
모델이 기본적으로 학습 가능한지 확인
기존 baseline과 비교
2순위: genome 편향 확인
Clone-aware split
또는
Clade holdout split
목적:
모델이 clone이나 lineage를 외운 것이 아닌지 확인
3순위: 분자정보 효과 확인
Drug holdout split
목적:
분자정보 branch가 실제로 새로운 항생제 일반화에 도움 되는지 확인
이 split에서 genome-only 모델보다 genome + molecular 모델이 좋으면,
분자정보를 넣은 이유가 강하게 설명됨.
4순위: robust learning claim
Species holdout split
목적:
새로운 species에 대한 일반화 가능성 확인
단, 이건 매우 어려운 실험임.
처음부터 main result로 잡기보다는 robust analysis로 두는 게 안전함.
20. 실험 설계 예시
Experiment 1. Random split baseline
Train/Val/Test = 70/10/20
항생제별 R/S label 비율 유지
모든 모델 동일 split 사용
비교 모델:
CARD-RGI
AMRFinderPlus
Kover
XGBoost
Genome-only MLP
Molecular-only model
Genome + molecular fusion model
Experiment 2. Clone-aware split
Genome similarity 기반으로 isolate clustering
같은 cluster는 train/test에 동시에 들어가지 않게 함
cluster 기준 후보:
MLST
cgMLST
Mash distance
SNP distance
core genome phylogeny
평가 목적:
random split 대비 성능 하락 폭 확인
성능 하락이 작을수록 robust한 모델
Experiment 3. Drug holdout split
특정 antibiotic을 test로 제외
나머지 antibiotic으로 학습
held-out antibiotic에 대해 평가
예시:
Train:
ciprofloxacin, ceftriaxone, meropenem
Test:
gentamicin
평가 목적:
molecular feature가 새로운 drug 일반화에 도움 되는지 확인
Experiment 4. Species holdout split
특정 species를 test로 제외
나머지 species로 학습
held-out species에 대해 평가
예시:
Train:
E. coli, K. pneumoniae, P. aeruginosa
Test:
S. aureus
평가 목적:
cross-species generalization 확인
21. 성능 보고 방식
Split 방식마다 성능을 따로 보고해야 함.
Random split AUROC / AUPRC / F1 / MCC
Clone-aware split AUROC / AUPRC / F1 / MCC
Drug holdout AUROC / AUPRC / F1 / MCC
Species holdout AUROC / AUPRC / F1 / MCC
AMR은 class imbalance가 자주 발생하므로 accuracy만 쓰면 안 됨.
추천 지표:
AUROC
AUPRC
F1-score
MCC
Balanced accuracy
Sensitivity
Specificity
특히 resistant sample이 적으면 AUPRC와 MCC가 중요함.
22. 최종 정리
AMR 모델에서는 random split 성능만으로 모델이 좋다고 주장하기 어려움.
bacterial genome은 clonal population structure가 강하기 때문에, random split에서는 비슷한 균주가 train/test에 동시에 들어가 성능이 과대평가될 수 있음. 따라서 기본 stratified random split 외에 clone-aware split 또는 clade holdout split이 필요함. 현재 연구처럼 분자정보와 게놈 피처를 동시에 넣는 구조에서는 drug holdout split도 중요함. drug holdout에서 genome + molecular fusion 모델이 genome-only 모델보다 좋으면, 항생제 분자정보를 넣는 이유를 설득력 있게 보여줄 수 있음. robust learning을 강조하려면 species holdout, time-based split, hospital/source holdout까지 확장 가능함.
'Others' 카테고리의 다른 글
| [hyunsugo] "2.5D"의 본질은 무엇인가 (0) | 2026.05.30 |
|---|---|
| [khkim] AMR 모델 자료조사 (0) | 2026.05.21 |
| [Tien] Data and methods related to birth defect (0) | 2026.05.16 |
| ProsMAE 논문 작성의 건 (0) | 2026.05.15 |
| [khkim] MICCAI26 Mathena논문 Rebuttal (0) | 2026.05.09 |