[khkim] AMR 모델 자료조사

### 📌 [AMR] 멀티모달 기반 AMR 예측 모델 최신 연구 동향 #### 1. 주요 모델 구조 * 항생제 분자 구조(Molecular Graph)와 세균 유전체 서열(Genomic Sequence)을 동시 학습하는 Multimodal GNN-Transformer 아키텍처임

team-sudal.tistory.com

16. Split 방식 조사

16.1 왜 split 방식이 중요한가

AMR 예측에서는 단순 random split만 쓰면 성능이 과대평가될 수 있음.

이유는 bacterial genome 데이터가 독립적인 샘플처럼 보이지만, 실제로는 서로 매우 비슷한 clone이나 같은 lineage에 속한 균주가 많기 때문임.
이런 경우 random split을 하면 거의 비슷한 균주가 train과 test에 동시에 들어갈 수 있음.

쉽게 말하면,

train set에 거의 같은 세균이 있고
test set에도 거의 같은 세균이 있으면
모델이 진짜 내성 원인을 배운 게 아니라
비슷한 세균을 외워서 맞히는 상황이 생김

따라서 AMR 모델에서는 성능 수치만 볼 게 아니라,
어떤 split에서 평가했는지를 반드시 같이 봐야 함.

17. AMR에서 고려해야 하는 split 방식

17.1 Random split

개념

전체 데이터를 무작위로 train / validation / test로 나누는 방식임.

예시:

전체 isolate
→ train 80%
→ validation 10%
→ test 10%

또는

train 80%
test 20%

AMR-GNN 논문도 antimicrobial별 AST label을 기준으로 stratified 80/20 split을 사용하고, 10개 random split에서 평균 성능을 보고함. (Nature)

장점

구현 쉬움
클래스 비율 유지하기 쉬움
모델 간 기본 성능 비교에 적합함

한계

clone leakage 가능성 있음
같은 lineage가 train/test에 동시에 들어갈 수 있음
실제 새로운 균주에 대한 일반화 성능보다 높게 나올 수 있음

쉽게 말하면,
시험 문제와 거의 비슷한 문제가 학습 문제에 이미 들어간 상황이 될 수 있음.

사용 목적

random split은 기본 baseline으로는 필요함.
하지만 random split 성능만 보고 모델이 좋다고 주장하면 약함.

17.2 Stratified split

개념

resistant / susceptible 비율을 유지하면서 train/test를 나누는 방식임.

예시:

전체 데이터에서 resistant 30%, susceptible 70%라면
train/test에서도 비슷한 비율 유지

장점

class imbalance 문제를 줄일 수 있음
항생제별 R/S 비율이 크게 다른 AMR 데이터에 적합함
random split보다 평가가 안정적임

한계

clone leakage 문제는 여전히 남아 있음
species, hospital, year, clade 편향은 해결하지 못함

사용 목적

AMR에서는 최소한 stratified split을 기본으로 써야 함.
특히 antibiotic별로 resistant/susceptible 비율이 다르기 때문에 필요함.

17.3 Species holdout split

개념

특정 species를 아예 test set으로 빼는 방식임.

예시:

Train:
- E. coli
- K. pneumoniae
- P. aeruginosa

Test:
- S. aureus

즉, 모델이 학습 때 보지 못한 species에 대해 내성을 예측할 수 있는지 평가함.

장점

cross-species generalization 평가 가능
진짜 OOD 성능 확인 가능
robust learning 연구에 적합함

한계

매우 어려운 평가 방식임
species별 resistance mechanism이 다르면 성능이 크게 떨어질 수 있음
molecular feature나 conserved mechanism 정보가 없으면 일반화가 어려움

최근 genomic foundation model 기반 AMR 연구에서는 cross-species AMR prediction을 OOD generalization 문제로 정의하고, strict species holdout protocol에서 k-mer baseline이 무너질 수 있음을 지적함. (arXiv)

쉽게 말하면,
E. coli로 공부한 모델이 Klebsiella에서도 잘 맞히는지 보는 시험임.

사용 목적

현재 연구가 robust learning을 강조하려면 반드시 고려할 필요 있음.

17.4 Clade holdout split

개념

같은 species 안에서도 유전적으로 다른 clade를 test set으로 빼는 방식임.

예시:

같은 E. coli 안에서

Train:
- clade A
- clade B

Test:
- clade C

장점

species holdout보다 현실적인 OOD 평가
population structure bias 확인 가능
clone이나 lineage shortcut을 줄일 수 있음

한계

core genome phylogeny나 clustering이 필요함
clade 정의 방식에 따라 결과가 달라질 수 있음
데이터 수가 적으면 split이 불안정해질 수 있음

최근 연구에서는 bacterial population structure와 clade-specific sampling이 AMR machine learning prediction을 교란할 수 있음을 지적했고, random split과 clade 기반 split 결과가 다르게 나타날 수 있음을 보임. (PLOS)

쉽게 말하면,
같은 종 안에서도 서로 먼 친척 균주를 test로 빼서, 모델이 족보를 외운 건지 진짜 내성 원인을 배운 건지 확인하는 방식임.

사용 목적

AMR 연구에서 random split보다 훨씬 설득력 있는 평가 방식임.

17.5 Clone-aware split

개념

거의 동일하거나 매우 가까운 clone이 train/test에 동시에 들어가지 않도록 나누는 방식임.

예시:

Genome similarity가 매우 높은 isolate들을 하나의 group으로 묶음
→ 같은 group은 train/test에 동시에 들어가지 않게 함

장점

clone leakage 방지
실제 신규 균주 예측 성능에 더 가까움
AMR 모델의 과대평가를 줄일 수 있음

한계

clone 정의 기준이 필요함
MLST, cgMLST, Mash distance, SNP distance 등 기준 선택 필요
기준에 따라 결과가 달라질 수 있음

AMR-GNN은 clonal relationship bias를 줄이기 위해 MLST 기반 clonal relationship decoupling을 적용함. 즉, clonal relationship이 너무 강하게 모델 학습에 반영되지 않도록 조절함. (Nature)

사용 목적

현재 연구에서 “robust learning”을 주장하려면 clone-aware split 또는 clonal decoupling을 고려하는 게 좋음.

17.6 Drug holdout split

개념

특정 항생제를 test set으로 빼는 방식임.

예시:

Train:
- ciprofloxacin
- ceftriaxone
- meropenem

Test:
- gentamicin

즉, 모델이 학습 때 보지 못한 항생제에 대해 내성을 예측할 수 있는지 평가함.

장점

molecular feature branch의 효과를 평가하기 좋음
새로운 항생제에 대한 일반화 가능성 확인 가능
분자정보를 넣는 모델에서 특히 중요함

한계

항생제마다 작용기전이 다르면 매우 어려움
genome-only 모델은 drug holdout에서 거의 일반화하기 어려울 수 있음
drug class별 split을 따로 설계해야 함

쉽게 말하면,
모델이 이미 본 항생제만 맞히는지, 처음 보는 항생제에도 어느 정도 대응하는지 보는 시험임.

사용 목적

현재 연구가 분자정보 + 게놈 피처 동시 입력 구조라면 drug holdout은 매우 중요함.
분자정보를 넣는 이유를 보여줄 수 있는 split임.

17.7 Drug class holdout split

개념

특정 항생제 하나가 아니라, 특정 drug class 전체를 test set으로 빼는 방식임.

예시:

Train:
- beta-lactam 계열 제외한 항생제들

Test:
- beta-lactam 계열 항생제

장점

더 강한 OOD 평가
drug molecular representation의 일반화 능력 확인 가능
새로운 계열 항생제 대응 가능성 평가 가능

한계

가장 어려운 split 중 하나임
class별 데이터 수가 충분해야 함
resistance mechanism이 계열별로 다르면 성능이 낮게 나올 수 있음

사용 목적

논문에서 강한 claim을 하려면 보조 실험으로 넣을 수 있음.
다만 초기 실험에서는 drug holdout을 먼저 하고, 이후 drug class holdout으로 확장하는 게 현실적임.

17.8 Time-based split

개념

과거 데이터를 train set으로, 미래 데이터를 test set으로 사용하는 방식임.

예시:

Train:
- 2010~2018 isolate

Validation:
- 2019~2020 isolate

Test:
- 2021~2023 isolate

장점

실제 임상 적용 상황과 가까움
시간이 지나면서 등장하는 새로운 resistance pattern 평가 가능
surveillance 모델에 적합함

한계

isolate collection year 정보가 필요함
연도별 데이터 수가 불균형할 수 있음
병원/지역 변화와 시간 변화가 섞일 수 있음

쉽게 말하면,
과거 데이터로 학습해서 미래에 새로 나오는 내성균을 맞히는지 보는 방식임.

사용 목적

실제 서비스나 임상 적용을 주장하려면 time-based split이 매우 설득력 있음.

17.9 Source / Hospital / Country holdout split

개념

특정 데이터 출처, 병원, 국가를 test set으로 빼는 방식임.

예시:

Train:
- Hospital A
- Hospital B
- Hospital C

Test:
- Hospital D

또는

Train:
- Korea
- Japan
- USA

Test:
- Germany

장점

실제 배포 환경에서의 domain shift 평가 가능
병원/지역별 sampling bias 확인 가능
robust learning 연구에 적합함

한계

metadata가 필요함
source별 데이터 품질 차이가 성능에 영향을 줄 수 있음
국가/병원 effect와 species composition effect가 섞일 수 있음

사용 목적

외부 병원 데이터에 적용할 모델이면 중요함.
특히 clinical deployment를 주장하려면 좋은 평가 방식임.

18. Split 방식별 난이도 정리

Split 방식난이도목적추천 여부

Random split	낮음	기본 성능 확인	필수
Stratified random split	낮음	R/S 비율 유지	필수
Clone-aware split	중간	clone leakage 방지	강력 추천
Clade holdout	중간~높음	population structure bias 확인	강력 추천
Species holdout	높음	cross-species 일반화	robust claim 시 필요
Drug holdout	높음	새로운 항생제 일반화	분자정보 모델이면 필요
Drug class holdout	매우 높음	새로운 계열 일반화	보조 실험
Time-based split	중간~높음	미래 데이터 일반화	임상 적용 주장 시 필요
Hospital/source holdout	중간~높음	외부기관 일반화	가능하면 추천

19. 현재 연구에서 추천하는 split 구성

현재 연구가 분자정보 + 게놈 피처를 동시에 넣는 AMR 모델이라면 아래 split 구성이 적절함.

1순위: 기본 성능 확인

Stratified random split

목적:

모델이 기본적으로 학습 가능한지 확인
기존 baseline과 비교

2순위: genome 편향 확인

Clone-aware split
또는
Clade holdout split

목적:

모델이 clone이나 lineage를 외운 것이 아닌지 확인

3순위: 분자정보 효과 확인

Drug holdout split

목적:

분자정보 branch가 실제로 새로운 항생제 일반화에 도움 되는지 확인

이 split에서 genome-only 모델보다 genome + molecular 모델이 좋으면,
분자정보를 넣은 이유가 강하게 설명됨.

4순위: robust learning claim

Species holdout split

목적:

새로운 species에 대한 일반화 가능성 확인

단, 이건 매우 어려운 실험임.
처음부터 main result로 잡기보다는 robust analysis로 두는 게 안전함.

20. 실험 설계 예시

Experiment 1. Random split baseline

Train/Val/Test = 70/10/20
항생제별 R/S label 비율 유지
모든 모델 동일 split 사용

비교 모델:

CARD-RGI
AMRFinderPlus
Kover
XGBoost
Genome-only MLP
Molecular-only model
Genome + molecular fusion model

Experiment 2. Clone-aware split

Genome similarity 기반으로 isolate clustering
같은 cluster는 train/test에 동시에 들어가지 않게 함

cluster 기준 후보:

MLST
cgMLST
Mash distance
SNP distance
core genome phylogeny

평가 목적:

random split 대비 성능 하락 폭 확인
성능 하락이 작을수록 robust한 모델

Experiment 3. Drug holdout split

특정 antibiotic을 test로 제외
나머지 antibiotic으로 학습
held-out antibiotic에 대해 평가

예시:

Train:
ciprofloxacin, ceftriaxone, meropenem

Test:
gentamicin

평가 목적:

molecular feature가 새로운 drug 일반화에 도움 되는지 확인

Experiment 4. Species holdout split

특정 species를 test로 제외
나머지 species로 학습
held-out species에 대해 평가

예시:

Train:
E. coli, K. pneumoniae, P. aeruginosa

Test:
S. aureus

평가 목적:

cross-species generalization 확인

21. 성능 보고 방식

Split 방식마다 성능을 따로 보고해야 함.

Random split AUROC / AUPRC / F1 / MCC
Clone-aware split AUROC / AUPRC / F1 / MCC
Drug holdout AUROC / AUPRC / F1 / MCC
Species holdout AUROC / AUPRC / F1 / MCC

AMR은 class imbalance가 자주 발생하므로 accuracy만 쓰면 안 됨.

22. 최종 정리

AMR 모델에서는 random split 성능만으로 모델이 좋다고 주장하기 어려움.
bacterial genome은 clonal population structure가 강하기 때문에, random split에서는 비슷한 균주가 train/test에 동시에 들어가 성능이 과대평가될 수 있음. 따라서 기본 stratified random split 외에 clone-aware split 또는 clade holdout split이 필요함. 현재 연구처럼 분자정보와 게놈 피처를 동시에 넣는 구조에서는 drug holdout split도 중요함. drug holdout에서 genome + molecular fusion 모델이 genome-only 모델보다 좋으면, 항생제 분자정보를 넣는 이유를 설득력 있게 보여줄 수 있음. robust learning을 강조하려면 species holdout, time-based split, hospital/source holdout까지 확장 가능함.

'Others' 카테고리의 다른 글

[hyunsugo] "2.5D"의 본질은 무엇인가 (0)	2026.05.30
[khkim] AMR 모델 자료조사 (0)	2026.05.21
[Tien] Data and methods related to birth defect (0)	2026.05.16
ProsMAE 논문 작성의 건 (0)	2026.05.15
[khkim] MICCAI26 Mathena논문 Rebuttal (0)	2026.05.09

16. Split 방식 조사

16.1 왜 split 방식이 중요한가

17. AMR에서 고려해야 하는 split 방식

17.1 Random split

개념

장점

한계

사용 목적

17.2 Stratified split

개념

장점

한계

사용 목적

17.3 Species holdout split

개념

장점

한계

사용 목적

17.4 Clade holdout split

개념

장점

한계

사용 목적

17.5 Clone-aware split

개념

장점

한계

사용 목적

17.6 Drug holdout split

개념

장점

한계

사용 목적

17.7 Drug class holdout split

개념

장점

한계

사용 목적

17.8 Time-based split

개념

장점

한계

사용 목적

17.9 Source / Hospital / Country holdout split

개념

장점

한계

사용 목적

18. Split 방식별 난이도 정리

19. 현재 연구에서 추천하는 split 구성

1순위: 기본 성능 확인

2순위: genome 편향 확인

3순위: 분자정보 효과 확인

4순위: robust learning claim

20. 실험 설계 예시

Experiment 1. Random split baseline

Experiment 2. Clone-aware split

Experiment 3. Drug holdout split

Experiment 4. Species holdout split

21. 성능 보고 방식

22. 최종 정리

'Others' 카테고리의 다른 글

티스토리툴바