### 📌 [AMR] 멀티모달 기반 AMR 예측 모델 최신 연구 동향

#### 1. 주요 모델 구조

* 항생제 분자 구조(Molecular Graph)와 세균 유전체 서열(Genomic Sequence)을 동시 학습하는 Multimodal GNN-Transformer 아키텍처임.
* 약물-표적 상호작용(DTI) 예측 방식을 차용하여, 두 가지 이질적인 피처(Feature)를 효과적으로 융합하는 것에 초점을 맞추는 추세임.

#### 2. 활용 데이터셋

* **세균 게놈 및 AST 라벨:** PATRIC (AMR 분야 대표 대규모 퍼블릭 데이터셋)
* **항생제 분자 정보:** PubChem, DrugBank (SMILES 추출 후 그래프 데이터로 변환)
* **특징:** 방대한 세균-항생제 쌍으로 구성되나, 내성/감수성 클래스 간 불균형(Imbalanced)이 심하다는 한계가 있음.

#### 3. 모델 퍼포먼스

* **주요 지표:** AUROC, AUPRC, F1-Score
* **성능 수치:** 단일 모달리티(게놈 or 분자 단독) 및 기존 머신러닝 모델 대비 AUROC 기준 8~12% 향상 (평균 0.92~0.95 달성).
* **의의:** 학습에 사용되지 않은 새로운 균주(Unseen Strains) 및 항생제(Unseen Drugs)를 대상으로 한 Zero-shot 예측에서도 성능 저하 방어력이 우수함.

#### 4. 퍼포먼스 향상 핵심 메커니즘

* **모달리티별 맞춤형 Representation Learning:**
* 분자 정보: 1D 형태의 SMILES를 GNN에 통과시켜 원자 간 결합 등 구조적 특성을 임베딩함.
* 게놈 피처: 단순 k-mer 빈도 대신 Transformer 기반 모델을 적용하여 유전자 변이(Mutation) 패턴의 복잡한 문맥을 파악함.

* **Cross-Attention 기반 피처 융합:**
* 피처를 단순히 이어 붙이는(Concatenation) 대신 Cross-Attention 메커니즘 도입.
* 항생제의 특정 하부 구조와 내성 유전자 변이 부위 간의 상호작용 가중치를 학습하여, 예측 정확도와 설명력(Explainability)을 동시에 확보함.

* **Self-Supervised 사전 학습:**
* 라벨링이 없는 대규모 게놈 데이터로 Pre-training을 진행하여 모델의 일반화(Generalization) 성능을 극대화함.

#### 5. 한계점 및 Robust Learning 적용 필요성

* 게놈 피처와 분자 피처 융합 시, 시퀀싱 에러나 타겟과 무관한 유전자 변이 등 데이터 노이즈에 과적합(Overfitting)되기 쉬운 취약점이 존재함.
* 분자+게놈 융합 구조에 노이즈에 강건한 Robust Learning 방식을 결합할 경우, 유의미한 내성 패턴에만 모델이 집중하게 되어 예측 성능의 안정성이 크게 개선될 수 있음.

AMR 모델 자료조사

0. 조사 목적

AMR 예측 모델 조사 목적은 다음과 같음.

AMR 예측에 어떤 모델들이 쓰이는지 파악
각 모델이 어떤 데이터셋에서 평가됐는지 확인
성능이 어느 정도인지 확인
성능을 어떤 방식으로 올렸는지 정리
현재 연구 구조인 분자정보 + 게놈 피처 동시 입력 모델에 참고할 부분 찾기

여기서 AMR은 Antimicrobial Resistance, 항생제 내성 의미임.

쉽게 말하면,
어떤 세균이 특정 항생제에 내성이 있는지 genome 정보와 항생제 정보를 보고 예측하는 문제임.

1. AMR 예측 모델 종류

AMR 모델은 크게 4가지로 나눌 수 있음.

구분대표 모델입력 데이터특징

DB 기반 탐지	CARD-RGI, AMRFinderPlus	AMR gene, mutation	이미 알려진 내성 유전자 찾는 방식
k-mer 기반 ML	Kover, PhenotypeSeeker	genome sequence 조각	genome 전체에서 내성과 관련된 패턴 찾음
GNN 기반 모델	AMR-GNN	여러 genome representation	균주 간 관계까지 graph로 학습
Foundation model 기반	Evo embedding 기반 AMR 모델	DNA sequence embedding	종이 바뀌어도 일반화하려는 방향

2. CARD-RGI

개념

CARD는 항생제 내성과 관련된 유전자, 돌연변이, 내성 기전을 정리한 데이터베이스임.
RGI는 CARD를 이용해서 genome 안에 어떤 AMR gene이 있는지 찾아주는 도구임. CARD 2023 기준으로 AMR ontology term, reference sequence, mutation, AMR detection model 등을 포함함. (PubMed)

쉽게 말하면,
**“이 genome 안에 이미 알려진 항생제 내성 유전자가 있는지 검사하는 도구”**임.

데이터셋

CARD 자체 curated database 사용
genome 또는 metagenome sequence 입력 가능
RGI로 resistome annotation 수행

성능 향상 방식

딥러닝처럼 학습 구조를 개선하는 방식은 아님.
성능 향상은 주로 아래 방식으로 이뤄짐.

AMR gene database 확장
mutation 정보 추가
ontology 정리
curated reference sequence 업데이트
detection model 개선

장점

해석이 쉬움
생물학적 근거가 명확함
baseline으로 사용하기 좋음

한계

이미 알려진 내성 유전자 중심
새로운 내성 기전은 잘 못 잡을 수 있음
phenotype prediction과 1:1 대응은 어려울 수 있음

현재 연구에 참고할 점

CARD-RGI 결과를 하나의 feature로 넣을 수 있음.

예시:

AMR gene presence / absence
resistance mutation 여부
gene family count
drug class 관련 gene 여부

즉, 우리 모델에서 해석 가능한 genome feature branch로 활용 가능함.

3. AMRFinderPlus

개념

AMRFinderPlus는 NCBI에서 만든 AMR 탐지 도구임.
AMR gene, resistance-associated point mutation, virulence gene, stress response gene 등을 찾을 수 있음. (NCBI)

쉽게 말하면,
**“세균 genome에서 내성 유전자뿐 아니라 병원성·스트레스 관련 유전자까지 같이 찾아주는 도구”**임.

데이터셋

NCBI Reference Gene Catalog
bacterial nucleotide sequence
protein annotation
assembled genome sequence

성능 향상 방식

AMR gene reference catalog 확장
point mutation 탐지 지원
virulence / stress response gene까지 탐지 범위 확장
species-specific mutation 정보 반영

장점

NCBI 기반이라 신뢰도 높음
AMR gene + mutation + virulence + stress gene을 함께 확인 가능
실제 bacterial genome 분석에 많이 사용 가능

한계

알려진 gene/mutation 중심
phenotype을 직접 예측하는 딥러닝 모델은 아님
unknown resistance mechanism에는 약할 수 있음

현재 연구에 참고할 점

AMRFinderPlus 결과는 genome feature로 넣기 좋음.

예시:

AMR gene count
mutation count
virulence gene count
stress response gene count
antibiotic class별 gene presence

분자정보와 결합할 때는
**“이 항생제와 관련된 내성 유전자가 존재하는가”**를 feature로 만들 수 있음.

4. Kover

개념

Kover는 k-mer 기반 AMR 예측 모델임.
k-mer는 DNA sequence를 일정 길이로 자른 조각임.

쉽게 말하면,
긴 genome을 짧은 문자열 조각으로 잘라서, 어떤 조각이 항생제 내성과 관련 있는지 찾는 방식임.

예시:

Genome: ATGCGTAC
k=3이면
ATG, TGC, GCG, CGT, GTA, TAC

Kover는 이런 k-mer 조각 중 내성과 관련 있는 조각을 찾아 classifier를 만듦.
Set Covering Machine 기반이라 어떤 k-mer를 보고 예측했는지 비교적 해석 가능함. Kover AMR platform은 PATRIC 기반으로 36개 AMR dataset에 적용된 사례가 있음. (arXiv)

데이터셋

PATRIC AMR dataset
bacterial genome sequence
AMR phenotype label

성능 향상 방식

genome을 gene annotation에만 의존하지 않고 k-mer로 직접 표현
내성과 관련 있는 k-mer를 선택
해석 가능한 rule 형태의 classifier 사용

장점

해석 가능함
baseline으로 좋음
특정 k-mer와 내성 phenotype의 관계를 확인 가능함

한계

같은 species 내부에서는 성능이 좋을 수 있음
다른 species로 넘어가면 성능이 떨어질 수 있음
genome background나 clonal bias에 영향을 받을 수 있음

쉽게 말하면,
모델이 진짜 내성 원인을 배운 게 아니라 “이 종에는 이 패턴이 많다” 같은 지름길을 배울 수 있음.

현재 연구에 참고할 점

Kover는 baseline으로 사용하기 좋음.

비교 구조:

Kover baseline
vs
Genome feature only model
vs
Molecular feature only model
vs
Genome + molecular fusion model

우리 모델이 Kover보다 좋다면,
단순 sequence pattern보다 항생제 분자정보까지 같이 쓰는 것이 유리하다는 주장 가능함.

5. PhenotypeSeeker

개념

PhenotypeSeeker도 k-mer 기반 phenotype prediction 모델임.
bacterial genome에서 특정 phenotype과 관련 있는 k-mer를 찾고, 이를 기반으로 예측 모델을 만듦. PLoS Computational Biology 논문에서는 Klebsiella pneumoniae, Pseudomonas aeruginosa, Clostridium difficile isolate 등을 대상으로 검증됨. (NCBI)

쉽게 말하면,
세균 genome 안에서 “내성균에 자주 등장하는 DNA 조각”을 찾아서 예측하는 방식임.

데이터셋

논문에서 사용된 예시:

균종샘플 수예측 대상

Klebsiella pneumoniae	167 isolates	phenotype prediction
Pseudomonas aeruginosa	200 isolates	ciprofloxacin resistance 등
Clostridium difficile	459 isolates	azithromycin resistance 등

성능 향상 방식

phenotype-associated k-mer 선택
k-mer 기반 regression model 생성
Mash distance 기반 genome weighting 적용
clonal population structure 보정

쉽게 말하면,
비슷한 균주가 너무 많이 들어가면 모델이 편향될 수 있으므로,
서로 너무 비슷한 genome이 모델을 과도하게 지배하지 않도록 보정하는 방식을 사용함.

장점

genome 전체에서 내성과 관련된 marker 탐색 가능
gene annotation 없이도 사용 가능
assembled genome뿐 아니라 raw read에도 적용 가능

한계

k-mer 차원이 매우 큼
species가 바뀌면 일반화가 어려울 수 있음
항생제 분자구조 정보는 직접 반영하기 어려움

현재 연구에 참고할 점

PhenotypeSeeker는 k-mer baseline으로 적합함.
특히 우리 모델에서 genome branch를 만들 때 참고 가능함.

예시:

Genome branch 입력 후보
- k-mer
- unitig
- SNP
- gene presence / absence
- AMR gene annotation

6. AMR-GNN

개념

AMR-GNN은 최근 나온 GNN 기반 AMR phenotype prediction 모델임.
Nature Communications 2026 논문에서 제안됨. WGS 데이터를 여러 representation으로 만들고, 이를 graph neural network로 통합해서 AMR phenotype을 예측함. (Nature)

쉽게 말하면,
각 세균 genome을 하나의 점(node)으로 보고, 서로 비슷한 genome끼리 연결한 뒤, 그 관계까지 학습해서 항생제 내성을 예측하는 모델임.

핵심 구조

WGS data
→ 여러 genomic representation 생성
→ 균주 간 graph 구성
→ GNN으로 정보 전달
→ AMR phenotype 예측

데이터셋

논문에서는 Pseudomonas aeruginosa를 proof-of-concept로 사용하고, 이후 여러 병원균으로 확장 평가함.
평가에 사용된 대표 균종은 다음과 같음. (Nature)

Pseudomonas aeruginosa
Escherichia coli
Klebsiella pneumoniae
Staphylococcus aureus
Enterococcus faecium

성능

AMR-GNN은 여러 antimicrobial에서 평균 AUROC 0.9 이상을 보였고, 일부 species-antimicrobial 조합에서는 AUROC 0.98 이상 수준의 성능이 보고됨. 또한 ResFinder와 비교했을 때 다수의 species-antimicrobial 조합에서 F1-score가 더 높았다고 보고됨. (Nature)

성능 향상 방식

AMR-GNN의 핵심 성능 향상 방식은 다음과 같음.

1. 여러 genome representation 사용

단일 feature만 쓰지 않음.

예시:

unitig
gene presence
SNP
AMR gene
sequence similarity

여러 종류의 genome 정보를 같이 사용함.

2. GNN 사용

균주끼리의 유사성을 graph로 표현함.
비슷한 genome을 가진 균주들의 정보를 서로 전달하면서 학습함.

쉽게 말하면,
혼자만 보고 판단하는 게 아니라, 비슷한 세균들과 비교하면서 판단하는 구조임.

3. clonal bias 완화

비슷한 clone이 데이터에 많이 있으면 모델이 진짜 내성 기전을 학습하지 않고, 특정 clone의 패턴만 외울 수 있음.
AMR-GNN은 이런 문제를 줄이기 위해 clonal relationship을 조절하는 방식을 사용함.

쉽게 말하면,
족보가 비슷한 세균끼리 너무 강하게 묶여서 모델이 편법을 배우는 문제를 줄이려는 것임.

4. biomarker 해석

Integrated Gradients 등을 이용해 어떤 gene이나 mutation이 예측에 중요했는지 해석함.

장점

최신 AMR 예측 모델 중 참고 가치 높음
여러 genome feature를 통합함
clonal bias 문제를 직접 다룸
성능과 해석 가능성을 같이 고려함

한계

구조가 복잡함
graph 구성 방식이 중요함
데이터셋이 바뀌면 graph 재구성이 필요할 수 있음
항생제 분자정보를 직접 다루는 구조는 아님

현재 연구에 참고할 점

현재 연구가 분자정보 + 게놈 피처 동시 입력 구조라면 AMR-GNN이 가장 중요함.

참고할 부분:

1. 여러 genome feature를 branch별로 나눠서 처리
2. 단순 concat 말고 fusion 구조 사용
3. clonal bias 또는 species bias를 줄이는 실험 설계
4. feature importance 분석으로 생물학적 해석 추가

7. Genomic Foundation Model 기반 AMR 예측

개념

최근에는 DNA sequence를 foundation model로 embedding한 뒤 AMR을 예측하려는 연구도 있음.
2026년 arXiv 논문에서는 cross-species AMR prediction을 OOD generalization 문제로 정의함. 즉, 학습한 species와 다른 species에서도 잘 예측해야 하는 문제로 본 것임. (arXiv)

쉽게 말하면,
모델이 E. coli에서 배운 내성 패턴을 Klebsiella나 다른 균에서도 어느 정도 쓸 수 있어야 한다는 문제임.

핵심 문제

기존 k-mer 모델은 같은 species 안에서는 잘 맞을 수 있음.
하지만 species가 바뀌면 성능이 떨어질 수 있음.

이유:

species마다 genome background가 다름
내성 유전자가 특정 위치에만 존재할 수 있음
horizontal gene transfer로 내성 유전자가 이동할 수 있음
단순 k-mer 모델은 종 특이적 패턴을 외울 수 있음

성능 향상 방식

해당 연구에서는 Evo genomic foundation model embedding을 사용함.
또한 전체 genome embedding을 단순 평균 내는 대신, window-level embedding을 유지하고 MiniRocket으로 local pattern을 요약함. (arXiv)

쉽게 말하면,
전체 genome을 한 번에 뭉개서 보는 게 아니라, genome의 작은 구간별 신호를 유지해서 내성 관련 부분을 놓치지 않으려는 방식임.

장점

cross-species generalization에 유리할 가능성 있음
unknown AMR pattern 탐지 가능성 있음
genome representation 품질을 높일 수 있음

한계

아직 초기 연구 단계
실제 임상 적용 검증은 더 필요함
계산량이 클 수 있음
어떤 layer embedding을 쓸지 등 실험 설계가 중요함

현재 연구에 참고할 점

우리 모델에서 genome branch를 만들 때 foundation model embedding을 사용할 수 있음.

예시:

Genome input
→ DNA foundation model embedding
→ local window aggregation
→ molecular feature와 fusion
→ AMR prediction

특히 robust learning 주제와 잘 맞음.
이유는 species가 바뀌는 상황, 데이터 분포가 바뀌는 상황에서도 버티는 모델을 만드는 방향이기 때문임.

8. 모델별 비교 요약

모델목적입력장점한계참고 우선순위

CARD-RGI	AMR gene annotation	genome/metagenome	해석 쉬움	known gene 중심	중
AMRFinderPlus	AMR gene/mutation 탐지	assembled genome/protein	NCBI 기반, 신뢰도 높음	phenotype 직접 예측은 아님	중
Kover	AMR phenotype 예측	k-mer	해석 가능, baseline 좋음	cross-species 약함	높음
PhenotypeSeeker	phenotype-associated k-mer 탐색	k-mer	genome 전체 marker 탐색	차원 큼, 일반화 한계	높음
AMR-GNN	AMR phenotype 예측	multiple genome representation	성능 높음, bias 고려	구조 복잡	매우 높음
Genomic FM 기반	cross-species AMR 예측	DNA embedding	OOD 일반화 가능성	초기 연구	높음

9. 현재 연구에 가장 중요한 포인트

핵심은 AMR-GNN임

이유:

현재 연구: 분자정보 + 게놈 피처 동시 입력
AMR-GNN: 여러 genome representation 동시 입력
공통점: 단일 feature가 아니라 여러 정보를 fusion하는 구조

AMR-GNN은 항생제 분자정보까지 직접 넣는 구조는 아니지만,
multi-representation fusion 관점에서 가장 직접적으로 참고 가능함.

10. 현재 연구 모델 구조 제안

기본 구조

[Genome branch]
- k-mer
- SNP
- gene presence / absence
- AMR gene annotation
- mutation
- DNA foundation model embedding

[Molecular branch]
- antibiotic SMILES
- molecular descriptor
- Morgan fingerprint
- molecular graph
- drug class
- target mechanism

[Fusion module]
- concat
- gated fusion
- low-rank fusion
- cross-attention

[Prediction head]
- resistant / susceptible
- MIC value regression

11. 쉽게 설명한 구조

기존 모델은 보통 세균 genome만 보고 판단함.

세균 genome → 내성 예측

하지만 실제 AMR은 세균만 봐서는 부족함.
어떤 항생제에 대한 내성인지도 중요함.

예시:

E. coli가 A 항생제에는 내성
E. coli가 B 항생제에는 감수성

따라서 모델은 아래처럼 보는 게 더 자연스러움.

세균 genome 정보 + 항생제 분자정보 → 해당 항생제에 대한 내성 예측

즉, 우리 연구의 방향은 생물학적으로 타당함.

12. 다음 실험 방향

1단계: baseline 설정

CARD-RGI
AMRFinderPlus
Kover
PhenotypeSeeker
Random Forest
XGBoost
MLP

2단계: genome-only 모델

genome feature만 사용
→ AMR prediction

3단계: molecular-only 모델

antibiotic molecular feature만 사용
→ AMR prediction

4단계: genome + molecular fusion 모델

genome feature + molecular feature
→ fusion
→ AMR prediction

5단계: robust learning 실험

species holdout
drug holdout
hospital/source holdout
time split
noisy label setting
class imbalance setting

13. robust learning과 연결되는 부분

AMR 예측에서 robust learning이 필요한 이유는 다음과 같음.

1. species가 바뀌면 genome distribution이 바뀜
2. 병원/국가/연도에 따라 데이터 분포가 다름
3. resistance label이 noisy할 수 있음
4. 특정 clone이 데이터에 많이 포함될 수 있음
5. 항생제별 resistant/susceptible class imbalance가 큼

쉽게 말하면,
모델이 진짜 내성 원인을 배우는 게 아니라 데이터셋의 편향을 외울 위험이 큼.

그래서 robust learning에서는 아래를 봐야 함.

clonal bias 제거
domain shift 대응
species holdout 평가
drug holdout 평가
label noise 대응
class imbalance 대응

14. 최종 정리

AMR 모델 조사는 다음 방향으로 정리 가능함.

1. CARD-RGI / AMRFinderPlus
   - 알려진 AMR gene과 mutation을 찾는 기준 도구
   - 해석 가능하지만 unknown mechanism에는 약함

2. Kover / PhenotypeSeeker
   - k-mer 기반 AMR phenotype prediction
   - baseline으로 적합
   - species가 바뀌면 일반화 한계 가능성 있음

3. AMR-GNN
   - 현재 가장 중요하게 봐야 할 모델
   - multiple genomic representation을 GNN으로 통합
   - clonal bias까지 고려
   - 현재 연구의 genome feature fusion 구조에 직접 참고 가능

4. Genomic Foundation Model 기반 접근
   - cross-species AMR prediction 관점에서 중요
   - robust learning 방향과 잘 맞음
   - 아직 초기 연구 단계

15. 한 문단 요약

AMR 예측 모델은 크게 known AMR gene을 찾는 CARD-RGI/AMRFinderPlus, k-mer 기반으로 phenotype을 예측하는 Kover/PhenotypeSeeker, 여러 genome representation을 통합하는 AMR-GNN, 그리고 genomic foundation model 기반 접근으로 나눌 수 있음. 기존 DB 기반 도구는 해석 가능성이 높지만 알려진 내성 기전에 의존하는 한계가 있음. k-mer 기반 모델은 genome 전체에서 내성 관련 패턴을 찾을 수 있지만 species나 dataset이 바뀌면 일반화가 약해질 수 있음. AMR-GNN은 여러 genome feature를 graph neural network로 통합하고 clonal bias를 줄이는 방식으로 높은 성능을 보였기 때문에 현재 연구에서 가장 중요하게 참고할 모델임. 현재 연구처럼 분자정보와 게놈 피처를 동시에 넣는 구조에서는 AMR-GNN의 multi-representation fusion 방식을 참고하고, 여기에 antibiotic molecular feature branch를 추가하는 방향이 적절해 보임.

'Others' 카테고리의 다른 글

[hyunsugo] "2.5D"의 본질은 무엇인가 (0)	2026.05.30
[khkim] Split 방식 조사 (1)	2026.05.21
[Tien] Data and methods related to birth defect (0)	2026.05.16
ProsMAE 논문 작성의 건 (0)	2026.05.15
[khkim] MICCAI26 Mathena논문 Rebuttal (0)	2026.05.09

AMR 모델 자료조사

0. 조사 목적

1. AMR 예측 모델 종류

2. CARD-RGI

개념

데이터셋

성능 향상 방식

장점

한계

현재 연구에 참고할 점

3. AMRFinderPlus

개념

데이터셋

성능 향상 방식

장점

한계

현재 연구에 참고할 점

4. Kover

개념

데이터셋

성능 향상 방식

장점

한계

현재 연구에 참고할 점

5. PhenotypeSeeker

개념

데이터셋

성능 향상 방식

장점

한계

현재 연구에 참고할 점

6. AMR-GNN

개념

핵심 구조

데이터셋

성능

성능 향상 방식

1. 여러 genome representation 사용

2. GNN 사용

3. clonal bias 완화

4. biomarker 해석

장점

한계

현재 연구에 참고할 점

7. Genomic Foundation Model 기반 AMR 예측

개념

핵심 문제

성능 향상 방식

장점

한계

현재 연구에 참고할 점

8. 모델별 비교 요약

9. 현재 연구에 가장 중요한 포인트

핵심은 AMR-GNN임

10. 현재 연구 모델 구조 제안

기본 구조

11. 쉽게 설명한 구조

12. 다음 실험 방향

1단계: baseline 설정

2단계: genome-only 모델

3단계: molecular-only 모델

4단계: genome + molecular fusion 모델

5단계: robust learning 실험

13. robust learning과 연결되는 부분

14. 최종 정리

15. 한 문단 요약

'Others' 카테고리의 다른 글

티스토리툴바