
이 글은 아래 하나의 질문에 답합니다.
| 2D RGB | Medical 2D (X-ray) | Medical 3D (MRI/CT) | |
| Binary Classification | CNN vs Transformer vs Mamba | CNN vs Transformer vs Mamba | CNN vs Transformer vs Mamba |
| Multi-class Classification | CNN vs Transformer vs Mamba | CNN vs Transformer vs Mamba | CNN vs Transformer vs Mamba |
| Multi-label Classification | CNN vs Transformer vs Mamba | CNN vs Transformer vs Mamba | CNN vs Transformer vs Mamba |
| Segmentation | CNN vs Transformer vs Mamba | CNN vs Transformer vs Mamba | CNN vs Transformer vs Mamba |
총괄 요약표
| Task | 2D RGB | Medical 2D | Medical 3D |
| Binary Classification | CNN ≈ ViT | CNN | CNN ≈ Transformer |
| Multi-class Classification | Transformer | CNN > Mamba | Mamba |
| Multi-label Classification | Transformer | CNN Hybrid ≈ Transformer | CNN (Gated) |
| Segmentation | Transformer | Mamba ≈ Transformer | Mamba |
Q1. Binary Classification
2D RGB
CNN ≈ Transformer, Mamba은 아직 미미
- 소규모 데이터: CNN (ResNet, EfficientNet) 우위
- 대규모 데이터: ViT가 따라잡거나 역전
- 📄 Dosovitskiy et al., "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (ICLR 2021) — ViT는 데이터 충분 시 CNN과 동등
- 📄 Tan & Le, "EfficientNet" (ICML 2019) — CNN의 효율적 scaling
Medical 2D (X-ray, Grayscale)
CNN 우위 (특히 EfficientNet, DenseNet)
- 데이터 부족 + 저해상도 패턴 → CNN의 inductive bias가 유리
- 📄 Rajpurkar et al., "CheXNet" (2017) — DenseNet121 기반 흉부 X-ray binary classification SOTA
- 📄 Huang et al., DenseNet (CVPR 2017) — medical imaging에서 강력한 baseline
- Mamba 기반 binary classification 논문은 의료 2D에서 아직 CNN 대비 명확한 우위 없음
Medical 3D (MRI, CT)
CNN 3D (ResNet3D) ≈ Transformer, Mamba 경쟁력 상승 중
- 3D 데이터의 long-range dependency → Transformer/Mamba 유리
- 📄 Chen et al., "TransMed" (2021) — 3D MRI classification에 Transformer 도입
- 📄 Hatamizadeh et al., "UNETR" (WACV 2022) — ViT backbone의 3D medical 가능성 제시 (분류에도 적용 가능)
Q2. Multi-class Classification
2D RGB
Transformer (ViT, DeiT, Swin) > CNN
- ImageNet 기준 Swin Transformer가 CNN 계열 압도
- 📄 Liu et al., "Swin Transformer" (ICCV 2021) — hierarchical ViT, ImageNet top-1 87.3%
- 📄 Touvron et al., "DeiT" (ICML 2021) — 데이터 효율 ViT
- Mamba (VMamba, Vision Mamba): Transformer와 근접하나 아직 2D 분류에서 명확한 우위 없음
- 📄 Zhu et al., "Vision Mamba" (2024) — ViT와 유사 성능, 속도 우위
Medical 2D (X-ray, Grayscale)
CNN > Mamba ≈ Transformer (데이터 규모 의존)
- 소규모 medical dataset → CNN의 inductive bias 여전히 강력
- 📄 Salehi & Chalechale (2023) — 다양한 X-ray classification에서 EfficientNet 우위 확인
- 최근 MedMamba 계열이 추격 중
- 📄 Yue et al., "MedMamba" (2024) — 의료 2D 이미지 분류에서 CNN/Transformer 대비 경쟁력 있는 결과 보고
Medical 3D (MRI, CT)
Mamba > Transformer > CNN (최신 트렌드)
- 3D volumetric data의 long sequence → quadratic attention 문제로 Transformer 비효율
- Mamba의 linear complexity가 3D에서 결정적 우위
- 📄 Gu & Dao, "Mamba" (2023) — SSM 기반 linear complexity 기반
- 📄 Wang et al., "MambaMed" / "SegMamba" (2024) — 3D medical classification/segmentation에서 Transformer 대비 우위
- 📄 Xing et al., "SegMamba" (2024) — 3D CT에서 TransUNet 계열 대비 우위
Q3. Multi-label Classification
Multi-label은 Multi-class와 결정적으로 다른 점이 하나 있습니다 — 레이블 간 공존 관계(label co-occurrence) 모델링이 핵심이라는 것입니다. 이 특성이 아키텍처 우위를 완전히 바꿉니다.
총괄 결론
Domain 최적 아키텍처 핵심 이유
| 2D RGB | Transformer >> CNN > Mamba | label query × cross-attention이 공존 관계를 직접 모델링 |
| Medical 2D (X-ray) | CNN (Hybrid) ≈ Transformer > Mamba | EfficientNet, ConvFormer 우위, Mamba는 아직 미성숙 |
| Medical 3D (MRI/CT) | CNN (Gated) > Mamba > Transformer | Mamba pure 성능 불만족, gated CNN이 효율+성능 모두 우위 |
2D RGB — Transformer 압도적 우위
Multi-label의 본질은 "이미지에 동시에 여러 레이블이 존재할 때 그 상호관계를 어떻게 포착하느냐"입니다. Transformer의 cross-attention이 이를 구조적으로 해결합니다.
핵심 작동 원리: 각 레이블을 query로 두고, 이미지 feature map에서 레이블별로 관련 영역을 selective pooling → 레이블 간 dependency를 attention으로 직접 모델링
근거 논문
📄 Liu et al., "Query2Label: A Simple Transformer Way to Multi-Label Classification" (arXiv 2021)
- MS-COCO 91.3% mAP 달성 (당시 SOTA)
- Transformer decoder의 label query가 이미지 feature map에서 class별 영역을 능동적으로 추출
- 이 패러다임이 현재 2D multi-label의 표준
📄 Lancaster et al., "C-Tran: General Multi-Label Image Classification with Transformers" (CVPR 2021)
- MS-COCO, Visual Genome에서 SOTA
- Transformer encoder가 visual feature ↔ label dependency를 jointly 학습
- CNN과 달리 "unknown" 레이블 상태를 명시적으로 표현 가능
CNN vs Mamba 현황: CNN(ResNet+GCN 계열)은 여전히 쓰이지만 label interaction 모델링에서 구조적 열위. Mamba는 2D multi-label에 특화된 연구 자체가 거의 없음.
Medical 2D (X-ray) — CNN Hybrid ≈ Transformer > Mamba
NIH ChestX-ray14 데이터셋(14개 흉부 질환 카테고리, 112,120장)에서 CNN, Transformer, Mamba 14개 모델을 동일 조건으로 비교한 직접적인 벤치마크 연구가 2025년 발표되었습니다.
핵심 결과
ConvFormer가 14개 클래스 평균 AUROC 0.841로 1위를 차지했으며, EfficientNet과 CaFormer가 근접하게 뒤를 이었습니다. Mamba 기반 모델(VMamba, MedMamba)은 CNN 및 Transformer 상위 모델에 비해 전반적으로 뒤처지는 결과를 보였으며, 의료 이미지 분류에서 Mamba 아키텍처가 경쟁하려면 추가 개선이 필요함을 확인했습니다.
세부 분석
클래스별로는 Transformer 기반 아키텍처들이 최고 성능을 달성했습니다. CaFormer는 무기폐(atelectasis) AUROC 0.83으로 최고였고, ConvFormer는 종괴(mass) 0.85, 삼출(effusion) 0.88에서 최고 또는 공동 최고 점수를 기록했습니다. EfficientNet은 탈장(hernia) 0.94, 부종(edema) 0.89에서 특히 탁월한 신뢰성을 보였습니다.
근거 논문
📄 "A Comparative Analysis of the Mamba, Transformer, and CNN Architectures for Multi-Label Chest X-Ray Anomaly Detection in the NIH ChestX-Ray14 Dataset" (Diagnostics, MDPI, 2025)
- URL: https://www.mdpi.com/2075-4418/15/17/2215
- Multi-label 분야 Mamba vs Transformer vs CNN 직접 비교 논문 중 가장 직접적인 레퍼런스
📄 Rajpurkar et al., "CheXNet" (2017)
- DenseNet121 기반 흉부 X-ray multi-label의 오랜 baseline
Medical 3D (MRI/CT) — CNN (Gated) > Mamba > Transformer
3D multi-label은 일반 분류보다 훨씬 더 연구가 적지만, 최근 MICCAI 2024 챌린지에서 직접 비교한 사례가 있습니다.
핵심 사례: MRI Quality Assessment 챌린지
저자들은 이 문제를 multi-label classification task로 정의하고, Mamba를 비롯한 다양한 모델의 성능을 탐색했습니다. 현재 Transformer는 global 정보 포착에 강하지만 선형 복잡도가 아니어서 높은 메모리를 요구하며, Mamba 모델은 선형 복잡도를 가지지만 visual task에서의 성능이 불만족스럽다는 것을 발견했습니다. 결국 4단계 gated CNN 블록과 ML-Decoder를 조합한 MambaOut 구조가 최적임을 보고했습니다.
📄 Zhu et al., "Multi-Label MambaOut for Quality Assessment of Low-Field Pediatric Brain MR Images" (MICCAI LISA 2024)
- 3D MRI 7-class multi-label QA 챌린지에서 gated CNN > Mamba > Transformer 확인
- MambaOut(gated convolution) + ML-Decoder 조합이 최적
📄 Yu & Wang, "MambaOut: Do We Really Need Mamba for Vision?" (arXiv 2024)
- Mamba의 SSM이 2D/3D visual task에서 오히려 불필요할 수 있다는 이론적 근거 제시
- Multi-label 3D에서 pure Mamba의 한계를 설명하는 배경 논문
Multi-label만의 특수 고려사항
Multi-class와 달리 Multi-label에서는 세 가지 추가 요소가 결과를 크게 바꿉니다.
① Label co-occurrence 모델링: Transformer의 cross-attention이 구조적으로 유리. Mamba의 sequential scan은 label 간 상호작용 포착에 약점.
② 클래스 불균형: Medical multi-label(ex. 희귀 질환)은 극단적 imbalance → Focal Loss, AUROC 기준 평가가 필수. 이 상황에서 CNN의 inductive bias가 오히려 안정적.
③ 데이터 규모: 의료 데이터는 항상 소규모 → 대규모 데이터에서 빛나는 Transformer/Mamba의 장점이 반감, CNN 우위 유지.
Q4. Segmentation
2D RGB
Transformer 기반 (SegFormer, Mask2Former) > CNN
- Dense prediction의 global context → Transformer 유리
- 📄 Xie et al., "SegFormer" (NeurIPS 2021) — hierarchical Transformer encoder + lightweight decoder
- 📄 Cheng et al., "Mask2Former" (CVPR 2022) — universal segmentation SOTA
- CNN (DeepLab 계열)은 여전히 효율적이지만 성능은 뒤처짐
Medical 2D (X-ray, Grayscale)
Mamba ≈ Transformer > CNN
- UNet 구조에 Transformer/Mamba encoder 탑재가 표준화
- 📄 Chen et al., "TransUNet" (2021) — UNet + ViT hybrid, 의료 2D segmentation 기준점
- 📄 Cao et al., "Swin-Unet" (2021) — pure Transformer UNet
- 📄 Ma et al., "U-Mamba" (2024) — Mamba 기반 UNet, 의료 2D에서 Transformer와 동등 이상
Medical 3D (MRI, CT)
Mamba > Transformer > CNN — 가장 명확한 우위
- 3D volume의 voxel sequence가 매우 길기 때문에 Mamba의 linear complexity가 결정적
- 📄 Hatamizadeh et al., "UNETR" (WACV 2022) — 3D Transformer segmentation baseline
- 📄 Tang et al., "Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis" (CVPR 2022)
- 📄 Xing et al., "SegMamba" (2024) — 3D CT organ segmentation에서 UNETR, Swin-UNETR 대비 우위
- 📄 Ruan & Xiang, "VMambaMorph / MedMamba3D" (2024) 계열
전체 Q1-Q4 통합 요약표
| Task | 2D RGB | Medical 2D | Medical 3D |
| Binary Classification | CNN ≈ ViT | CNN | CNN ≈ Transformer |
| Multi-class Classification | Transformer | CNN > Mamba | Mamba |
| Multi-label Classification | Transformer | CNN Hybrid ≈ Transformer | CNN (Gated) |
| Segmentation | Transformer | Mamba ≈ Transformer | Mamba |
핵심 인사이트: Multi-label에서 Mamba는 전 도메인에서 가장 성과가 저조합니다. Label 간 dependency 모델링이 핵심인 이 task에서는 Transformer의 cross-attention이 가장 구조적으로 적합하고, 의료 3D에서는 오히려 순수 gated CNN 계열(MambaOut)이 복잡도/성능 균형에서 우위를 가집니다.