[syju] MAISI: Medical AI for Synthetic Imaging

2025. 3. 7. 01:18·Paper_Review

MAISI

Github

  • 논문 작성일: 2024.09.24
  • 논문 리뷰 작성일: 2025.03.08
  • 제출된 학회: WACV25
  • 인용수: 5회

Abstract

  • MAISI (Medical AI for Synthetic Imaging) : 3D Latent Diffusion Model (LDM) 기반으로 대형 CT 영상을 생성하며 해부학적 구조와 병변 크기를 조절할 수 있도록 설계된 모델
    • VAE (Variational Auto-Encoder) 기반 compression network : CT 및 MRI 데이터를 처리하며 다양한 크기의 볼륨과 voxel spacing 지원
    • Latent diffusion model : 최대 512 × 512 × 768 해상도의 CT 생성
    • ControlNet : organ segmentation와 tumer size를 조절하여 Annotated synthetic image 생성

 

1. Introduction

Challenges in Medical Analysis Image ML model

  • 데이터 부족 : 희귀 질환에서 제한된 데이터로 학습 미흡
  • 높은 Human annotaion 비용 : 전문가의 도메인 지식이 필요
  • Privacy 문제 : 의료 데이터를 공유하는데에 민감한 윤리적 문제

Generaing synthetic data : 의료 이미지 생성

  • 기존 데이터셋을 보완하고 환자 데이터 의존도를 낮추며 주석(annotation) 비용을 절감할 수 있는 Synthetic Data 생성 기술이 의료 AI 분야에서 유망한 해결책으로 떠오름
  • 최근 생성 모델(GAN, Diffusion Model 등)의 발전을 의료 영상 생성에 적용
    → 다중 대비(Multi-contrast) MR/CT 합성, 다중 모달리티 변환(Cross-modality Translation), 이미지 복원(Image Reconstruction) 등의 다양한 연구가 수행되고 있음

기존 연구의 한계

  1. 고해상도 3D 의료 영상 생성의 어려움
    • $512^3$ 이상의 고해상도 3D CT 볼륨을 생성하는 것은 매우 높은 메모리 소비를 요구
    • 따라서 메모리 병목(memory bottleneck) 문제를 해결하는 것이 필수적
  2. 고정된 출력 볼륨 크기 및 Voxel Spacing 문제
    • 기존 모델들은 고정된 볼륨 크기와 Voxel 간격을 사용하여 다양한 해부학적 구조 분석에 적합하지 않음
    • 실질적인 의료 적용을 위해 동적으로 볼륨 크기와 Voxel 간격을 조정할 수 있는 기능이 필요함
  3. 특정 데이터 및 장기에 최적화된 모델의 일반화 문제
  • 기존 생성 모델들은 특정 데이터셋 혹은 특정 장기에 맞춰 학습되었기 때문에 새로운 데이터나 장기에 적용할 경우 추가적인 학습이 필요함
  • 다양한 데이터셋과 해부학적 구조를 지원하는 범용적인 모델 개발이 필수적

⇒ 고해상도 3D CT Volume Generation을 위해 Volume Compression Network, Latent Diffusion model, ControlNet으로 구성된 MAISI 제안

MAISI trainig 방식

 

2. Related Work

  • 이전에는 예제 기반 접근법(Example-based Approach), 기하학적 정규화(Geometry-regularized Dictionary Learning) 등 기존 영상 처리 기술 기반이었고 현실감 있고 다양한 의료 영상을 생성하는 데 한계가 있었음
  • Machine learning, Deep learning의 발전으로 정교하고 정확한 모델 가능

GAN

  • MRI와 CT 이미지 합성과 같은 다양한 작업에 적용
    → cross-modality image translation, image reconstruction, super-resolution
  • 대부분의 연구가 2D 의료 이미지 또는 작은 볼륨 패치 합성(small volumetric patch synthesis)에 국한됨
  • 의료 데이터의 3D 특성을 충분히 반영하지 못하여 임상 적용이 어려움

Diffusion Models

  • 높은 품질의 의료 영상 합성 가능, GAN보다 안정적 학습과정, 입력 조건(conditioning)의 유연성
  • GenerateCT : 자연어 프롬프트를 입력하여 3D CT 영상 생성 가능하지만 개별 슬라이스를 순차적으로 생성하는 방식이라 3D 구조적 불일치 문제가 발생
  • DiffTumor : 다양한 장기의 종양(Tumor)을 합성하여 세그멘테이션 모델의 성능을 향상

MAISI는 기존 GAN과 Diffusion Model의 한계를 극복하면서 고해상도 3D CT 볼륨을 효과적으로 생성할 수 있는 새로운 접근법을 제시하였다.

  • Tensor Splitting Parallelism(TSP) 기법을 활용하여 GPU 메모리 사용량을 최적화함
  • ControlNet을 활용하여 특정 해부학적 구조 및 병변 크기 조절 가능
  • 다양한 임상 데이터셋을 학습하여 일반화 가능성을 확보

 

3. Methodology

  1. Volume Compression Network(VAE-GAN)
    • 고해상도 3D 의료 영상을 latent space로 변환, 메모리 사용량 감소와 연산 효율성 향상
  2. Latent diffusion model (LDM)
    • Compressed latent space에서 Body Region(신체 부위) 및 Voxel Spacing을 조건으로 유연한 크기의 3D 해부학적 feature 생성 생성 가능
  3. ControlNet
    • Trained Latent DM의 두 번째 단계에서 추가적인 조건(Conditions)을 주입하여 다양한 작업을 지원
    • 조건부 세그멘테이션 마스크 적용, 병변 삽입 및 제거(Inpainting), 특정 해부학적 구조 반영 등 광범위한 작업 수행 가능
    • 새로운 Task에 적용할 때도 추가적인 재학습(Retraining) 없이 활용 가능 → 모델의 효율성과 확장성을 극대화

 

3.1 Volume Compression Network

  • 입력 CT 볼륨 $x\in{}R^{H×W×D}$ → Encoder $E(x)$
    • Encoder $E$가 CT/MRI 영상에서 Latent Representation $z$를 생성
    • $z=E(x)\in{}R^{h×w×d}$ (원본보다 작은 해상도)
  • Decoder $D(z)$를 통해 원본 영상 복원
    • Latent Space에서 복원된 영상 $x^{\prime}=D(z)$
    • 3D Discriminator $C$가 복원된 영상의 품질을 평가하고 비현실적 요소를 보정
      $$
      x \in \mathbb{R}^{H \times W \times D}
      \\
      z = \mathcal{E}(x) \in \mathbb{R}^{h \times w \times d}
      \\
      \tilde{x} = \mathcal{D}(z) = \mathcal{D}(\mathcal{E}(x))
      \\
      \min_{\mathcal{E}, \mathcal{D}} \max_{\mathcal{C}} 
      \left( 
      \mathcal{L}_{\text{recon}}(x, \mathcal{D}(\mathcal{E}(x))) 
      + \mathcal{L}_{\text{lpips}}(x, \mathcal{D}(\mathcal{E}(x)))
      + \mathcal{L}_{\text{reg}}(\mathcal{E}(x)) + \mathcal{L}_{\text{adv}}
      \right)
      \\
      \mathcal{L}_{\text{adv}} = \log \mathcal{C}(x) + \log(1 - \mathcal{C}(\mathcal{D}(\mathcal{E}(x))))
      $$
  • 손실 함수 결합하여 학습
    • Perceptual Loss $L_{lpips}$ : 생성된 볼륨이 원본과 시각적으로 유사한지 평가
    • Adversarial Loss $L_{adv}$ : GAN 기반 3D 판별기(Discriminator)를 활용하여 비현실적인 아티팩트(Artifact)를 식별하고 보정
    • L1 reconstruction loss $L_{recon}$ : 원본과 재구성된 볼륨 간 픽셀 단위 차이를 최소화하여 복원 성능을 향상
    • KL Regularization $L_{reg}$ : 학습된 Latent Space의 분산을 제어하여 과도한 변화(high variance) 방지

 

Tensor spliting parallelism (TSP) : Memory bottleneck 해결

  • 2D 기반 초해상도(Super-Resolution) 모델이 일부 해결책으로 연구되었지만 3D 전체 볼륨을 처리하는 경우 여전히 높은 메모리 사용량 문제가 해결되지 않음
  • Sliding Window Inference는 의료 영상 세그멘테이션 모델에서 Probability Map 생성 시에는 효과적이지만 이미지 합성(Generation)에서는 창(window) 간의 경계 문제가 발생하여 품질 저하

Tensor Splitting Parallelism, TSP 도입

  • Convolution, Normalization Layer에서 필요한 overlap을 보존하면서 Feature Map을 여러 개의 작은 세그먼트(Segment)로 분할하고 각 세그먼트를 개별 GPU에 할당하여 연산 후 다시 병합(Merge)하여 최종 output을생성
  • Inference 속도 개선, single GPU에서도 순차적으로 연산하여 부족한 메모리 사용량 최소화

⇒ 3D 컨볼루션 최적화

 

3.2 Diffusion Model

  • flexible dimension의 압축된 latent space에서 작동, body region 및 voxel spacing을 conditional input으로 통합
  • 마르코프 체인(Markov Chain) 기반의 denoising 작업을 거쳐 Data distribution $p(x)$에서 생성되는 과정을 학습
  • U-Net 기반의 Denoising Autoencoder ($\epsilon_\theta$) 학습
    • 학습된 모델 $\epsilon_\theta$는 입력된 노이즈 $z_t$를 점진적으로 복원하여 원본 Latent Feature를 예측
    • 각 Time Step $t$에서 노이즈 수준을 예측하여 점진적으로 원본 영상 복원

 

Conditional 생성 기능

  • Body region : $i_{top}$, $i_{bottom}$ ⇒ 머리-목, 가슴, 복부, 하체 4개의 One-Hot Vector로 표현
  • Voxel spacing : $s$ ⇒ 3D 공간에서 X, Y, Z 축의 Voxel 크기를 조절하여 다양한 해상도 영상 생성 가능
  • $c_p=\{i_{top},i_{bottom},s\}$ → 신체 부위, Voxel Spacing 조건을 포함한 입력 조건 집합

  • $\epsilon_\theta$는 U-Net 기반 노이즈 예측 모델이며 training process에서 dimension이 달라지는 latent variable $z_t$를 학습하고 output 생성
    $$
    \mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t, \mathbf{c}_p} 
    \left[ \left\| \epsilon - \epsilon_{\theta}(z_t, t, \mathbf{c}_p) \right\|_1 \right] 
    $$

 

3.3 Additional Conditioning Mechanisms

  • ControlNet을 활용하여 생성된 3D 의료 영상의 구조를 세부적으로 제어할 수 있도록 설계
  • ControlNet의 기본 두 개의 복사본을 사용
    • Locked copy (기존 모델의 지식을 유지), Trainable Copy (특정 조건에 맞게 학습 가능), Zero Convolution Layer (초기 가중치 0으로 설정 후 점진적으로 최적화)
  • Compact Encoder Network를 사용하여 입력된 condition을 latent feature 내 Task-Specific Condition $c_f$로 전환

  • 특정 의료 분석 작업에 맞춘 3D 영상 생성 Task를 retraining 과정 없이 수행 가능
    $$
    \mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t, \mathbf{c}_p, \color{blue}{\mathbf{c}_f}} 
    \left[ \left\| \epsilon - \epsilon_{\theta}(z_t, t, \mathbf{c}_p, \color{blue}{\mathbf{c}_f}) \right\|_1 \right]
    $$

 

4. Experiments

  • 3개의 구성 모델(VAE, DM, ControlNet)별로 적절한 데이터셋에 대해 학습
  • 정상 범위 내 주요 장기가 잘 생성되었는지 품질 확인

 

4.1 Evaluation of MAISI VAE

  • 일반화 성능을 평가하기 위해 훈련되지 않은 데이터셋(Out-of-Distribution Datasets)에 대해 MAISI VAE model과 특정 데이터셋에서 학습한 Dedicated VAE(test dataset 내에서 학습) 성능 비교
  • 추가 학습 없이도 전용 VAE 모델과 동등한 성능을 달성하면서 추가적인 GPU 학습 비용을 절감
  • ⇒ 모델 효율성과 실용성 및 최적화 잠재력을 보여줌

MAISI VAE model performance on out-of-distribution datasets

 

4.2 Evaluation of MAISI Diffusion Model

  • 합성 영상 품질 평가 (Synthesis Quality Evaluation) : 실제 dataset과 비교하였을 때 FID 수치 비교
  • DDPM, LDM, HA-GAN과 비교하였을 때 실제 dataset과 유사한 이미지를 생성
  • HA-GAN은 주로 흉부(Chest) CT 영상 합성에 특화된 모델이므로 MAISI와 직접 비교

HA-GAN과의 Chest CT 영상 품질 비교

 

  • MAISI DM의 성능을 추가적으로 검증하기 위해 autoPET 2023 데이터셋을 활용

다양한 Baseline 모델과의 비교 (autoPET 2023 데이터셋 활용)

 

large-scale dataset에서의 이미지 품질 비교
conditional generation evaluation

  • 다양한 Body Region 설정에 따라 anatomically consistent한 영상 생성 가능
  • Voxel Spacing 조절을 통해 다양한 해상도로 영상을 생성할 수 있음

 

4.3 Data Augmentation in Downstream Tasks

MAISI CT Generation

  • 127개의 해부학적 구조에 대한 세그멘테이션 마스크(Segmentation Mask)를 활용하여 합성 데이터 생성
  • 각 병변(종양) 마스크를 활용하여 기존 환자 데이터의 증강(Augmentation) 수행
  • 실제 환자 데이터에서 수집된 종양 형태를 유지하면서도 새로운 합성 데이터를 생성 가능

⇒ 단순 생성

MAISI Inpainting

  • 건강한 환자 데이터에서 특정 종양이 존재하는 것처럼 합성하여 새로운 데이터셋 생성
  • 간, 폐, 췌장 종양에 대해 inpainting을 수행하여 종양이 존재하는 새로운 샘플을 생성
  • 특히 비정형적인 모양을 가지는 병변(골 병변, 대장 종양 등)의 경우, 기존 모델(DiffTumor)보다 더 정교한 합성 가능

⇒ 건강한 환자 Data에 tumor 합성

Real data와 Synthetic data를 dataset으로 훈련된 segmentation model의 DCS 수치 비교

  • MAISI dataset augmentaion에서 DSC 향상, out-of-distribution dataset에 대해 test를 수행했을 때 높은 성능을 보임

 

5. Discussion and Limitation

  • 고품질 CT 이미지를 생성하는 데 큰 잠재력
  • 한계 : 다양한 인구 집단을 반영한 데이터셋 구축 필요, 계산 비용을 줄이기 위한 모델 최적화 및 경량화 연구 필요

 

6. Conclusion

  • Foundation Model (VAE + LDM)과 ControlNet을 결합하여 고해상도 3D CT 볼륨을 생성하는 모델
  • 다양한 신체 부위 및 병변을 반영한 해부학적으로 정교한 3D 의료 이미지 생성 가능
  • Flexible volume dimensions과 voxel spacing을 활용하여 현실적인 CT 이미지 생성
  • 합성 데이터를 활용한 Data Augmentation을 통해 의료 데이터 부족 문제를 해결하고 Segmentation 및 분류 모델의 성능 향상 기여

maisi Model by NVIDIA | NVIDIA NIM

'Paper_Review' 카테고리의 다른 글

[hsjung] [논문리뷰]- A Machine Learning Based Discharge Prediction of Cardiovascular Diseases Patients in Intensive Care Units  (0) 2025.03.08
[shpark] XProspeCT: CT Volume Generation from Paired X-Rays 논문 리뷰  (0) 2025.03.07
[mjkwon] A review on deep learning in medical image analysis  (0) 2025.03.01
[hsjung] [논문리뷰] - MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation  (0) 2025.03.01
[hspark] Multi‑modal transformer architecture for medical image analysis and automated report generation 논문리뷰  (0) 2025.03.01
'Paper_Review' 카테고리의 다른 글
  • [hsjung] [논문리뷰]- A Machine Learning Based Discharge Prediction of Cardiovascular Diseases Patients in Intensive Care Units
  • [shpark] XProspeCT: CT Volume Generation from Paired X-Rays 논문 리뷰
  • [mjkwon] A review on deep learning in medical image analysis
  • [hsjung] [논문리뷰] - MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation
team-sudal
team-sudal
team-sudal 님의 블로그 입니다.
  • team-sudal
    SUDAL
    team-sudal
  • 전체
    오늘
    어제
    • 분류 전체보기 (128) N
      • MedicalFM (22)
        • anomaly_detection (1)
        • change_detection (1)
        • report_generation (3)
        • classification (1)
        • denoising (1)
        • generation (0)
        • reconstruction (0)
        • regression (3)
        • segmentation (0)
        • super_resolution (1)
        • MAE (7)
      • MAISI (9)
        • MAISI_Data (9)
      • Paper_Review (46)
      • Others (18)
      • LambdaCourse (0)
        • Paper_Review (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Visual inspection
    GaN
    Diagnosis
    Bite-wing radiograph
    Fibre-optic transillumination
    0
    Occlusal caries
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
team-sudal
[syju] MAISI: Medical AI for Synthetic Imaging
상단으로

티스토리툴바