[syju] MAISI: Medical AI for Synthetic Imaging

MAISI

Github

논문 작성일: 2024.09.24
논문 리뷰 작성일: 2025.03.08
제출된 학회: WACV25
인용수: 5회

Abstract

MAISI (Medical AI for Synthetic Imaging) : 3D Latent Diffusion Model (LDM) 기반으로 대형 CT 영상을 생성하며 해부학적 구조와 병변 크기를 조절할 수 있도록 설계된 모델
- VAE (Variational Auto-Encoder) 기반 compression network : CT 및 MRI 데이터를 처리하며 다양한 크기의 볼륨과 voxel spacing 지원
- Latent diffusion model : 최대 512 × 512 × 768 해상도의 CT 생성
- ControlNet : organ segmentation와 tumer size를 조절하여 Annotated synthetic image 생성

1. Introduction

Challenges in Medical Analysis Image ML model

데이터 부족 : 희귀 질환에서 제한된 데이터로 학습 미흡
높은 Human annotaion 비용 : 전문가의 도메인 지식이 필요
Privacy 문제 : 의료 데이터를 공유하는데에 민감한 윤리적 문제

Generaing synthetic data : 의료 이미지 생성

기존 데이터셋을 보완하고 환자 데이터 의존도를 낮추며 주석(annotation) 비용을 절감할 수 있는 Synthetic Data 생성 기술이 의료 AI 분야에서 유망한 해결책으로 떠오름
최근 생성 모델(GAN, Diffusion Model 등)의 발전을 의료 영상 생성에 적용
→ 다중 대비(Multi-contrast) MR/CT 합성, 다중 모달리티 변환(Cross-modality Translation), 이미지 복원(Image Reconstruction) 등의 다양한 연구가 수행되고 있음

기존 연구의 한계

고해상도 3D 의료 영상 생성의 어려움
- $512^3$ 이상의 고해상도 3D CT 볼륨을 생성하는 것은 매우 높은 메모리 소비를 요구
- 따라서 메모리 병목(memory bottleneck) 문제를 해결하는 것이 필수적
고정된 출력 볼륨 크기 및 Voxel Spacing 문제
- 기존 모델들은 고정된 볼륨 크기와 Voxel 간격을 사용하여 다양한 해부학적 구조 분석에 적합하지 않음
- 실질적인 의료 적용을 위해 동적으로 볼륨 크기와 Voxel 간격을 조정할 수 있는 기능이 필요함
특정 데이터 및 장기에 최적화된 모델의 일반화 문제

기존 생성 모델들은 특정 데이터셋 혹은 특정 장기에 맞춰 학습되었기 때문에 새로운 데이터나 장기에 적용할 경우 추가적인 학습이 필요함
다양한 데이터셋과 해부학적 구조를 지원하는 범용적인 모델 개발이 필수적

⇒ 고해상도 3D CT Volume Generation을 위해 Volume Compression Network, Latent Diffusion model, ControlNet으로 구성된 MAISI 제안

2. Related Work

이전에는 예제 기반 접근법(Example-based Approach), 기하학적 정규화(Geometry-regularized Dictionary Learning) 등 기존 영상 처리 기술 기반이었고 현실감 있고 다양한 의료 영상을 생성하는 데 한계가 있었음
Machine learning, Deep learning의 발전으로 정교하고 정확한 모델 가능

GAN

MRI와 CT 이미지 합성과 같은 다양한 작업에 적용
→ cross-modality image translation, image reconstruction, super-resolution
대부분의 연구가 2D 의료 이미지 또는 작은 볼륨 패치 합성(small volumetric patch synthesis)에 국한됨
의료 데이터의 3D 특성을 충분히 반영하지 못하여 임상 적용이 어려움

Diffusion Models

높은 품질의 의료 영상 합성 가능, GAN보다 안정적 학습과정, 입력 조건(conditioning)의 유연성
GenerateCT : 자연어 프롬프트를 입력하여 3D CT 영상 생성 가능하지만 개별 슬라이스를 순차적으로 생성하는 방식이라 3D 구조적 불일치 문제가 발생
DiffTumor : 다양한 장기의 종양(Tumor)을 합성하여 세그멘테이션 모델의 성능을 향상

MAISI는 기존 GAN과 Diffusion Model의 한계를 극복하면서 고해상도 3D CT 볼륨을 효과적으로 생성할 수 있는 새로운 접근법을 제시하였다.

Tensor Splitting Parallelism(TSP) 기법을 활용하여 GPU 메모리 사용량을 최적화함
ControlNet을 활용하여 특정 해부학적 구조 및 병변 크기 조절 가능
다양한 임상 데이터셋을 학습하여 일반화 가능성을 확보

3. Methodology

Volume Compression Network(VAE-GAN)
- 고해상도 3D 의료 영상을 latent space로 변환, 메모리 사용량 감소와 연산 효율성 향상
Latent diffusion model (LDM)
- Compressed latent space에서 Body Region(신체 부위) 및 Voxel Spacing을 조건으로 유연한 크기의 3D 해부학적 feature 생성 생성 가능
ControlNet
- Trained Latent DM의 두 번째 단계에서 추가적인 조건(Conditions)을 주입하여 다양한 작업을 지원
- 조건부 세그멘테이션 마스크 적용, 병변 삽입 및 제거(Inpainting), 특정 해부학적 구조 반영 등 광범위한 작업 수행 가능
- 새로운 Task에 적용할 때도 추가적인 재학습(Retraining) 없이 활용 가능 → 모델의 효율성과 확장성을 극대화

3.1 Volume Compression Network

입력 CT 볼륨 $x\in{}R^{H×W×D}$ → Encoder $E(x)$
- Encoder $E$가 CT/MRI 영상에서 Latent Representation $z$를 생성
- $z=E(x)\in{}R^{h×w×d}$ (원본보다 작은 해상도)
Decoder $D(z)$를 통해 원본 영상 복원
- Latent Space에서 복원된 영상 $x^{\prime}=D(z)$
- 3D Discriminator $C$가 복원된 영상의 품질을 평가하고 비현실적 요소를 보정
  $$
  x \in \mathbb{R}^{H \times W \times D}
  \\
  z = \mathcal{E}(x) \in \mathbb{R}^{h \times w \times d}
  \\
  \tilde{x} = \mathcal{D}(z) = \mathcal{D}(\mathcal{E}(x))
  \\
  \min_{\mathcal{E}, \mathcal{D}} \max_{\mathcal{C}}
  \left(
  \mathcal{L}_{\text{recon}}(x, \mathcal{D}(\mathcal{E}(x)))
  + \mathcal{L}_{\text{lpips}}(x, \mathcal{D}(\mathcal{E}(x)))
  + \mathcal{L}_{\text{reg}}(\mathcal{E}(x)) + \mathcal{L}_{\text{adv}}
  \right)
  \\
  \mathcal{L}_{\text{adv}} = \log \mathcal{C}(x) + \log(1 - \mathcal{C}(\mathcal{D}(\mathcal{E}(x))))
  $$

손실 함수 결합하여 학습
- Perceptual Loss $L_{lpips}$ : 생성된 볼륨이 원본과 시각적으로 유사한지 평가
- Adversarial Loss $L_{adv}$ : GAN 기반 3D 판별기(Discriminator)를 활용하여 비현실적인 아티팩트(Artifact)를 식별하고 보정
- L1 reconstruction loss $L_{recon}$ : 원본과 재구성된 볼륨 간 픽셀 단위 차이를 최소화하여 복원 성능을 향상
- KL Regularization $L_{reg}$ : 학습된 Latent Space의 분산을 제어하여 과도한 변화(high variance) 방지

Tensor spliting parallelism (TSP) : Memory bottleneck 해결

2D 기반 초해상도(Super-Resolution) 모델이 일부 해결책으로 연구되었지만 3D 전체 볼륨을 처리하는 경우 여전히 높은 메모리 사용량 문제가 해결되지 않음
Sliding Window Inference는 의료 영상 세그멘테이션 모델에서 Probability Map 생성 시에는 효과적이지만 이미지 합성(Generation)에서는 창(window) 간의 경계 문제가 발생하여 품질 저하

Convolution, Normalization Layer에서 필요한 overlap을 보존하면서 Feature Map을 여러 개의 작은 세그먼트(Segment)로 분할하고 각 세그먼트를 개별 GPU에 할당하여 연산 후 다시 병합(Merge)하여 최종 output을생성
Inference 속도 개선, single GPU에서도 순차적으로 연산하여 부족한 메모리 사용량 최소화

⇒ 3D 컨볼루션 최적화

3.2 Diffusion Model

flexible dimension의 압축된 latent space에서 작동, body region 및 voxel spacing을 conditional input으로 통합
마르코프 체인(Markov Chain) 기반의 denoising 작업을 거쳐 Data distribution $p(x)$에서 생성되는 과정을 학습
U-Net 기반의 Denoising Autoencoder ($\epsilon_\theta$) 학습
- 학습된 모델 $\epsilon_\theta$는 입력된 노이즈 $z_t$를 점진적으로 복원하여 원본 Latent Feature를 예측
- 각 Time Step $t$에서 노이즈 수준을 예측하여 점진적으로 원본 영상 복원

Conditional 생성 기능

Body region : $i_{top}$, $i_{bottom}$ ⇒ 머리-목, 가슴, 복부, 하체 4개의 One-Hot Vector로 표현
Voxel spacing : $s$ ⇒ 3D 공간에서 X, Y, Z 축의 Voxel 크기를 조절하여 다양한 해상도 영상 생성 가능
$c_p=\{i_{top},i_{bottom},s\}$ → 신체 부위, Voxel Spacing 조건을 포함한 입력 조건 집합
$\epsilon_\theta$는 U-Net 기반 노이즈 예측 모델이며 training process에서 dimension이 달라지는 latent variable $z_t$를 학습하고 output 생성
$$
\mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t, \mathbf{c}_p}
\left[ \left\| \epsilon - \epsilon_{\theta}(z_t, t, \mathbf{c}_p) \right\|_1 \right]
$$

3.3 Additional Conditioning Mechanisms

ControlNet을 활용하여 생성된 3D 의료 영상의 구조를 세부적으로 제어할 수 있도록 설계
ControlNet의 기본 두 개의 복사본을 사용
- Locked copy (기존 모델의 지식을 유지), Trainable Copy (특정 조건에 맞게 학습 가능), Zero Convolution Layer (초기 가중치 0으로 설정 후 점진적으로 최적화)
Compact Encoder Network를 사용하여 입력된 condition을 latent feature 내 Task-Specific Condition $c_f$로 전환
특정 의료 분석 작업에 맞춘 3D 영상 생성 Task를 retraining 과정 없이 수행 가능
$$
\mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t, \mathbf{c}_p, \color{blue}{\mathbf{c}_f}}
\left[ \left\| \epsilon - \epsilon_{\theta}(z_t, t, \mathbf{c}_p, \color{blue}{\mathbf{c}_f}) \right\|_1 \right]
$$

4. Experiments

3개의 구성 모델(VAE, DM, ControlNet)별로 적절한 데이터셋에 대해 학습
정상 범위 내 주요 장기가 잘 생성되었는지 품질 확인

4.1 Evaluation of MAISI VAE

일반화 성능을 평가하기 위해 훈련되지 않은 데이터셋(Out-of-Distribution Datasets)에 대해 MAISI VAE model과 특정 데이터셋에서 학습한 Dedicated VAE(test dataset 내에서 학습) 성능 비교
추가 학습 없이도 전용 VAE 모델과 동등한 성능을 달성하면서 추가적인 GPU 학습 비용을 절감
⇒ 모델 효율성과 실용성 및 최적화 잠재력을 보여줌

MAISI VAE model performance on out-of-distribution datasets

4.2 Evaluation of MAISI Diffusion Model

합성 영상 품질 평가 (Synthesis Quality Evaluation) : 실제 dataset과 비교하였을 때 FID 수치 비교
DDPM, LDM, HA-GAN과 비교하였을 때 실제 dataset과 유사한 이미지를 생성
HA-GAN은 주로 흉부(Chest) CT 영상 합성에 특화된 모델이므로 MAISI와 직접 비교

MAISI DM의 성능을 추가적으로 검증하기 위해 autoPET 2023 데이터셋을 활용

다양한 Baseline 모델과의 비교 (autoPET 2023 데이터셋 활용)

다양한 Body Region 설정에 따라 anatomically consistent한 영상 생성 가능
Voxel Spacing 조절을 통해 다양한 해상도로 영상을 생성할 수 있음

4.3 Data Augmentation in Downstream Tasks

MAISI CT Generation

127개의 해부학적 구조에 대한 세그멘테이션 마스크(Segmentation Mask)를 활용하여 합성 데이터 생성
각 병변(종양) 마스크를 활용하여 기존 환자 데이터의 증강(Augmentation) 수행
실제 환자 데이터에서 수집된 종양 형태를 유지하면서도 새로운 합성 데이터를 생성 가능

⇒ 단순 생성

MAISI Inpainting

건강한 환자 데이터에서 특정 종양이 존재하는 것처럼 합성하여 새로운 데이터셋 생성
간, 폐, 췌장 종양에 대해 inpainting을 수행하여 종양이 존재하는 새로운 샘플을 생성
특히 비정형적인 모양을 가지는 병변(골 병변, 대장 종양 등)의 경우, 기존 모델(DiffTumor)보다 더 정교한 합성 가능

⇒ 건강한 환자 Data에 tumor 합성

Real data와 Synthetic data를 dataset으로 훈련된 segmentation model의 DCS 수치 비교

MAISI dataset augmentaion에서 DSC 향상, out-of-distribution dataset에 대해 test를 수행했을 때 높은 성능을 보임

5. Discussion and Limitation

고품질 CT 이미지를 생성하는 데 큰 잠재력
한계 : 다양한 인구 집단을 반영한 데이터셋 구축 필요, 계산 비용을 줄이기 위한 모델 최적화 및 경량화 연구 필요

6. Conclusion

Foundation Model (VAE + LDM)과 ControlNet을 결합하여 고해상도 3D CT 볼륨을 생성하는 모델
다양한 신체 부위 및 병변을 반영한 해부학적으로 정교한 3D 의료 이미지 생성 가능
Flexible volume dimensions과 voxel spacing을 활용하여 현실적인 CT 이미지 생성
합성 데이터를 활용한 Data Augmentation을 통해 의료 데이터 부족 문제를 해결하고 Segmentation 및 분류 모델의 성능 향상 기여

maisi Model by NVIDIA | NVIDIA NIM

'Paper_Review' 카테고리의 다른 글

[hsjung] [논문리뷰]- A Machine Learning Based Discharge Prediction of Cardiovascular Diseases Patients in Intensive Care Units (0)	2025.03.08
[shpark] XProspeCT: CT Volume Generation from Paired X-Rays 논문 리뷰 (0)	2025.03.07
[mjkwon] A review on deep learning in medical image analysis (0)	2025.03.01
[hsjung] [논문리뷰] - MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation (0)	2025.03.01
[hspark] Multi‑modal transformer architecture for medical image analysis and automated report generation 논문리뷰 (0)	2025.03.01

Abstract

1. Introduction

Challenges in Medical Analysis Image ML model

Generaing synthetic data : 의료 이미지 생성

기존 연구의 한계

2. Related Work

GAN

Diffusion Models

3. Methodology

3.1 Volume Compression Network

Tensor spliting parallelism (TSP) : Memory bottleneck 해결

3.2 Diffusion Model

Conditional 생성 기능

3.3 Additional Conditioning Mechanisms

4. Experiments

4.1 Evaluation of MAISI VAE

4.2 Evaluation of MAISI Diffusion Model

4.3 Data Augmentation in Downstream Tasks

MAISI CT Generation

MAISI Inpainting

5. Discussion and Limitation

6. Conclusion

'Paper_Review' 카테고리의 다른 글

티스토리툴바