논문 게시일 : 2024.06.23
논문 원본 글: https://arxiv.org/abs/2406.16109
X-ray2CTPA: Generating 3D CTPA scans from 2D X-ray conditioning
Chest X-rays or chest radiography (CXR), commonly used for medical diagnostics, typically enables limited imaging compared to computed tomography (CT) scans, which offer more detailed and accurate three-dimensional data, particularly contrast-enhanced scan
arxiv.org
논문 리뷰 작성일: 2025.02.22
Introduction
Chest X-Ray(CXR)은 빠른 속도와 높은 접근성으로 빠른 진단이 필요할때 유용하게 사용됩니다. 그러나 2D 영상의 한계와 낮은 contrast로 인해 진단 능력이 제한적이라는 단점이 있습니다.
조영제 주입을 이용한 CT 폐혈관 조영술(CTPA)은 높은 contrast와 3D 영상으로 결과를 제공하여 진단 정확도가 높습니다. 하지만, 높은 가격과 방사선 노출, 조영제 알러지나 신부전 환자에게는 적합하지 않다는 등의 문제점이 존재합니다.
이에 연구팀은 Generative AI를 활용하여 2D X-Ray영상을 3D CTPA 영상으로 변환하는 시스템을 구축하고 평가하는 시스템을 구축하였습니다. 더불어, 이와 같은 cross-modal translation이 일반화 될 수 있음을 보이기 위해 LIDC(Lung Image Database Consortium)을 활용하여 시스템을 시연하였습니다.
폐색전증(Plumonary Embolism) 분류 작업을 사례 연구로 삼아 CXR에서의 CT 영상 변환 가능성을 입증하였습니다. PE는 혈전이 폐동맥으로 이동해 혈류를 차단한 상태로 기존 PE 진단의 스탠다드는 CTPA입니다. 그러나, PE 진단에 있어 CTPA을 시행했을 때 PE가 확인되는 비율은 5~15%에 불과해, 앞서 언급한 많은 방사선 노출량과 높은 비용 등의 단점들을 감수하기 비효율적인 현실입니다. 따라서 낮은 방사선 노출과 저비용 데이터를 기반으로 한 AI 진단 도구 개발의 필요성이 제기되고 있습니다.
최근 AI 분야는 혁신적인 발전을 이루고 있으나, 의료 영상에서의 생성형 AI 적용은 쉽지 않은 상황입니다. 이러한 한계를 극복하기 위해 PE 의심환자 중 CTPA와 CXR 모두 촬영한 900명의 환자 데이터 셋을 가지고 레이블을 구축하고, X-ray 2 CTPA 확산 모델을 훈련하였습니다. 이후, 훈련된 모델으로 CXR input으로 부터 CTPA 영상을 합성하고 PE의 여부를 진단하였습니다. 설계 개요는 아래와 같습니다.

본 연구의 핵심 가설은 합성된 CTPA 데이터가 CXR 촬영 단계에서 PE 분류를 해낼 수 있다는 것이며, 기대 효과는 다음과 같습니다. CTPA를 합성함으로써, PE의 진단 특이도를 향상시킬 수 있고 선별적인 CTPA 촬영이 가능해질 수 있습니다. 즉, 합성 CTPA가 실제 진단에서 CT를 대체하기 보다는 pseudo-CTPA의 역할을 수행해 CTPA 촬영 여부를 결정하기 위한 자료로 사용될 수 있다는 것입니다.
본 연구의 Contributions을 간단하게 정리하면 아래와 같습니다.
1. Innovative Cross-Modal Translation.
확산 모델과 CLIP Vision 인코더와 adversarial guidance를 활용해 X-Ray2CTPA의 방법을 제안합니다.
2. Potential earlier identification of PE in CXR.
교차 모달 합성 데이터 생성을 통해 CXR 기반 폐색전증(PE) 탐지 성능을 향상할 수 있음을 입증
3. Generalizability
Results
RSPECT 데이터셋으로 사전 학습된 확산 모델은 두 단계를 거쳐 fine-tuning 되었습니다. 우선 첫째로, CXR 조건 없이unconditional 방식을 이용해 fine-tuning을 진행하고, 이후에 CXR 조건을 추가해 학습하였습니다.
Quantitative Results
생성 샘플의 품질을 평가하기 위해 아래와 같은 네 가지 지표를 사용하였습니다.
1. Fréchet Video Distance (FVD)
생성된 CTPA 영상과 실제 CTPA 영상간의 차이를 정량화합니다. 이 방식은 비디오 데이터셋에 적합한 방식으로, 의료 데이터셋에 완벽히 적합한 지표는 아닙니다.
2. PSNR (Peak Signal-to-Noise Ratio)
이미지 품질을 평가할 때 사용되는 지표로, 이 값이 높을 수록 품질이 우수하다고 평가됩니다.
3. SSIM (Structural Similarity Index Measure)
두 이미지 간 유사성을 평가하는 지표로, brightness, contrast, structure 요소를 반영합니다. PSNR보다 인간의 주관적 평가와 더 잘 일치합니다.
4. LPIPS (Learned Perceptual Image Patch Similarity)
사전 학습된 신경망을 이용해 두 이미지의 유사성을 계산하는 지표로, LPIPS 값이 낮을 수록 더 유사함을 의미합니다.

생성 샘플을 Ground Truth 샘플과 비교하여 위의 네 가지 지표를 계산한 결과는 Table 1과 같습니다.
Qualitative Results


Fig.2 에서는 생성 CTPA의 시각적 예시를 제시하고 있습니다. 총 네 개의 생성 샘플의 주요 단면과 Ground Truth의 단면을 비교한 것을 시각화하였습니다. 이를 분석해 본 결과, 생성된 샘플과 정답 샘플 간 유사도는 높으나 일부 차이를 보임을 알 수 있습니다. 또한, coronal 단면을 비교해 보아도 생성 CTPA와 정답 CTPA가 전반적으로 해부학적 구조가 유사하며, 입력 CXR과도 일관성을 가짐을 확인해볼 수 있습니다.
이후 PE가 있는 생성 샘플과 그에 대응되는 Ground Truth 샘플을 비교하였고, 결과는 아래와 같습니다.

Fig3. 을 통해 X-ray2CTPA 모델이 PE 진단과 일관된 소견을 성공적으로 생성해냄을 확인할 수 있습니다. 다만, 생성된 PE 병변의 형태와 위치에서 일부 차이가 발생하였습니다. 즉, 생성된 CTPA가 Ground Truth와 완벽히 동일하지 않지만, 임상적으로 중요한 정보를 제공하고 있으며 PE 진단 또한 일치하게 생성해 낼 수 있음을 확인할 수 있습니다.
생성된 스캔을 두 명의 방사선 전문의가 평가하는 expert evaluation study도 진행하였습니다. 실제 스캔 10개와 합성 스캔 10개를 제공하였고, 전문의들은 이 스캔들의 품질과 합성 여부를 판단하였습니다. 대부분의 합성 스캔과 실제 스캔을 정확히 구별하였는데, 이는 합성 스캔의 낮은 화질 때문이었습니다. 또, 전문가들은 합성 스캔의 해부학적 정확도와 단면 일관성을 평가하였는데, 생성 스캔이 대체로 현실적이며 연속된 단면 사이에서 일관성이 유지되고 있다고 판단하였습니다.
연구 팀은 위와 같은 연구를 통해 X-ray2CTPA 모델이 어느정도 현실적인 영상을 합성하고 있음을 확인하였습니다. 더불어 품질 문제를 해결하기 위한 방법으로 더 많은 데이터를 사용하여 학습하거나, 초해상도 단계, ControlNet과 같은 사전 학습 모델을 사용하는 방식 등을 제안하였습니다.
Ablation study on model architecture choices

Table2.는 여러 design choices와 network components를 평가한 결과입니다.
훈련에 있어 다양한 loss function을 비교 실험하였는데, 여기서 L1은 생성 샘플과 정답 샘플 간 픽셀 차이를 최소화하는 손실함수이며, Perceptual loss(LPIPS)는 인간의 시각적 인식을 고려하여 평가하는 손실함수입니다. Adversarial loss(ADV)는 discriminator를 사용해 생성된 샘플이 현실적으로 보이도록 학습하게 하며, Classification loss(Classifier)는 PE 분류 정확도를 높이기 위해 사용된 손실함수입니다. Table2에서 확인할 수 있듯이 Perceptual Loss를 추가하면 L1 Loss 단독 사용보다 더 좋은 품질의 영상을 생성할 수 있습니다. Adversarial Loss는 정량적 지표에는 큰 영향을 주지 않지만, 시각적 품질을 개선하며, 비슷하게 Classification Loss는 PE 분류 성능을 향상시키는 데 도움을 줍니다.
또, 사전 학습 과정을 변경해 보기도 하였는데, 기존에는 RSPECT 데이터셋을 CTPA 데이터를 위한 uncondtional 사전 학습에만 사용했다면 새로운 실험에서는 conditional 사전학습을 진행하여 CTPA에서 생성된 합성 CXR을 포함하도록 하였습니다. 이러한 변경은 성능이 크게 향상시켰고, Table2에서 확인할 수 있습니다.
이외에도 Classifier-Free Guidance (CFG)을 사용하거나, 샘플의 크기를 변경하고, 사전학습된 3D-VQGAN을 사용하는 등의 대체 실험을 진행하였으나, 성능이 향상되는 효과는 찾아볼 수 없었습니다.
정량적 평가 외에도 정성적 평가를 진행한 결과 전반적으로, 생성된 샘플들은 정답(Ground Truth)과 유사하지만, 완전히 동일하지는 않음을 Fig4. 에서 확인해볼 수 있습니다.

Synthetic 3D CTPAs can be used to enhance PE classification

당연하게도 실제 CTPA를 사용한 분류 모델이 가장 높은 성능(AUC 0.827)을 기록하였습니다. CXR만 사용한 분류 모델의 성능(AUC 0.691)은 상대적으로 낮으며, 이는 PE가 CXR에서 잘 보이지 않기 때문입니다. 생성된 CTPA를 사용한 분류 모델은 AUC 0.803을 기록하며, CXR 분류보다 훨씬 높은 성능을 보임을 확인할 수 있습니다.
즉, 합성 CTPA를 활용하면 PE 분류 성능을 향상 시킬 수 있으며, 이는 합성 스캔이 불필요한 방사선 노출을 줄이고, 선별 검사가 가능하도록 도울 수 있음을 시사해줍니다.
Generalizability
본 연구팀은 해당 모델이 다른 modalities에서도 활용될 수 있는지도 평가하였습니다. 이를 위해 추가적인 데이터셋을 사용하여 실험을 진행하였습니다.

LIDC(Lung Image Database Consortium) 데이터셋의 흉부 CT를 활용하여 LoRA(Low-Rank Adaptation) 기반 Fine-tuning을 진행하였으며 해당 모델에 관한 평가 결과는 위와 같습니다. 비록 학습에 사용된 샘플 수가 매우 적었음에도 불구하고, 평가 결과는 우수한 성능을 기록하였습니다. 정성적 결과는 아래와 같습니다.

Failed examples
X-ray2CTPA 모델은 실제 CTPA 영상과 매우 유사한 합성 영상을 생성하나, Fig.6.에서 확인할 수 있듯 영상의 일부는 ground truth를 정확하게 재현하지 못합니다. 주로 작은 혈관 주변이나 드물게 나타나는 이상소견 또는 PE외의 추가적인 병변이 존재할 때 발생하는데, 이 경우 잘못된 위치에 병변을 생성하거나 아예 생성하지 못합니다.

이러한 문제가 발생하는 원인은 CTPA 샘플의 높은 변이성과 PE가 동반 질환에 의해 이차적으로 발생하는 경우가 많이 때문이라고 여겨집니다. 이러한 문제는 대규모의 데이터셋으로 모델을 학습할 시 개선될 것이라 추측됩니다.
Discussion
본 연구는 Chest X-Ray(CXR)에서 3D CTPA 스캔을 생성하는 AI 모델을 개발하고, 이를 PE 분류에 적용하여 임상적 유용성을 평가하는 것을 목표로 하였습니다. BiomedCLIP Vision 인코더와 3D 확산 모델을 활용하여 생성된 CTPA 스캔이 구조적으로 실제 CTPA와 유사하지만, 완전히 동일하지는 않음을 확인하였습니다. 실험 결과, 생성된 CTPA를 활용한 PE 분류 모델은 CXR만 사용한 모델 대비 AUC가 11% 향상되었으며, 특이도도 개선되어 불필요한 CTPA 촬영을 줄이는 데 기여할 가능성을 보였습니다. 본 연구는 의료 영상 분야에서 생성형 AI를 단순한 이미지 생성이 아닌 실제 임상 문제 해결에 적용한 최초의 연구 중 하나로, 향후 더 많은 데이터를 활용한 학습을 통해 진단 정확도를 높이고, 다양한 의료 영상 모달리티에 확장할 가능성이 있음을 시사합니다.