[nyyoon] 논문리뷰 - X-Recon: Learning-based Patient-specific High-Resolution CT Reconstruction from Orthogonal X-Ray Images

논문 작성일: 2023.12.31

논문 원본 링크: https://arxiv.org/abs/2407.15356

논문 리뷰 작성일: 2025.03.14

1. Introduction

기흉(pneumothorax)는 폐와 흉벽 사이 흉막강에 비정상적으로 공기가 축적되는 현상을 말합니다. 기흉을 진단할 때는 주로 X-Ray나 CT 검사를 이용하는데 CT는 X-Ray에 비해 고가이고 방사선 노출이 많다는 단점이 존재합니다. 따라서 X-Ray영상만 이용하여 CT영상을 생성해 CT의 단점을 보완하고자 하는 시도가 이어지고 있습니다.

본 연구에서는 X-Recon이라는 학습 기반 CT 재구성 네트워크를 제안하였고, 이는 아래 그림과 같이 직교 시점에서 본 X-ray를 이용하여 3D CT 영상을 재구성합니다.

Figure 1: Patient-specific high-resolution CT reconstruction from orthogonal X-rays.

X-Recon은 MFusionRen을 갖춘 generator와 3D 좌표 합성곱층이 포함된 discriminator가 포함된 GAN을 활용합니다. 또한, 모델 학습을 위해 투영 공간 변환기인 ProST를 기반으로 한 multi-angle projection loss를 도입하였으며, 이와 같은 접근은 기존의 연구들과 비교해 CT 영상의 해상도를 현저히 향상시켰음을 확인할 수 있었습니다.

신뢰도 평가를 위해선 PTX-Seg라는 제로샷 분할 프레임워크를 적용하였는데, 이는 기존 이미지 처리 기법과 딥러닝 모델을 결합하여 공기 영역과 폐를 구분하고 기흉이 차지하는 흉막강 비율을 계산하는데 사용되었습니다.

2. Methodology

2.1. X-Recon: Dual View CT Reconstruction Network

Figure 3: Details of the network structure of the X-Recon generator

X-Recon의 구조는 위와 같습니다. 정측면(ortho-lateral) 흉부 X-Ray 영상이 generator와 discriminator 각각에 입력돼 prior condition으로 활용되며, 이를 통해 CT를 생성합니다. 이후 생성된 CT와 실제 환자로부터 얻은 CT 간의 재구성 손실과, ProST를 활용한 다중 각도 투영 손실을 계산하는데 이를 활용하여 재구성된 영상의 품질을 향상시킵니다.

2.1.1. Generator

generator는 MFusionRend 모듈을 활용하여 구성되어 있습니다. 기본적으로 Encoder-Decoder 네트워크로 이루어져 있는데 후전(posteroanterior)과 측면(lateral) 흉부 X-ray를 각각 처리하기 위해 두 개의 Encoder-Decoder가 존재하며, 이는 측면과 전면 정보를 모두 얻어 기존 연구들의 한계를 극복하기 위함입니다. 각각의 네트워크는 두 시점의 특징을 추출하여 후속 융합 및 디코딩 모듈로 전달하는데 이 모듈이 MFusionRend 모듈입니다. 이 모듈은 각각의 시점의 정보를 통합하는 decoder main branch와 여러 공간 레벨에서 특징을 생성하는 output branch로 구성되어 있습니다.

좀 더 자세히 살펴보자면 X-Recon은 Encoder에서 Dense Connection 모듈을 기본 단위로 사용합니다. 이 모듈은 downsampling 모듈과 Dense connected convolution 블록, compression block으로 구성됩니다. 궁극적으로 입력 이미지 정보를 다양한 공간의 수준에서 보존하고 동시에 압축된 특징 표현을 생성해야 하는데 , 이를 위해 dense connection 모듈을 계층적으로 쌓고, 해당 정보들을 skip connection으로 decoder에 전달합니다.

2.1.2 Discriminator

기존의 GANs 와 달리 X-Recon은 Fully Convolution 형태로 구성하였습니다. 일반적인 GAN에서는 판별기가 입력 샘플이 진짜일 확률을 나타내는 스칼라 값을 출력하는데 X-Recon의 판별기에서는 행렬을 출력합니다. 행렬 요소의 값은 원본 이미지의 해당 영역이 실제일 확률을 나타냅니다.

또한, 위치 정보에 관해 효과적으로 학습하기 위해 CoordConv(좌표 컨볼루션)이 도입되었습니다. CoordConv는 좌표 정보를 feature map의 일부로 통합해 일정 수준의 translational dependency를 유지할 수 있도록 합니다. 이는 특히 이미지 내 객체가 상대적으로 고정되어 있을 때 효과적인데, 흉부 이미지 내에서 장기의 위치가 상대적으로 고정되어 있는 것을 생각해보면 CoordConv를 이용해 각 장기의 위치 정보를 확보해 모델의 성능을 향상시킬 수 있을 것입니다.

즉, 본 모델에서의 판별기는 3D CoordConv 레이어를 활용해 특징 추출과 위치정보를 통합하고, 3개의 다운샘플링 모듈로 3D convolution을 정규화 및 활성화 함수를 적용하며, 최종 feature map 압축 및 출력을 위해선 출력 합성곱 레어어를 사용해 더 정확한 CT 재구성이 가능하도록 합니다.

2.1.3 MFusionRend Module

최종 CT 재구성 결과를 생성하기 위해선 다중 스케일 융합 렌더링 모듈인 MFusionRend 모듈을 포함해야 하고, 아래와 같은 구조를 가지고 있습니다.

Figure 4: Illustration of the basic fusion block of MFusionRend Module: Fuse and Fuse-out block.

두 개의 Encoder-Decoder 네트워크가 추출한 특징들은 fusion and decoding 모델에서 통합이 되고, 이후 average feature map을 계산한 뒤 다시 각각의 decoder branch로 전달해 두 시점에서 얻은 정보를 융합하게 됩니다. 렌더링 모듈는 다양한 크기의 feature map에서 CT 값을 예측하는 역할을 하며, 서로 다른 크기의 CT 값은 정규화 후 업샘플링하여 중첩됩니다. 즉, 최중 출력에서는 거친 표현부터 정밀한 표현까지 포함된 CT 이미지가 생성되게 됩니다.

2.2. PTX-Seg: Zero-shot Pneumothorax Segmentation Framework

생성된 이미지에 대한 평가를 진행하기 위해선 segementation이 필요한데 본 논문에서는 PTX-Seg를 도입하였습니다. PTX-Seg는 두 개의 분기로 구성된 분할 프레임 워크이며, 이는 아래의 알고리즘 1에서 확인해 볼 수 있습니다.

학습 기반 분기에서는 U-Net을 사용하여 폐 유조직(lung parenchyma) 분할을 수행하는데, 이때 LOLA11 Challenge의 우승한 사전 학습 가중치를 활용하였습니다. 입력 CT 이미지 I는 고정된 U-Net 모델들 F_i을 여러 번 거쳐 폐 실질 영역 M_l 을 추출합니다. 또, 더 정확한 분할을 위해 여러 모델을 결합하는 union model ensemble 방식을 채택해 폐의 유조직 영역이 M_l에 포함되도록 합니다. 이후 폐 영역을 더 정확하게 하기 위해 커널 K_l을 이용한 closure operation을 적용합니다.

U-Net의 학습 데이터에는 기흉이 포함되지 않았기에 해부학적 정보를 반영하는 Auxiliary 분기를 사용하여 기흉 영역을 추출해야 합니다. 보조 분기는 CT 영상을 우선 공기가 포함된 영역과 그 외의 영역을 초기에 분리하는 것에서 시작합니다. 강도 임계값을 이용하여 Threshold function을 수행하여 coarse body mask인 Mc_b를 얻을 수 있는데, 이 과정에서의 오류를 방지하기 위해 커널 K_b를 이용한 3D closure operation을 적용해 폐 내부의 작은 구멍을 채우고 trachea 부분을 닫고 있습니다. 이후 비신체 영역인 M'_b는 seed-point-based region-growing operation을 사용하여 얻을 수 있고, 이를 반전시키면 fine body mask인 M_b가 생성됩니다. coarse 기흉 분할 마스크인 Mc_p는 M_l과 M_b의 교집합으로 얻어지게 되며, 최종적인 마스크는 공기 부피 임계값인 v_t를 고려하여 결정됩니다.

즉, PTX-Seg는 기존 U-Net 모델로는 기흉 영역을 분할해낼 수 없었던 단점을 Auxiliary 분기를 추가하여 보완해낸 모델입니다.

2.3 Loss functions of X-Recon

2.3.1 Reconstruction loss

재구성된 CT와 실제 CT의 구조적 일관성을 유지하기 위해서는 voxel 수준에서의 제약이 필요합니다. 이에 따라 X-Recon은 L2 loss를 사용하는데 이는 아래와 같이 정의됩니다.

y는 실제 CT 영상을 나타내고 g(x)는 generator에 의해 재구성된 CT 영상을 나타냅니다.

2.3.2 Digitally Reconstructed Radiograph loss (DRR loss)

X-Recon은 2D 투영 공간에서도 구조적인 제약을 적용하고 있는데 X-ray 와 CT 이미지를 정렬하는 기법인 공간 변환기를 투영기하학으로 확장한 Projective-Spatial-Transformer(ProST)을 도입하였습니다.

X-Recon은 다양한 시점에서의 재구성 CT 투영 이미지와 실제 CT 투영 이미지 간의 일관성 또한 유지하는 것을 목표로 삼았는데, 이에 후전(Posteroanterior), 축, 측면(Lateral) 시점에서의 투영 결과를 제약하고 있습니다.

기존의 모델들과 유사하게 X-Recon은 L1 손실을 사용하여 출력결과가 입력 조건과 일치하도록 하는데, L1 손실은 다중 시점에서 투영된 이미지에 적용돼 image edge 선명도를 향상시키는 역할을 합니다. 이는 아래와 같은 다중 시점 투영 손실로 정의됩니다.

이 수식은 실제 CT와 재구성된 CT 간의 투영된 모든 시점에서의 L1을 합산한 값입니다.

2.3.3 Generative adversarial loss (GAN loss)

GAN은 대표적인 생성 모델로, 그중에서도 cGAN(Conditional GAN)은 기존 GAN을 확장하여 데이터 생성 과정을 감독하고 개선할 수 있도록 설계되었습니다. cGAN은 추가 정보를 조건부 입력으로 사용하여 데이터 생성을 감독합니다. X-Recon에서는 cGAN에서 영감을 받아 2D X-ray 영상을 사전 정보로 활용하여 학습하였습니다. 본 연구의 모델은 generator에 2D X-ray 이미지를 prior knowledge로 포함하여 가이드 역할을 하도록 하였고, 이는 discriminator에도 적용되어 판별기의 학습능력을 향상시켰습니다.

이러한 GAN 모델은 최소 제곱 LSGAN 손실을 사용하여 학습되며, 수식은 아래와 같습니다.

D(y|x)는 입력된 2D 흉부 X-ray 이미지를 고려하여 판별기가 실제 CT인지 평가하는 값이며, D(g(x)|x)는 생성기가 x를 입력받아 재구성한 CT 영상이 실제 CT와 얼마나 유사한지 판별기가 평가하는 값을 의미합니다.

G Loss는 아래와 같이 정의되며, 생성시가 더 현실적인 CT 영상을 생성하도록 학습하는 역할을 합니다.

3. Experiments

3.1 Dataset collection

총 534명의 대상자로부터 데이터가 수집되었으며, 공공 보건 임상 센터의 PACS를 사용하여 자연기흉과 외상성 기흉 환자를 식별하는 과정을 거쳤습니다.

또, PTX-Seg의 성능 검증 및 분석을 위해 전문의로부터 annotation을 받았으며 이 주석을 segementation을 평가의 gold standard로 사용하였습니다.

더불어 X-ray와 CT를 쌍으로 수집하는 것이 어려웠기 때문에 DRR(Digitally Reconstructed Radiongraph)기법을 활용하였고, CT 데이터를 기반으로 하여 후전 및 측면 X-ray 데이터를 시뮬레이션으로 생성하였습니다.

3.2 Implementation Details

훈련과 테스터 데이터셋은 4:1 비율로 분할되었으며, 아래와 같은 파라미터를 가지고 Adam optimizer를 사용하여 훈련되었습니다.

intial learning rate	5e-5
betas	(0.5,0.99)
weight decay	5e-4

또한, 입출력 이미지는 각각 224 by 224(2D,X-ray), 224 by 224 by 224(3D, CT) 입니다.

더불어 GPU 메모리를 고려하여 batch size를 1로 두기 위해 인스턴스 정규화를 활용하였습니다.

3.3 Segmentation Performance of PTX-Seg

TABLE I: Segmentation accuracy assessment of the PTX-Seg

PTX-Seg의 segmentation 성능을 정량적으로 평가한 결과는 위와 같으며 앞서 전문의가 annotation한 데이터를 ground truth로 보고 정확도를 측정하였습니다. 표에서 확인할 수 있듯이 PTX-Seg의 분할 정확도는 약 96%이상으로 우수한 성능 보이고 있습니다.

3.4 Reconstruction results of X-Recon

3.4.1 Qualitative analysis

Figure 5: Visualization of X-Recon reconstruction results.

X-Recon의 재구성 결과는 위 그림에서 확인할 수 있습니다. 건강한 사람의 경우 재구성 CT에서 lung parenchyma가 명확하게 보이며, 각 장기의 위치와 형태가 실제 CT와 일치함을 확인해볼 수 있고, 기흉 환자의 경우 폐 가장자리 주변에 가스층이 보이며 눌린 폐 조직이 내부 가장자리에서 관찰되는 것이 확인됩니다. 이 또한 실제 CT와 유사하다는 것을 확인할 수있습니다.

3.4.2 Comparison with reconstruction methods

재구성 결과를 평가하기 위해서 이 분야의 최신 기술인 SOTA 기법과의 비교를 진행하였습니다.

정성적 평가를 위해 우선 다른 연구의 결과값과 시각적 비교를 진행하였는데 비교 그림은 아래와 같습니다.

Figure 6: Qualitative comparison with reconstruction methods

(c)의 단일 시점 재구성 방법은 CT영상을 흐릿하게 생성하고, 페의 세부 정보가 손실되었음을 확인할 수 있고, (d)의 경우 폐 유조직을 비교적 잘 재현하지만 공기축적 영역 재구성에 있어서 한계를 보이고 있습니다. 반면, X-Recon은 폐의 미세한 구조적 변화를 효과적으로 표현해내고 있으며, 기흉 환자의 공기 축적 영역을 더욱 정밀하게 보여주고 있습니다.

Figure 7: Comparison with other methods by 3D rendering.

또한, PTX-Seg를 기반으로 하여 CT 이미지의 분할 결과를 렌더링하여 표시한 이미지는 Fig.7에서 확인할 수 있습니다. 이 그림을 확인해 보았을 때, X-Recon으로 재구성된 CT가 실제 CT와 높은 유사성을 보이는 것을 확인할 수 있습니다.

TABLE II: Quantitative comparison with other methods using metrics related to image reconstruction quality, pneumothorax diagnosis, and image segmentation, respectively.

정량적으로 분석하기 위해 세 가지 지표를 이용하였습니다. 각각 CS(Cosine Similarity), PSNR(Peak Signal-to-Noise Ratio), SSIM(Structual Similarity)이며, 실제 기흉 진단에 있어 얼마나 유용한지 또한 평가하였습니다. PTX-Seg를 통해 나온 결과값을 silver standard로 사용하였고, 이를 통해 실제 환자의 CT와 재구성된 CT의 좌우폐 영역, 공기축적 영역을 추출할 수 있었습니다. 피어슨 상관 계수(Pearson correlation coefficient)를 사용하여 실제 CT와 재구성된 CT 간의 부피 및 기흉 점유율 유사도를 측정하였습니다. 각각의 값들은 Table II에 제시되었습니다. (CC는 상관계수를 뜻하고, RLCC는 우폐 부피 상관계수, LLCC는 좌폐 부피 상관계수, ARCC는 공기축적영역의 상관계수, OCC는 그 비들을 나타낸 값입니다.)

TABLE III: Quantitative comparison of X-Recon with other methods by metrics related to image segmentation, including Dice coefficient, Jaccard coefficient, 95t⁢h percentile Hausdorff Distance ( H⁢D95 ), and average surface distance ( A⁢S⁢D ).

폐와 공기 축적 영역의 분할 성능은 Dice, Jaccard 계수, Hausdorff 거리, 평균 표면 거리를 통해 평가되었고, table III을 참고해보면 전반적으로 X-Recon의 성능이 높다는 것을 확인할 수 있습니다.

3.5 Ablation Experiments

X-Recon의 네트워크 구조 및 손실함수를 중심으로 소거 실험을 진행하였습니다.

3.5.1 Ablation experiments on the network structure

본 연구에서는 다음 세가지 요소를 개발적으로 소거 실험을 진행하였습니다. 각각 좌표컨볼루션(the coordinate convolution in the discriminator network), 스킵 커넥션(the skip connection in the generator network), MFusionRend( the multi-scale fusion module)입니다.

TABLE IV: Ablation experiments on the network structure of X-Recon, using metrics related to image reconstruction. ✓represents the result with that setting, while blank represents the result without that setting.

위의 표를 확인해보면 모든 요소를 다 사용했을 때 가장 우수한 성능을 보임을 확인할 수 있습니다.

3.5.2 Ablation experiments with loss functions

X-Recon에서 서로 다른 손실함수가 미치는 영향을 평가하기 위해 마찬가지로 소거 실험을 진행하였습니다. 평가된 손실함수는 재구성 손실, 다중 각도 투영 손실, 적대적 손실인데 아래 그림은 정성적 평가를 진행한 결과입니다.

Figure 8: Visualization examples of X-Recon loss function ablation experiments. (a) Real CT image; (b) Reconstruction results without reconstruction loss; (c) Reconstruction results without digitally reconstructed radiograph loss; (d) Reconstruction results without generative adversarial loss; (e) Reconstruction results of our proposed X-Recon

GAN loss를 제거한 경우 재구성된 CT의 폐 유조직이 흐릿하게 나타났고, 재구성 손실, 다중각도투영손실 중 하나를 제거한 경우에는 공기축적영역이 불분명하여 부피 계산이 어려웠습니다. 반면, 모든 손실함수를 표함하여 학습한 X-Recon의 경우 가장 좋은 재구성 결과를 생성하였습니다.

정량적 관점에서 평가한 결과는 아래의 표에서 확인할 수 있습니다. 마찬가지로 모든 손실함수를 적용하였을 때 가장 높은 성능을 달성하였습니다.

TABLE V: Ablation experiments on the loss function of X-Recon, using metrics related to pneumothorax diagnosis.

4. Discussion

X-Recon은 정측면 X-ray를 활용하여 CT 를 재구성하는 새로운 방법을 제안하였고, 기흉 진단을 위해 PTX-Seg 알고리즘을 개발하여 높은 분할 정확도를 달성한것을 확인하였습니다. 임상지표를 분석한 결과, 타 모델에 비해 X-Recon의 재구성 CT가 실제 CT와 높은 상관관계를 보이며 이는 이를 통해 진단이 가능할 수 있음을 시사해 줍니다. 그러나 DDR X-ray와 실제 X-ray 간의 차이가 존재하며, 해상도에 있어서 한계점이 존재합니다. 향후 연구로는 네트워크 구조 개선을 통해 해상도를 향상시킬 수 있는 방법을 다뤄 볼 수 있을 듯 합니다.

5. Conclusion

결론적으로, X-Recon은 CT 재구성 및 기흉 진단 분야에서 혁신적인 방법을 제안하였으며, 향후 정밀 의학 및 흉부 질환 연구에 큰 기여를 할 것으로 전망됩니다.

'Paper_Review' 카테고리의 다른 글

[dhkim] [논문 리뷰] GAN - Generative Adversarial Nets (2014) (3)	2025.08.22
[hsgo] 8/9(토) 논문 리뷰 (2)	2025.08.08
[syju] Maximum Entropy Inverse Reinforcement Learning ofDiffusion Models with Energy-Based Models (0)	2025.03.10
[mjkwon] Lung Pattern Classification for Interstitial Lung Diseases Using a Deep Convolutional Neural Network (0)	2025.03.08
[nyyoon] 논문 리뷰 - A deep convolutional neural network model for automated identification of abnormal EEG signals (0)	2025.03.08

1. Introduction

2. Methodology

2.1. X-Recon: Dual View CT Reconstruction Network

2.1.1. Generator

2.1.2 Discriminator

2.1.3 MFusionRend Module

2.2. PTX-Seg: Zero-shot Pneumothorax Segmentation Framework

2.3 Loss functions of X-Recon

2.3.1 Reconstruction loss

2.3.2 Digitally Reconstructed Radiograph loss (DRR loss)

2.3.3 Generative adversarial loss (GAN loss)

3. Experiments

3.1 Dataset collection

3.2 Implementation Details

3.3 Segmentation Performance of PTX-Seg

3.4 Reconstruction results of X-Recon

3.4.1 Qualitative analysis

3.4.2 Comparison with reconstruction methods

3.5 Ablation Experiments

3.5.1 Ablation experiments on the network structure

3.5.2 Ablation experiments with loss functions

4. Discussion

5. Conclusion

'Paper_Review' 카테고리의 다른 글

티스토리툴바