[sbpark] paper review

2025. 12. 29. 19:48·Paper_Review

 μ² Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation

MICCAI 2025 

 

Abstract

  • Background: Automated Radiology Report Generation (RRG)은 진단 효율성을 높이는 핵심 기술이나, 고용량 3D CT data 처리 시 발생하는 Information Loss와 Report Evaluation의 객관성 부재라는 난제 존재.
  • Proposal: Multi-scale Multimodal LLM인 μ²LLM을 제안함. 핵심 모듈인 μ² Tokenizer를 통해 Differentiable한 방식으로 Visual features를 효율적으로 압축하고 Text Query와 정렬함.
  • Method: GREEN-RedLlama Score를 기반으로 한 DPO(Direct Preference Optimization)를 적용하여 모델의 Clinical Accuracy를 전문가 수준으로 보정함.
  • Result: 4개의 대규모 Dataset 실험에서 기존 SOTA Model 대비 우수한 성능을 입증하고, 5-stage Prompt Engineering을 통해 고품질의 Explainable Training Data를 구축함.

 

1. Introduction

  • Context: CT 검사량 급증과 Radiologist 부족 현상 심화로 인해, 정확하고 신속한 Radiology Report 작성을 보조할 Automated tool의 필요성 대두.
  • Limitations:
    • 기존 LLaVA 기반 모델들은 Fixed Dimensions로 Resizing하여 미세 병변이나 장기 경계의 Anatomical Details를 손실시킴.
    • High-resolution 원본 사용 시 Computational Cost가 과다하여 Resource Constraint 발생.
  • Metrics: BLEU, ROUGE 등 기존 NLP Metrics는 단순 Lexical Similarity에만 집중하여, Clinical Salience를 평가하지 못함.
  • Solution: 3D CT의 Spatial/Structural Information을 보존하면서도 Efficiency를 극대화하는 μ² Tokenizer와, Medical Fact를 평가하는 GREEN Score 기반 학습 도입.

 

2.1 Overview of μ²LLM

제안하는 μ²LLM은 3D CT 영상과 텍스트 쿼리를 입력받아 판독문을 생성하는 End-to-End 프레임워크임.

  • Framework Composition:
    • Visual Encoder: 3D CT Volume의 고차원 특징을 추출하기 위해 Pre-trained 3D Vision Transformer (예: ViT3D)를 백본으로 사용함.
    • LLM: 추출된 시각 정보와 텍스트 질문을 바탕으로 최종 리포트를 생성하는 Decoder 역할 (Llama-3.2-1B 사용).
    • Bridge: 이 둘 사이를 연결하는 핵심 모듈이 바로 μ² Tokenizer이며, 고해상도 3D 특징을 효율적인 토큰으로 압축 및 변환하여 LLM에 전달함.

 

2.2 μ² Tokenizer

기존 LinVT 구조를 기반으로 Linearity 원칙을 유지하되, 3D Medical Imaging 특성에 맞춰 3가지 핵심 요소를 개선함.

 

(1) Relative Positional Encoding(RPE)

  • Concept: Absolute Positional Embedding 대신 Token 간의 Relative Distance를 학습하여 Structural Relationship을 파악함.
  • Formula: Self-Attention 계산 시 Distance Function Pr 추가.
  • Effect: Organ이나 Lesion의 위치가 환자마다 달라지더라도(Translation), Local Relationship과 Structural Context를 강건하게 유지함.

(2) Differentiable Token Selection(DTS)

  • Concept: 기존 Hard Top-k 방식(Non-differentiable, Information Loss)을 대체하여, 모든 Token의 Weighted Sum을 계산하는 Soft Selection 도입.
  • Formula:
    1. k개의 관점(r)에 대해 각 Token의 Importance Score(α) 산출
    2. Importance에 따라 모든 Token을 섞어서(Weighted Sum) Representative Token 생성.
  • Effect: Information Loss를 방지하고 과정이 Fully Differentiable해짐에 따라, Backpropagation 시 모든 Token에 대한 Gradient Flow 전달 가능.

 

(3) Dynamic Multi-scale Pooling(DMTP)

  • Concept: Fixed Pooling 대신, Input Data Distribution에 따라 다양한 Kernel Size의 Importance를 스스로 조절하는 Dynamic Pooling 수행.
  • Formula:
    1. Kernel Size s ∈ [1, 2, 4]로 각각 Average Pooling(y_s) 수행.
    2. MLP g(·)를 통해 각 Scale의 Weight(W_s) 산출.
    3. W_s
    4. Weight가 반영된 결과들을 Concatenation.
  • Effect: 미세한 병변(Small Scale)과 전체적인 장기 구조(Large Scale) 정보를 상황에 맞게 유동적으로 Integrate함.

 

2.3 Direct Preference Optimization with GREEN-Score

  • GREEN Score: LLM을 Judge로 활용하여 생성된 Report의 Clinical Significant Error 유무를 정량적(0~1점)으로 평가하는 Metric.
  • DPO: SFT(Supervised Fine-Tuning)된 모델을 GREEN Score가 높은 방향으로 Align함.
  • Formula: 전문가가 선호하는 답변(yw)의 Probability는 높이고, 비선호 답변(yl)은 낮춤.
  • Effect: 단순 Text Generation을 넘어, 의학적으로 정확하고 신뢰할 수 있는 표현을 사용하도록 모델을 Optimization함.

 

2.4 Prompt Engineering

고품질의 Reasoning-rich Dataset 구축을 위해 단일 LLM에게 5-stage Role을 순차 부여함.

(1) Question Generation

  • Report 전체를 분석하여 Lesion Attributes, Anatomical Localisation, Diagnostic Certainty, Follow-up 등을 포괄하는 다양한 Question List를 자동 생성함.

(2) Answer & Thinking Generation

  • 단순 Answer 도출 전, Report 내 근거 구절 인용 및 Medical Prior Knowledge를 활용한 Thinking Process를 먼저 서술하도록 유도함 (Think step-by-step 기법 적용).
  • The resulting tuples—question, answer, and raw reasoning

(3) Filter

  • Automatic Quality Gate를 통과시켜 Data Refinement 수행.
    • Factual Consistency 검증.
    • Non-English Text 및 Vacuous Thinking 제거.
    • Pathophysiologic Contradiction(예: "Pneumothorax가 처음 발견되었는데 Improved됨")이 포함된 Error Data 제거.

(4) Refine Thinking

  • 장황한 Thinking Text를 Evidence-linked Paragraph로 압축함.
  • Redundancy 제거 및 Clinical Uncertainty를 반영한 Probabilistic qualifiers(예: likely, suggestive of)를 삽입하여 Professionalism 확보.

(5) Report Thinking Synthesis

  • 생성된 QA 및 Thinking Trace들을 Anatomical Order로 재배열함.
  • Findings Rationale, Impression Rationale 등으로 Section을 구조화하여 완결된 Narrative Data 구축.

 

3. Experiments

(1) Datasets

  • Composition: AMOS-MM(약 2천 건), CT-Rate(약 5만 건, 다양한 Slice/Resolution), Abdomen Atlas 3.0(약 9천 건) 등 Large-scale Dataset 활용.
  • Augmentation: GPT-4o mini를 활용하여 기존 Report를 Rewriting하거나 QA Pair를 생성하여 Training Data의 Richness를 더함.

(2) Implementation & Baselines

  • Setup: 3D ViT (M3D-CLIP 기반 Image Encoder) + Llama-3.2-1B-Instruct (LLM) + μ² Tokenizer.
  • Baselines: LaMed-Phi-3-4B, RadFM-14B, CT-CHAT-8B 등 Parameter 수가 본 모델(1B)보다 훨씬 큰 Model들과 Comparative Evaluation 수행.

(3) Results Analysis

  • Performance: 1B size의 μ²LLM이 7B~14B 규모의 Competitive Model 대비 대부분의 Metric에서 Superiority를 보임. 특히 CT-Rate Dataset에서 GREEN Score 0.384를 기록하며 CT-CHAT-8B(0.113)를 압도함.
  • DPO Effect: SFT Only Model 대비 DPO 적용 시 GREEN Score가 약 20% 향상되어 Clinical Accuracy 개선 입증.
  • Ablation Study: Component(RPE, DTS, DMTP) 중 DTS 적용 시 GREEN Score가 최대 0.2점 상승하여 Performance Contribution이 가장 높음을 확인.

'Paper_Review' 카테고리의 다른 글

[jyyang] Paper review(PancariesNet, Proximal caries detection accuracy)  (0) 2026.02.10
[sbpark] paper review CCTV 영상을 활용한 강우량 산정기법 개발  (0) 2026.02.01
[jekim] paper review  (0) 2025.11.15
[jekim] Paper review  (1) 2025.11.08
[jyhan] paper review  (0) 2025.11.08
'Paper_Review' 카테고리의 다른 글
  • [jyyang] Paper review(PancariesNet, Proximal caries detection accuracy)
  • [sbpark] paper review CCTV 영상을 활용한 강우량 산정기법 개발
  • [jekim] paper review
  • [jekim] Paper review
team-sudal
team-sudal
team-sudal 님의 블로그 입니다.
  • team-sudal
    SUDAL
    team-sudal
  • 전체
    오늘
    어제
    • 분류 전체보기 (127)
      • MedicalFM (22)
        • anomaly_detection (1)
        • change_detection (1)
        • report_generation (3)
        • classification (1)
        • denoising (1)
        • generation (0)
        • reconstruction (0)
        • regression (3)
        • segmentation (0)
        • super_resolution (1)
        • MAE (7)
      • MAISI (9)
        • MAISI_Data (9)
      • Paper_Review (46)
      • Others (18)
      • LambdaCourse (0)
        • Paper_Review (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Bite-wing radiograph
    Occlusal caries
    Visual inspection
    Diagnosis
    Fibre-optic transillumination
    0
    GaN
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
team-sudal
[sbpark] paper review
상단으로

티스토리툴바