[jyhan] paper review

1. Clinical-BERT : Vision-Language Pre-training for Radiograph Diagnosis and Reports Generation

학회 : aaai

출판 : 2022

citation : 130회

https://ojs.aaai.org/index.php/AAAI/article/view/20204

Clinical-BERT: Vision-Language Pre-training for Radiograph Diagnosis and Reports Generation | Proceedings of the AAAI Con

ojs.aaai.org

1. Abstract.

- 본 연구에서는 의료 도메인에 특화된 시각-언어 사전 학습 모델인 Clinical-BERT를 제안함.

- 일반적인 Masked Language Modeling (MLM)과 더불어 세 가지 도메인 특화 사전 학습 태스크를 고안하여 모델을 사전 학습시킴.

1) Clinical Diagnosis (CD) : 영상에서 질병을 예측하여 의료 도메인 지식을 학습

2) Masked MeSH Modeling (MMM) : 방사선 보고서에서 중요한 의미 구성 요소인 MeSH (Medical Subject Headings) 단어 예측에 초점을 맞춤.

3) Image-MeSH Matching (IMM) : 2단계 희소 어텐션(two-level sparse attention) 메커니즘을 통해 MeSH 단어와 영상 간의 정렬을 학습.

-> 사전 학습 단계에서 의료 도메인 지식 학습 최초 시도 의의.

2. Introduction

- 일반 도메인(General Domain)의 Vision-Language (VL) 사전 학습 모델을 의료 도메인에 직접 적용할 경우, 두 도메인의 특성 차이로 인해 성능 저하 발생

- 의료 보고서의 특수성 : 일반적인 이미지 캡션은 동의어 사용 등 표현이 다양하지만, 방사선 보고서는 "Lungs," "Pleural Effusion"과 같은 MeSH 단어를 사용해야 하므로 더욱 정확성(exact)이 요구됨.

- 기존 의료 VL 사전 학습 연구들은 일반적인 태스크(MLM 등)를 사용했기 때문에, 중요한 도메인 지식인 MeSH 단어와 다른 단어를 동등하게 취급하여 그 중요성을 간과.

-> 의료 도메인 지식을 학습하는 3가지 도메인 특화 태스크(CD, MMM, IMM)를 갖춘 Clinical-BERT를 제안 : MeSH 단어에 집중하여 모델이 도메인 지식을 학습하고 하위 태스크(Downstream Task)에서 더 나은 성능을 얻도록 함.

3. Methods

1. Clicinal Diagnosis (CCD) Lcd : 방사선 영상을 기반으로 14가지 질병 카테고리를 예측하는 다중 레이블 분류 문제로 처리하며, 시각 및 언어 특징의 공동 표현을 통해 질병을 예측함.

2. Marked MeSH Modeling (MMM) Lmmm : 보고서 내 MeSH 단어만 15% 확률로 무작위 마스킹하고 이를 예측하도록 하여 모델이 MeSH단어에 대한 집중력을 높이도록 함.

3. Marked Language Modeling (MLM) LMLM : 일반적인 BERT 마스킹 태스크. 다만 MMM에서 다루는 MeSH 단어는 제외됨. 양방향 및 시퀀스투시퀀스 예측 수행함.

4. Image-MeSH Matching (IMM) LIMM : 영상과 MeSH 단어 사이의 교차 모달 정렬 점수 학습.

*2단계 희소 어텐션(Two-level sparse attention) :

- Region Sparse Attention (RSA) : 각 단어에 대해 정렬된 영역 특징을 생성. Top K 가중치만 유지하는 희소 메커니즘을 사용하여, 모델이 방사선 전문의처럼 핵심 영역에만 집중하도록 유도.

- Word Sparse Attention (WSA) : MeSH 태그를 통해 얻은 가중치를 사용하여 MeSH 단어가 매칭 점수에 더 큰 기여를 하도록 강제함.

4. Experiments

Clinical-BERT는 MIMIC-CXR 데이터셋에서 사전 학습되었으며, 방사선 보고서 생성(RRG)과 방사선 진단(RD)에 대해 평가되었습니다.

• 방사선 보고서 생성 (RRG) : IU X-Ray, COV-CTR, MIMIC-CXR 데이터셋에서 평가되었음. Clinical-BERT는 모든 자연어 생성(NLG) 지표와 임상 효능 지표 (정확한 진단 여부)에서 최첨단 결과를 달성했음.

• 방사선 진단 (RD) : NIH ChestX-ray14 데이터셋에서 평가되었으며, 14개 병리학 중 9개에서 최고 결과를 달성했고, 평균 AUC 0.8450으로 최첨단 모델 대비 최고 성능을 보였음.

• 제거 연구 (Ablation Study) : CD, MMM, IMM과 같은 도메인 특화 태스크를 순차적으로 추가할 때마다 성능이 지속적으로 향상되는 것이 확인되어, 의료 도메인 지식 학습의 효과가 입증되었음. 또한, IMM에서 희소성(sparsity)을 도입함으로써 어텐션 영역이 크게 줄어들어 더 정확한 보고서 생성이 가능했음.

2. Attention Is All You Need

학회 : Neurips

출판 : 2017

citation : 20만회 이상

https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html

Attention is All you Need

Requests for name changes in the electronic proceedings will be accepted with no questions asked. However name changes may cause bibliographic tracking issues. Authors are asked to consider this carefully and discuss it with their co-authors prior to reque

proceedings.neurips.cc

1. Abstract

- 기존의 주요 시퀀스 변환(Sequence Transduction) 모델들은 인코더-디코더 구조를 기반으로 하는 복잡한 순환 신경망(RNN) 또는 합성곱 신경망(CNN)에 의존했음

제안 모델 : 순환(Recurrence)과 합성곱(Convolution)을 완전히 제거하고 오직 Attention 메커니즘만을 기반으로 하는 "Transformer"라는 새로운 신경망 구조를 제안함.
장점 :
1. 우수한 품질: 기계 번역 태스크에서 기존의 최고 모델(앙상블 포함)보다 뛰어난 성능을 보였음.
2. 병렬성: 학습 시간이 훨씬 단축되고, 병렬 처리가 용이함.
성과 : WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU를 달성하여 기존 최고 기록을 2 BLEU 이상 개선했으며, 영어-프랑스어 태스크에서도 새로운 SOTA(41.0 BLEU)를 달성했음.

2. Introduction

배경 : 순환 신경망(RNN), 특히 LSTM이나 GRU는 시퀀스 모델링에서 지배적이었지만, 시퀀스를 순차적으로 처리해야 하므로 장거리 의존성(Long-Range Dependencies)을 처리하기 어렵고, 병렬화에 제약이 있었음.
Attention의 역할 : 기존에도 Attention 메커니즘은 인코더-디코더 구조에 통합되어 성능을 크게 개선했지만, 여전히 기본 구조는 RNN/CNN이었음.
위 논문이 기여한 점 :
1. RNN/CNN 배제 : 시퀀스 간의 장거리 의존성을 오직 Attention 메커니즘만으로 포착하는 Transformer를 제안했음.
2. 병렬화의 실현 : 순차적 계산을 제거하여 학습 속도를 극적으로 높이고 대규모 데이터셋 학습을 용이하게 했음.

3. Method

A. 모델 구조 (Model Architecture)

인코더-디코더 : Transformer는 기존처럼 인코더-디코더 구조를 따름. 인코더는 6개의 동일한 레이어로, 디코더 역시 6개의 동일한 레이어로 구성됨.
레이어의 핵심 : 각 레이어는 Multi-Head Attention 메커니즘과 Position-wise Feed-Forward Network라는 두 가지 서브 레이어를 포함함.

B. Attention 메커니즘 (Attention Mechanism)

Scaled Dot-Product Attention : Attention 함수는 쿼리, 키, 값 세 가지 입력으로 계산됨.

C. Multi-Head Attention (다중 헤드 어텐션)

병렬 수행 : Attention 함수를 단 한 번 수행하는 대신, h개의 다른 '헤드(Head)'로 Attention을 병렬적으로 수행
다양한 정보 포착 : 각 헤드는 다른 표현 공간에서 Q, K, V 학습하여, 모델이 다양한 종류의 정보와 관계를 포착할 수 있음.

D. Position-wise Feed-Forward Networks (위치별 피드 포워드 네트워크)

독립적 적용 : 각 Attention 서브 레이어의 출력에 대해 독립적으로, 그러나 동일한 구조로 적용되는 간단한 2계층 FFN(Feed-Forward Network)

E. Embeddings and Softmax (임베딩 및 소프트맥스)

Position Encoding : 순환을 제거했기 때문에 단어의 순서(위치) 정보를 입력에 주입해야 함 -> 사인 및 코사인 함수를 사용하여 고정된 위치 인코딩을 생성하고 이를 임베딩에 더해줌.

4. Experiments

- 대규모 기계 번역 태스크 (WMT 2014 영어-독일어, WMT 2014 영어-프랑스어).

결과 :
- WMT 2014 English-to-German : 단일 모델로 28.4 BLEU를 달성하여 기존 SOTA를 크게 상회했음.
- WMT 2014 English-to-French : 3.5일 훈련 후 41.0 BLEU를 달성함.
훈련 시간 : 기존의 가장 우수한 모델 대비 훈련 시간이 훨씬 단축되어 병렬화의 효율성을 입증했음.
어텐션 시각화 : Attention 메커니즘의 시각화를 통해 모델이 실제로 입력 시퀀스의 서로 다른 부분에 초점을 맞추고 있음을 보여줌. (ex. 문장 내 주어와 동사, 명사와 형용사 간의 관계 포착)

3. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

학회 : PMLR

출판 : 2015

citation : 1.4만회 이상

https://proceedings.mlr.press/v37/xuc15.html

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

Inspired by recent work in machine translation and object detection, we introduce an attention based model that automatically learns to describe the content of images. We describe how we can train ...

proceedings.mlr.press

1. Abstract

제안 모델 : 기계 번역 및 객체 탐지 분야의 최근 연구에서 영감을 받아, Attention 메커니즘을 기반으로 이미지 내용을 자동으로 설명(Caption Generation)하는 모델을 제안
학습 방식 : 표준 역전파(Backpropagation) 기법을 사용하여 결정론적(Deterministic) 방식으로 훈련하거나, 변분 하한(Variational Lower Bound)을 최대화하여 확률론적(Stochastic) 방식으로 훈련
기여한 점 : 시각화(Visualization)를 통해 모델이 출력 시퀀스에서 해당 단어를 생성하는 동안 주요 객체(Salient Objects)에 시선(Gaze)을 고정하는 방식(Attention)을 자동으로 학습함
성과 : Flickr9k, Flickr30k, MS COCO 세 가지 벤치마크 데이터셋에서 최고 성능을 달성하며 Attention 사용의 유효성을 검증.

2. Introduction

문제 정의 : 이미지 캡션 생성은 컴퓨터 비전의 주요 목표 중 하나인 장면 이해(Scene Understanding)에 매우 근접한 태스크였였음 -> 단순한 이미지 분류를 넘어, 이미지 내용을 정확하고 자연스러운 언어로 설명해야 함.
기존 연구의 한계 : 기존의 캡션 생성 모델은 이미지 전체를 하나의 고정된 벡터로 압축하여 사용했음 -> 하지만 이 방식은 이미지가 복잡해질수록 정보를 압축하는 과정에서 정보 손실이 발생하여 성능이 저하됨.
Attention의 필요성 : 사람이 이미지를 묘사할 때처럼, 모델 역시 캡션을 생성하는 각 단계에서 이미지의 어떤 부분이 가장 중요한지 선택적으로 집중할 필요가 있다!
논문의 기여 :
1. 시각적 Attention 도입 : 단어를 생성할 때마다 이미지의 특정 영역에 집중하는 Visual Attention 기반의 인코더-디코더 모델을 제안함.
2. 설명력(Explainability) : Attention 메커니즘을 시각화하여 모델이 왜 특정 단어를 생성했는지 그 근거(Report)를 제시할 수 있게 함.

3. Methods

A. 인코더 (Encoder)

CNN 사용 : 인코더로 CNN을 사용하여 입력 이미지에서 특징을 추출함. 이미지 전체를 하나의 벡터로 압축하는 대신, CNN의 마지막 합성곱 레이어에서 나온 영역별 특징(A set of feature vectors, A)을 Attention 모델의 입력으로 사용.

B. 디코더 (Decoder: Attention-based RNN)

RNN 사용 : 디코더는 LSTM과 같은 순환 신경망(RNN)을 사용하여 단어를 순차적으로 생성함.
Attention 적용 : 디코더는 각 시점(t)에서 다음 단어를 생성하기 전에 다음 두 가지 Attention 메커니즘 중 하나를 사용하여 이미지 특징 A를 처리함.
1. Soft Attention (확률 기반) : 이미지의 모든 영역에 대해 가중치(Attention Weight)를 할당함. 이 가중치는 Softmax를 통해 계산되어 모든 영역의 가중치 합이 1이 되도록 함. (미분 가능하여 표준 역전파 훈련에 용이)
2. Hard Attention (샘플링 기반) : 이미지의 단 하나의 영역만 선택하여 집중 (강화 학습 기법을 사용해야 함)

C. Context Vector 생성

문맥 벡터 : Attention 메커니즘을 통해 이미지 특징 A와 현재 시점의 은닉 상태를 결합하여, 다음 단어를 예측하는 데 필요한 문맥 벡터를 생성했음. 이 문맥 벡터가 RNN의 다음 입력으로 들어가 최종적으로 다음 단어를 예측함.

4. Experiments

데이터셋 : Flickr8k, Flickr30k, MS COCO 벤치마크 데이터셋.
평가 지표 : BLEU, METEOR, CIDEr 등의 표준 NLG(자연어 생성) 지표.
주요 결과 :
- SOTA 성능 : 두 가지 Attention 방식(Soft/Hard) 모두 기존의 캡션 생성 모델 대비 모든 지표에서 우수한 성능을 보였음. 특히 Soft Attention 모델이 성능과 훈련 용이성 면에서 모두 강력했음.
어텐션 시각화 (Visualization):
- 모델이 캡션을 생성하는 과정에서 어떤 단어를 생성할 때 이미지의 어느 영역에 집중하는지를 시각화하여 보여주었음. (ex. "a man"이라는 단어를 쓸 때 사람에게 집중하고, "frisbee"를 쓸 때 원반에 집중하는 모습)
의의: 이 시각화는 모델이 단순히 통계적으로 그럴듯한 문장을 만드는 것이 아니라, 실제 영상의 객체(Fact)를 인식하고 이를 근거로 보고서(단어)를 생성하고 있다는 것의 증거를 제공함.

4. Auto-RG Brain : Grounded Report Generation for Brain MRI

학회 : arXiv

출판 : 2024

citation : 20

https://arxiv.org/abs/2407.16684

AutoRG-Brain: Grounded Report Generation for Brain MRI

Radiologists are tasked with interpreting a large number of images in a daily base, with the responsibility of generating corresponding reports. This demanding workload elevates the risk of human error, potentially leading to treatment delays, increased he

arxiv.org

1. Abstract

문제 제기 : 영상의학과 의사들은 매일 많은 영상을 해석하고 보고서를 작성해야 하며, 이 과중한 업무량은 인적 오류 위험을 높일 수 있음.
제안 시스템 : Grounding (근거 제시)을 기반으로 하는 자동 보고서 생성(AutoRG) 연구의 일환으로, 뇌 MRI 해석 시스템인 AutoRG-Brain을 제안함. 이 시스템은 뇌 구조의 윤곽 파악(Delineation), 이상 영역의 위치 파악(Localization), 그리고 잘 정리된 소견 생성(Generation)을 지원했음.
기여한 점 :
1. 데이터셋 공개 : 이상 영역의 분할 마스크(Segmentation Masks)와 수동으로 작성된 보고서를 포함하는 포괄적인 데이터셋인 RadGenome-Brain MRI를 공개함.
2. 시스템 설계 : AutoRG-Brain을 제안합니다. 이는 뇌 MRI 보고서 생성을 위한 최초의 Grounded 시스템으로, 분할(Segmentation)된 이상 영역 정보를 보고서 생성에 통합함.
성과 : 이 시스템은 보고서의 임상적 정확성(Clinical Accuracy)과 일관성(Consistency)을 크게 향상시키며, 환각(Hallucination) 문제를 완화시킴.

2. Introduction

보고서의 중요성 : 방사선 보고서는 환자 진료 및 치료 계획의 핵심적인 임상 문서이며, 오류는 심각한 결과를 초래할 수 있음.
AI 보고서의 한계 (환각 문제) : 기존의 보고서 생성 모델은 유창성은 높지만, 중요한 소견을 무시하거나(Omission), 영상에 없는 병변을 만들어내는(Hallucination) 문제가 있어 임상에 적용하기가 어려웠음.
Grounding의 필요성 : 특히 뇌 MRI는 3차원적이고 구조가 복잡하며, 이상 소견은 매우 미묘하므로 "모델이 보고서를 작성할 때 반드시 영상의 객관적인 사실에 근거해야 한다(Grounding)"는 원칙이 더욱 중요해짐.
논문의 기여 :
1. Grounding의 선구자 : Grounding을 보고서 생성에 도입한 최초의 연구 중 하나임.
2. 통합 시스템 : 뇌 구조 분석(Segmentation)과 보고서 생성(Generation)을 통합하여 사실성 기반의 보고서를 생성하는 새로운 패러다임을 제시했음.

3. Methods

A. RadGenome-Brain MRI 데이터셋 구성

구조 : 3D 뇌 MRI 이미지, 방사선과 의사가 작성한 보고서, 그리고 보고서에 언급된 이상 영역에 대한 분할(Segmentation) 마스크가 포함
목적 : 분할 마스크를 통해 보고서의 각 문장이 영상의 어느 영역에 근거하는지 명확히 연결할 수 있도록 함.

B. AutoRG-Brain 모델 구조

- AutoRG-Brain은 크게 두 부분으로 구성된 인코더-디코더 프레임워크임.

Grounded Encoder :
- 입력 : 3D 뇌 MRI 영상과 그에 해당하는 Segmentation Mask를 입력
- 역할 : 영상(I) 특징과 분할 마스크(M) 특징을 결합하여 사실에 기반한(Grounded) 인코딩을 수행함. 즉, 이상 소견의 위치와 형태 정보를 보고서 생성 모델에 명확하게 전달함.
Grounded Decoder :
- 구조 : Transformer 기반의 디코더를 사용하여 보고서를 생성함.
- Grounded Attention : 디코더가 보고서의 다음 단어를 생성할 때, 인코더의 Grounded Feature에 Attention을 가함(넣음). 이로 인해 모델은 실제 분할된 이상 영역을 참조하면서 문장을 작성하게 되어 환각을 방지하고 정확성을 높일 수 있게 됨.

4. Experiments

데이터셋 : RadGenome-Brain MRI (자체 공개 데이터셋).
평가 지표 :
- NLG 지표 : BLEU, ROUGE-L, CIDEr (유창성).
- 사실성 지표 (Factuality Metrics): Precision, Recall, F1 Score (보고서의 정확성).
주요 결과 :
- SOTA 달성 : AutoRG-Brain은 기존의 모든 캡션 생성 및 보고서 생성 모델(ex. R2Gen, M2I2 등)을 모든 지표에서 뛰어넘었음.
- 사실성/일관성 향상 : 특히 Precision, Recall, F1 Score와 같은 사실성 지표에서 Baseline 대비 큰 폭의 성능 향상을 보였음. 이는 Grounding 메커니즘이 환각을 효과적으로 줄여서 보고서의 임상적 신뢰성(Report)을 높였음을 입증함.
- 어블레이션 연구 : Segmentation Mask를 입력에서 제거하거나 Grounded Decoder를 사용하지 않을 경우 성능이 크게 하락함을 보여, Grounding의 핵심적인 역할을 확인했음.

5. Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation

학회 : arXiv

출판 : 2024

citation : -

https://arxiv.org/abs/2411.15490

Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation

Acute ischemic stroke (AIS) requires time-critical management, with hours of delayed intervention leading to an irreversible disability of the patient. Since diffusion weighted imaging (DWI) using the magnetic resonance image (MRI) plays a crucial role in

arxiv.org

1. Abstract

배경 : 3D 뇌 MRI 보고서 생성 모델은 사실적 오류(Factuality Errors)를 포함하는 경우가 많으며, 이는 임상 적용의 주요 장애물임.
제안 모델 : PIRTA (Paired Image-domain Retrieval and Text-domain Augmentation)라는 새로운 RAG(Retrieval-Augmented Generation) 프레임워크를 제안함. 이 프레임워크는 사실성을 극대화하기 위해 하기 두 가지 요소를 결합함.
1. Paired Image-domain Retrieval (PIR): 입력 3D MRI와 유사한 과거 영상을 데이터베이스에서 검색
2. Text-domain Augmentation (TA): 검색된 과거 영상의 정답 보고서(Ground Truth Report)에서 핵심 문장을 추출하여 현재 보고서 생성에 증강(Augmentation)
특징: 검색된 영상과 텍스트를 모두 활용하여 LLM(대규모 언어 모델)의 유창성은 유지하되, 과거의 정확한 사실에 근거하여 생성하도록 유도
성과: 다양한 3D 뇌 MRI 데이터셋에서 기존 SOTA 모델 대비 NLG 지표와 사실성 지표 모두에서 뛰어난 성능을 보였으며, 사실적 오류를 효과적으로 줄였음

2. Introduction

3D 뇌 MRI의 복잡성: 뇌 MRI는 3D 정보이며, 이상 소견이 미묘하고 복잡하여 보고서 생성이 특히 어려움. 이로 인해 AI 모델이 환각(Hallucination)을 일으킬 가능성이 높음.
RAG 패러다임의 등장: 최근 LLM 분야에서는 환각을 줄이기 위해 검색된 외부 지식을 활용하는 RAG(Retrieval-Augmented Generation)가 주목받고 있음.
기존 RAG의 한계: 기존의 RAG는 주로 텍스트 검색에 의존했기 때문에, 이미지-텍스트 교차 모달 문제인 보고서 생성에는 한계가 있음.
위 논문이 기여한 점 (PIRTA):
1. 최초의 Paired Retrieval: 영상(I)과 그에 대응하는 정답 보고서(R)를 동시에 검색하여 활용하는 교차 모달 RAG 프레임워크를 3D 뇌 MRI에 적용.
2. 사실성 극대화: 보고서 생성을 새로 창조(Generation)하는 대신, 과거의 검증된 소견(Report)을 기반으로 참고(Augmentation)하도록 하여 사실성을 높임.

3. Methods

A. PIRTA 프레임워크 개요

PIRTA는 하기 세 가지 주요 구성 요소로 작동함.

Paired Image-domain Retrieval (PIR):
- 3D Feature Extractor: 3D CNN을 사용하여 입력 3D MRI 영상의 특징 벡터를 추출
- 유사성 검색: 이 특징 벡터를 사용하여 데이터베이스에서 가장 유사한 K개의 과거 3D MRI 영상을 검색
- 결과: 검색된 K개의 영상과 그 영상들의 정답 보고서 쌍을 얻음
Text-domain Augmentation (TA):
- 텍스트 처리: 검색된 내용에서 핵심이 되는 소견 문장만 추출하고, 이를 입력 보고서 시퀀스의 프롬프트(Prompt)로 추가하여 Augmented Report Context를 만듦
- 역할: 모델이 새로운 문장을 생성할 때, 이 과거의 정확한 소견 문장들을 참고 자료로 활용하도록 함
Transformer-based Generation Module:
- 입력: 입력 3D MRI 특징, 검색된 영상 특징, 증강된 텍스트 컨텍스트를 모두 Transformer 기반의 LLM에 입력
- Factuality-Aware Attention: 특히 검색된 텍스트와 현재 생성 중인 단어 간의 Attention을 강화하여, 생성되는 단어가 외부의 사실(Fact)에 근거하도록 강제함

4. Experiments

데이터셋: 3D 뇌 MRI 데이터셋 (예: BraTS 2021 등).
평가 지표:
- NLG 지표: BLEU, ROUGE-L, CIDEr (유창성).
- 사실성 지표: Precision, Recall, F1 Score 외에 Factuality Error Rate (FER) 등 환각 빈도를 측정하는 지표를 사용.
주요 결과:
- 사실성 측면 압도: PIRTA는 모든 사실성 지표 (특히 F1 score)에서 기존의 SOTA 모델 대비 최대 10% 이상의 큰 폭으로 성능을 향상시킴.
- 환각 감소: Factuality Error Rate (FER)가 기존 모델 대비 가장 낮게 측정되어, 환각 방지 효과가 강력함을 입증함.
- RAG의 유효성: 검색된 영상과 텍스트를 모두 활용하는 PIRTA 방식이, 텍스트만 검색하는 기존 RAG 방식이나 Grounding만 사용하는 모델보다 사실성 보강에 훨씬 효과적임을 어블레이션 연구를 통해 확인함.

'Paper_Review' 카테고리의 다른 글

[jyhan] paper review (0)	2025.11.08
[jekim] Paper review (0)	2025.11.03
[jekim] Paper review (2)	2025.10.20
[jslim] paper review (0)	2025.09.28
[sbpark] paper review(9/20) (0)	2025.09.20

1. Clinical-BERT : Vision-Language Pre-training for Radiograph Diagnosis and Reports Generation

2. Attention Is All You Need

A. 모델 구조 (Model Architecture)

B. Attention 메커니즘 (Attention Mechanism)

C. Multi-Head Attention (다중 헤드 어텐션)

D. Position-wise Feed-Forward Networks (위치별 피드 포워드 네트워크)

E. Embeddings and Softmax (임베딩 및 소프트맥스)

3. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

A. 인코더 (Encoder)

B. 디코더 (Decoder: Attention-based RNN)

C. Context Vector 생성

4. Auto-RG Brain : Grounded Report Generation for Brain MRI

B. AutoRG-Brain 모델 구조

5. Improving Factuality of 3D Brain MRI Report Generation with Paired Image-domain Retrieval and Text-domain Augmentation

A. PIRTA 프레임워크 개요

'Paper_Review' 카테고리의 다른 글

티스토리툴바