
안녕하세요
멀티모달팀에서 진행하고 있는 프로젝트에 대해서 말씀드리겠습니다.
주제는 Medical DeepFake Detection 입니다.
<목차>
1. 논문
2. 자료
3. 데이터
1. 논문
(1) https://arxiv.org/abs/2509.15711
Toward Medical Deepfake Detection: A Comprehensive Dataset and Novel Method
The rapid advancement of generative AI in medical imaging has introduced both significant opportunities and serious challenges, especially the risk that fake medical images could undermine healthcare systems. These synthetic images pose serious risks, such
arxiv.org
(2) https://arxiv.org/abs/2109.12800
Machine Learning based Medical Image Deepfake Detection: A Comparative Study
Deep generative networks in recent years have reinforced the need for caution while consuming various modalities of digital information. One avenue of deepfake creation is aligned with injection and removal of tumors from medical scans. Failure to detect m
arxiv.org
2. 자료
- 자연계
- 메디컬자료www.usenix.orgGitHub - ymirsky/CT-GAN: A GAN based framework for adding and removing medical evidence in 3D volumetric medical scans
- 코드
https://github.com/ymirsky/CT-GAN
3. 데이터
딥페이크 데이터 셋 정리
영상
- Deep fake Detection (DFD) Entire Original Dataset
링크 : https://www.kaggle.com/datasets/sanikatiwarekar/deep-fake-detection-dfd-entire-original-dataset
특징 : 인물 중심의 동영상으로 Deepfake 영상과 Original 영상 둘 다 존재
데이터 용량 : 3432개의 동영상(mp4), 총 24.17GB
- DeepFake Videos Dataset
링크
https://www.kaggle.com/datasets/unidpro/deepfake-videos-dataset
특징 : 인물 중심의 동영상으로 Deepfake 영상과 Original 영상 둘 다 존재
데이터 용량 : 10개의 동영상 (mp4, mov), 69.25MB
- 딥페이크 변조 영상
링크
특징 : 인물 중심의 동영상, 2020년 구축 데이터라 Deep fake의 티가 많이 남
데이터 용량 : 1500시간 이상 (원시 영상 데이터), 625시간 이상 (변조 영상 데이터), 2.73TB
이미지
- 이상함
링크
https://www.kaggle.com/datasets/shahzaibshazoo/detect-ai-generated-faces-high-quality-dataset
특징 : 인물 사진으로만 이루어져 있음. 원본과 Deepfake 매칭 X, 딥페이크 사진이 너무 가짜 같고, real 사진도 흑백 사진임
데이터 용량 : 3203개의 사진으로 구성, 121.42MB
- Deepfake-vs-Real-Classification
링크
https://www.kaggle.com/datasets/prithivsakthiur/deepfake-vs-real-60k
특징 : 인물 사진으로 구성, 원본과 Deepfake 사진 매칭 X
데이터 용량 : 57100여개의 사진으로 구성 (jpg, png), 총 24.13GB
- Deepfake-vs-Real-20K
링크
https://www.kaggle.com/datasets/prithivsakthiur/deepfake-vs-real-20k
특징 : 인물 사진으로 구성, 원본과 Deepfake 사진 매칭 X
데이터 용량 : 19200여개의 사진으로 구성 (jpg, png), 총 11.77GB
4) Labeled Deepfake Image Collection
링크
https://www.kaggle.com/datasets/jayanthbottu/labeled-deepfake-image-collection
특징 : 인물 사진으로 구성, 원본과 Deepfake 사진 매칭 X, 다양한 AI 사이트에서 만든 이미지로 구성되어 있음. (Stable diffusion, DALL-E, MidJourney 등등)
데이터 용량 : 18100개의 사진으로 구성(png, jpg), 총 709.92MB
- DeepDetect-2025
링크
https://www.kaggle.com/datasets/ayushmandatta1/deepdetect-2025
특징 : 인물 사진으로 구성, 원본과 Deepfake 사진 매칭 X, train set과 test set 구분
데이터 용량 : 112000 여개의 사진으로 구성 (png, jpg), 총 3.47GB
- AI Generated vs Real Images
링크 https://www.kaggle.com/datasets/swati6945/ai-generated-vs-real-images
특징 : 인물로만 구성되어 있지 않음, 원본과 Deepfake 사진 매칭 X, 해상도가 낮음
데이터 용량 : 1082개의 사진 (jpg, png), 총 316.87MB
- GAN / Real images - Mukhbir Model Dataset
링크 https://www.kaggle.com/datasets/donaasu/mukhbir-project-dataset
특징 : 풍경 사진으로 주로 구성, 원본과 Deepfake 사진 매칭 X, 다양한 GAN 모델 사용해서 만든 사진으로 fake 이미지 구성, 해상도가 낮음
데이터 용량 : 37400 개의 사진 (jpg), 총 467.76MB
- Medical deep fake dataset
※ 찾다보니 참고할 연구가 있어서 링크 첨부합니다
https://github.com/ymirsky/CT-GAN
참고 사항:
- 간단한 모델 구조
- CT-GAN에서도 injector과 remover로 나누어서 따로 만들어서 진행하는 것 같습니다.
- injector의 경우에는 질병이 있는 샘플로 학습하고, remover의 경우에는 정상 데이터 학습
- 그리고 지정한 좌표의 직육면체의 형태 영역에 대해서 CT-GAN 모델로 변조한 다음 추가하는 방식으로 구현했습니다.
- 연구 동기
- Medical Deepfake의 위협에 경고하라는 의미에서 CT-GAN의 모델을 만들었다고 합니다
- 연구의 동기로는 정치적 지도자 삶 교란, 랜섬웨어 수행, 보험 사기, 연구 증거 조작으로 deepfake가 성행할 수 있다고 제시합니다.
- Medical Deepfake Image Dataset Computer Vision Model
링크
https://universe.roboflow.com/medical-deepfake-image-dataset/medical-deepfake-image-dataset
특징 : fake와 real의 CT 사진으로 구성되어 있음, 이미 모델로 분류한 뒤의 결과를 나타내는 것으로 보이는데, precision과 recall 값이 100%여서 일단 데이터 셋으로 가져왔습니다.
데이터 용량 : 3140개의 사진으로 구성
- Medical Deepfakes: Lung Cancer
링크 :
https://www.kaggle.com/datasets/ymirsky/medical-deepfakes-lung-cancer/data?select=labels_exp1.csv
https://www.kaggle.com/datasets/freddiegraboski/btd-mri-and-ct-deepfake-test-sets/data (CT + MRI, npy, png, csv)
특징 : CT-GAN에서 만든 데이터 셋이자 실제 이용한 데이터 셋
real : TB(암 존재), TM(암 존재X) / fake : FB(암 있었으나 제거), FM(암 없었으나 삽입)으로 구성
데이터 용량 : 22800개의 dcm 데이터
- deepfake
https://ieeexplore.ieee.org/document/10495039
- 논문에서 참고한 X-ray dataset
- https://data.mendeley.com/datasets/fyybnjkw7v/3 (GAN 모델로 만든 fake x-ray image, 논문에서는 4500개 사용)
- 논문에서 사용한 원본 X-ray 이미지가 없어서 우선 아래 X-ray 사진 찾아놓았습니다.
- https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia

'Others' 카테고리의 다른 글
| Zhejiang Provincial People’s Hospital 데이터셋(MLUA 데이터, TSD) (0) | 2026.02.18 |
|---|---|
| ❗ How to use MINICONDA in SNU ECE server ❗ (0) | 2026.01.17 |
| ISBI 2026 등록비 구조 완전 정리: Full vs Student, 논문 수·발표자 기준까지 한 번에 이해하기 (0) | 2026.01.15 |
| [jslim] RSNA 이미지 Qwen3-8B, Gemma3-27B 결과 비교 (0) | 2025.12.06 |
| [yjjean] CXR 이미지 LLM 비교 결과 (0) | 2025.12.05 |