ProsMAE 최종 실험 보고서

작성 기준: 2026-05-15 KST.

대상 프로젝트: /home/introai33/prostate_project 및 /home/introai13/prostate_project_runner.

요약

본 실험은 PANDA 전립선 WSI에서 MAE 사전학습에 기반한 frozen encoder linear probe 성능을 평가하기 위해 수행했다. 핵심 비교는 MAE mask ratio, 외부 데이터 포함 여부, noise augmentation, 그리고 vanilla facebook/vit-mae-base baseline이다.

가장 방어하기 좋은 주 결과는 multi-source + mask ratio 0.75 + no added noise 설정이다. 해당 설정은 현재 disjoint split과 frozen linear-probe 평가 프로토콜에서 vanilla MAE baseline보다 높은 평균 QWK를 보였고, PANDA-only 및 partial external-data ablation보다도 높은 경향을 보였다.

결과군	Best QWK 요약	해석
ProsMAE main, mask 0.75, seeds 42-45	0.4734 +/- 0.0104	현재 프로토콜의 주 결과 후보
ProsMAE main extra seeds 46-51	0.4737 +/- 0.0417	평균 성능 재현, seed variance는 증가
Vanilla MAE baseline, seeds 42-46	0.4036 +/- 0.0490	ProsMAE 대비 낮음
Vanilla MAE baseline extra seeds 47-52	0.4124 +/- 0.0260	baseline 확장 반복에서도 ProsMAE보다 낮음

실험 설계

데이터 분할

논문용 핵심 실험은 MAE pretraining WSI와 downstream train/validation WSI가 겹치지 않는 disjoint split을 사용했다.

항목	값
Split root	/home/introai33/prostate_project/data/panda/disjoint_seed42_mae60_down50
MAE pretraining set	241 PANDA slides
Downstream train set	82 PANDA slides
Downstream validation set	80 PANDA slides
외부 MAE 데이터	camelyon17_100, bracs_100
Downstream image dirs	data/panda/model1_train_images, data/panda/model1_test_images

MAE 사전학습

설정	값
Base model	facebook/vit-mae-base
입력 샘플링	top-half tissue tile sampling
Max steps	5000
Epoch cap	20
Tiles per WSI/image	100
Batch size	64
Learning rate	5e-5
Scheduler	warmup 250 steps 이후 cosine decay
AMP / TF32	enabled / enabled
Gradient clip	1.0
Checkpoint format	HuggingFace final_model directory

Downstream 평가

설정	값
Encoder	MAE encoder frozen
Classifier	cached WSI feature + linear head
Feature pooling	mean
Encoder mask ratio at evaluation	0.0
Tiles per train/eval slide	100 / 100
Tile size	512
Linear epochs	500
Class weighting	balanced
Feature standardization	enabled
지표	accuracy, macro-F1, quadratic weighted kappa

주요 결과

Mask Ratio 비교

좌표계 수정과 disjoint split을 적용한 5000-step MAE 결과다.

Mask ratio	Checkpoint	Best QWK	Final QWK	Final acc	Final macro-F1
0.25	/home/introai13/prostate_project_runs/checkpoints/mae_mask025_disjoint_fixcoord_s5000_t100/final_model	0.3963	0.3781	0.3125	0.3042
0.50	/home/introai13/prostate_project_runs/checkpoints/mae_mask05_disjoint_fixcoord_s5000_t100/final_model	0.4274	0.3774	0.3000	0.2875
0.75	/home/introai13/prostate_project_runs/checkpoints/mae_mask075_disjoint_fixcoord_s5000_t100/final_model	0.4699	0.4656	0.2875	0.2902

Mask ratio 0.75가 단일-run 기준으로 가장 높았다. 이 checkpoint를 current-best로 두고 downstream seed 반복을 수행했다.

Main Result vs Baseline

실험군	Seeds	Best QWK mean	Std	Min	Max
ProsMAE mask 0.75 current-best	42-45	0.4734	0.0104	0.4613	0.4860
ProsMAE mask 0.75 current-best, extra	46-51	0.4737	0.0417	0.4211	0.5205
Vanilla facebook/vit-mae-base	42-46	0.4036	0.0490	0.3520	0.4665
Vanilla facebook/vit-mae-base, extra	47-52	0.4124	0.0260	0.3742	0.4476

해석: ProsMAE mask 0.75는 vanilla MAE baseline보다 평균 Best QWK가 높게 관찰된다. Extra seed 반복에서도 평균 차이는 유지되지만, downstream validation set이 80장으로 작기 때문에 통계적으로 일반화된 우월성까지 주장하기보다는 본 split/protocol에서의 개선으로 표현하는 것이 적절하다.

Ablation 결과

Noise 및 Mask Ratio

설정	Seeds	Best QWK mean	Std	해석
Multi-source, mask 0.75, no noise	42-45	0.4734	0.0104	주 결과
Multi-source, mask 0.75, noise 0.02	42-44	0.3694	0.0477	성능 저하
Multi-source, mask 0.75, noise 0.05	42-44	0.3943	0.0513	성능 저하
Multi-source, mask 0.75, noise 0.10	42-44	0.4350	0.0225	주 결과보다 낮음
Multi-source, mask 0.75, noise 0.20	42-44	0.4733	0.0184	주 결과와 유사한 보조 결과
Multi-source, mask 0.25, noise 0.05	42-44	0.4053	0.0198	낮은 mask ratio에서는 제한적
Multi-source, mask 0.50, noise 0.05	42-44	0.4370	0.0123	noise가 일부 도움되지만 mask 0.75보다 낮음

Noise 0.20은 Best QWK가 높게 나왔지만 reconstruction loss가 큰 조건이므로, 주 결과를 대체하기보다는 강건성 확인 또는 보조 ablation으로 제시하는 편이 안전하다.

데이터 소스 Ablation

설정	Seeds	Best QWK mean	Std	해석
PANDA-only, no noise, mask 0.75	42-44	0.3757	0.0204	외부 데이터 없이 낮음
PANDA-only, noise 0.05, mask 0.75	42-44	0.3794	0.0232	noise만으로 개선 제한적
PANDA + Camelyon17, no noise, mask 0.75	42-44	0.4165	0.0339	외부 데이터 일부 기여
PANDA + BRACS, no noise, mask 0.75	42-44	0.4330	0.0584	Camelyon17 단독보다 높음
PANDA + Camelyon17 + BRACS, no noise, mask 0.75	42-45	0.4734	0.0104	full multi-source에서 가장 높은 평균과 낮은 variance 관찰

해석: 외부 데이터를 포함한 multi-source MAE가 PANDA-only보다 높은 평균 QWK를 보였다. Camelyon17 또는 BRACS 단독 추가보다 두 외부 데이터를 함께 사용한 설정에서 가장 높은 주 결과가 관찰되었다.

MAE Seed Robustness

설정	Downstream seeds	Best QWK mean	Std	해석
Main checkpoint, MAE seed 42	42-45	0.4734	0.0104	주 결과
No-noise mask 0.75, MAE seed 43	42-44	0.4373	0.0158	주 결과보다 낮음
No-noise mask 0.75, MAE seed 44	42-44	0.4089	0.0409	주 결과보다 낮음
Noise 0.05 mask 0.75, MAE seed 43	42-44	0.4148	0.0315	noise 0.05 설정도 낮음

해석: downstream seed 반복에서는 주 결과가 안정적이나, MAE pretraining seed 반복에서는 성능 변동이 관찰된다. 본 결과는 주 결과와 ablation 결과를 함께 제시하되, 작은 downstream validation set에서 seed variance가 존재한다는 점을 limitation으로 두는 것이 적절하다.

수치 해석 및 주장 범위

현재 수치 범위는 frozen encoder linear probe와 80-slide validation 기준에서 비정상적으로 보이지 않는다. 6-class ISUP grade 예측에서는 exact accuracy가 0.28-0.34 수준이어도 ordinal agreement를 보는 QWK가 0.4-0.5 수준으로 나올 수 있으므로, accuracy와 QWK 사이의 차이도 모순으로 보지 않는다.

다만 본 결과는 다음 범위 안에서 해석해야 한다.

항목	판단
ProsMAE vs vanilla	현재 split/protocol에서 평균 QWK 개선이 관찰됨
Mask ratio 0.75	현재 실험군 중 가장 방어 가능한 주 설정
Multi-source pretraining	PANDA-only 및 single-source ablation보다 높은 경향
Noise augmentation	일관된 개선 근거는 부족하며, 주 결과를 대체하기 어려움
통계적 주장	작은 validation set과 MAE seed variance 때문에 넓은 의미의 통계적 우월성으로 쓰면 과함

따라서 논문에서는 “관찰된 개선”, “본 split/protocol에서의 성능 향상”, “예비적/보조적 근거” 수준으로 쓰는 것이 안전하다. “statistically significant”, “state-of-the-art”, “robust across all seeds/settings” 같은 표현은 현재 결과만으로는 피하는 편이 맞다.

논문 반영 권장안

Main table에는 mask 0.75, multi-source, no-noise를 ProsMAE 주 결과로 사용한다.
Baseline으로 vanilla facebook/vit-mae-base frozen linear probe를 사용한다.
Ablation table은 다음 네 축으로 구성한다: mask ratio, external data, noise, MAE seed.
Noise 0.20은 주장을 대체하는 결과가 아니라 강건성 확인 또는 보조 결과로 둔다.
PANDA-only와 single-external-source 결과는 multi-source pretraining의 필요성을 설명하는 근거로 사용한다.

주요 산출물

구분 경로

Main MAE checkpoints	/home/introai13/prostate_project_runs/checkpoints
Main downstream outputs	/home/introai13/prostate_project_runs/outputs
Main logs	/home/introai13/prostate_project_runs/logs
Extra ablation checkpoints	/home/introai13/prostate_project_runs_more/checkpoints
Extra ablation downstream outputs	/home/introai13/prostate_project_runs_more/outputs
Extra ablation logs	/home/introai13/prostate_project_runs_more/logs
Current-best seed repeats	/home/introai13/prostate_project_runs_extra/outputs
A100 noise 0.10 outputs/logs	/home/introai33/prostate_project/outputs, /home/introai33/prostate_project/logs
Local working copy	/home/user/main/annajung/code/prostate_project_work

결론

PANDA disjoint split에서 ProsMAE의 가장 방어 가능한 주 설정은 multi-source pretraining + mask ratio 0.75 + no added noise이다. 이 설정은 현재 frozen linear-probe 평가에서 vanilla MAE baseline보다 높은 downstream QWK를 보였고, PANDA-only 및 single-external-source ablation보다도 높은 평균 성능을 보였다. 따라서 논문에서는 이 설정을 main result로 두되, 작은 validation set과 MAE seed variance를 limitation으로 명시하고, noise 및 source ablation을 통해 성능 차이를 설명하는 구성이 가장 자연스럽다.

'Others' 카테고리의 다른 글

[khkim] AMR 모델 자료조사 (0)	2026.05.21
[Tien] Data and methods related to birth defect (0)	2026.05.16
[khkim] MICCAI26 Mathena논문 Rebuttal (0)	2026.05.09
[Tien] Birth defect's experiments results (0)	2026.05.09
[khkim] SEFLA - AMR 논문 확장 가능성 리서치 정리 (0)	2026.04.27

ProsMAE 논문 작성의 건

ProsMAE 최종 실험 보고서

요약

실험 설계

데이터 분할

MAE 사전학습

Downstream 평가

주요 결과

Mask Ratio 비교

Main Result vs Baseline

Ablation 결과

Noise 및 Mask Ratio

데이터 소스 Ablation

MAE Seed Robustness

수치 해석 및 주장 범위

논문 반영 권장안

주요 산출물

결론

'Others' 카테고리의 다른 글

티스토리툴바