ProsMAE 최종 실험 보고서
작성 기준: 2026-05-15 KST.
대상 프로젝트: /home/introai33/prostate_project 및 /home/introai13/prostate_project_runner.
요약
본 실험은 PANDA 전립선 WSI에서 MAE 사전학습에 기반한 frozen encoder linear probe 성능을 평가하기 위해 수행했다. 핵심 비교는 MAE mask ratio, 외부 데이터 포함 여부, noise augmentation, 그리고 vanilla facebook/vit-mae-base baseline이다.
가장 방어하기 좋은 주 결과는 multi-source + mask ratio 0.75 + no added noise 설정이다. 해당 설정은 현재 disjoint split과 frozen linear-probe 평가 프로토콜에서 vanilla MAE baseline보다 높은 평균 QWK를 보였고, PANDA-only 및 partial external-data ablation보다도 높은 경향을 보였다.
| 결과군 | Best QWK 요약 | 해석 |
| ProsMAE main, mask 0.75, seeds 42-45 | 0.4734 +/- 0.0104 | 현재 프로토콜의 주 결과 후보 |
| ProsMAE main extra seeds 46-51 | 0.4737 +/- 0.0417 | 평균 성능 재현, seed variance는 증가 |
| Vanilla MAE baseline, seeds 42-46 | 0.4036 +/- 0.0490 | ProsMAE 대비 낮음 |
| Vanilla MAE baseline extra seeds 47-52 | 0.4124 +/- 0.0260 | baseline 확장 반복에서도 ProsMAE보다 낮음 |
실험 설계
데이터 분할
논문용 핵심 실험은 MAE pretraining WSI와 downstream train/validation WSI가 겹치지 않는 disjoint split을 사용했다.
| 항목 | 값 |
| Split root | /home/introai33/prostate_project/data/panda/disjoint_seed42_mae60_down50 |
| MAE pretraining set | 241 PANDA slides |
| Downstream train set | 82 PANDA slides |
| Downstream validation set | 80 PANDA slides |
| 외부 MAE 데이터 | camelyon17_100, bracs_100 |
| Downstream image dirs | data/panda/model1_train_images, data/panda/model1_test_images |
MAE 사전학습
| 설정 | 값 |
| Base model | facebook/vit-mae-base |
| 입력 샘플링 | top-half tissue tile sampling |
| Max steps | 5000 |
| Epoch cap | 20 |
| Tiles per WSI/image | 100 |
| Batch size | 64 |
| Learning rate | 5e-5 |
| Scheduler | warmup 250 steps 이후 cosine decay |
| AMP / TF32 | enabled / enabled |
| Gradient clip | 1.0 |
| Checkpoint format | HuggingFace final_model directory |
Downstream 평가
| 설정 | 값 |
| Encoder | MAE encoder frozen |
| Classifier | cached WSI feature + linear head |
| Feature pooling | mean |
| Encoder mask ratio at evaluation | 0.0 |
| Tiles per train/eval slide | 100 / 100 |
| Tile size | 512 |
| Linear epochs | 500 |
| Class weighting | balanced |
| Feature standardization | enabled |
| 지표 | accuracy, macro-F1, quadratic weighted kappa |
주요 결과
Mask Ratio 비교
좌표계 수정과 disjoint split을 적용한 5000-step MAE 결과다.
| Mask ratio | Checkpoint | Best QWK | Final QWK | Final acc | Final macro-F1 |
| 0.25 | /home/introai13/prostate_project_runs/checkpoints/mae_mask025_disjoint_fixcoord_s5000_t100/final_model | 0.3963 | 0.3781 | 0.3125 | 0.3042 |
| 0.50 | /home/introai13/prostate_project_runs/checkpoints/mae_mask05_disjoint_fixcoord_s5000_t100/final_model | 0.4274 | 0.3774 | 0.3000 | 0.2875 |
| 0.75 | /home/introai13/prostate_project_runs/checkpoints/mae_mask075_disjoint_fixcoord_s5000_t100/final_model | 0.4699 | 0.4656 | 0.2875 | 0.2902 |
Mask ratio 0.75가 단일-run 기준으로 가장 높았다. 이 checkpoint를 current-best로 두고 downstream seed 반복을 수행했다.
Main Result vs Baseline
| 실험군 | Seeds | Best QWK mean | Std | Min | Max |
| ProsMAE mask 0.75 current-best | 42-45 | 0.4734 | 0.0104 | 0.4613 | 0.4860 |
| ProsMAE mask 0.75 current-best, extra | 46-51 | 0.4737 | 0.0417 | 0.4211 | 0.5205 |
| Vanilla facebook/vit-mae-base | 42-46 | 0.4036 | 0.0490 | 0.3520 | 0.4665 |
| Vanilla facebook/vit-mae-base, extra | 47-52 | 0.4124 | 0.0260 | 0.3742 | 0.4476 |
해석: ProsMAE mask 0.75는 vanilla MAE baseline보다 평균 Best QWK가 높게 관찰된다. Extra seed 반복에서도 평균 차이는 유지되지만, downstream validation set이 80장으로 작기 때문에 통계적으로 일반화된 우월성까지 주장하기보다는 본 split/protocol에서의 개선으로 표현하는 것이 적절하다.
Ablation 결과
Noise 및 Mask Ratio
| 설정 | Seeds | Best QWK mean | Std | 해석 |
| Multi-source, mask 0.75, no noise | 42-45 | 0.4734 | 0.0104 | 주 결과 |
| Multi-source, mask 0.75, noise 0.02 | 42-44 | 0.3694 | 0.0477 | 성능 저하 |
| Multi-source, mask 0.75, noise 0.05 | 42-44 | 0.3943 | 0.0513 | 성능 저하 |
| Multi-source, mask 0.75, noise 0.10 | 42-44 | 0.4350 | 0.0225 | 주 결과보다 낮음 |
| Multi-source, mask 0.75, noise 0.20 | 42-44 | 0.4733 | 0.0184 | 주 결과와 유사한 보조 결과 |
| Multi-source, mask 0.25, noise 0.05 | 42-44 | 0.4053 | 0.0198 | 낮은 mask ratio에서는 제한적 |
| Multi-source, mask 0.50, noise 0.05 | 42-44 | 0.4370 | 0.0123 | noise가 일부 도움되지만 mask 0.75보다 낮음 |
Noise 0.20은 Best QWK가 높게 나왔지만 reconstruction loss가 큰 조건이므로, 주 결과를 대체하기보다는 강건성 확인 또는 보조 ablation으로 제시하는 편이 안전하다.
데이터 소스 Ablation
| 설정 | Seeds | Best QWK mean | Std | 해석 |
| PANDA-only, no noise, mask 0.75 | 42-44 | 0.3757 | 0.0204 | 외부 데이터 없이 낮음 |
| PANDA-only, noise 0.05, mask 0.75 | 42-44 | 0.3794 | 0.0232 | noise만으로 개선 제한적 |
| PANDA + Camelyon17, no noise, mask 0.75 | 42-44 | 0.4165 | 0.0339 | 외부 데이터 일부 기여 |
| PANDA + BRACS, no noise, mask 0.75 | 42-44 | 0.4330 | 0.0584 | Camelyon17 단독보다 높음 |
| PANDA + Camelyon17 + BRACS, no noise, mask 0.75 | 42-45 | 0.4734 | 0.0104 | full multi-source에서 가장 높은 평균과 낮은 variance 관찰 |
해석: 외부 데이터를 포함한 multi-source MAE가 PANDA-only보다 높은 평균 QWK를 보였다. Camelyon17 또는 BRACS 단독 추가보다 두 외부 데이터를 함께 사용한 설정에서 가장 높은 주 결과가 관찰되었다.
MAE Seed Robustness
| 설정 | Downstream seeds | Best QWK mean | Std | 해석 |
| Main checkpoint, MAE seed 42 | 42-45 | 0.4734 | 0.0104 | 주 결과 |
| No-noise mask 0.75, MAE seed 43 | 42-44 | 0.4373 | 0.0158 | 주 결과보다 낮음 |
| No-noise mask 0.75, MAE seed 44 | 42-44 | 0.4089 | 0.0409 | 주 결과보다 낮음 |
| Noise 0.05 mask 0.75, MAE seed 43 | 42-44 | 0.4148 | 0.0315 | noise 0.05 설정도 낮음 |
해석: downstream seed 반복에서는 주 결과가 안정적이나, MAE pretraining seed 반복에서는 성능 변동이 관찰된다. 본 결과는 주 결과와 ablation 결과를 함께 제시하되, 작은 downstream validation set에서 seed variance가 존재한다는 점을 limitation으로 두는 것이 적절하다.
수치 해석 및 주장 범위
현재 수치 범위는 frozen encoder linear probe와 80-slide validation 기준에서 비정상적으로 보이지 않는다. 6-class ISUP grade 예측에서는 exact accuracy가 0.28-0.34 수준이어도 ordinal agreement를 보는 QWK가 0.4-0.5 수준으로 나올 수 있으므로, accuracy와 QWK 사이의 차이도 모순으로 보지 않는다.
다만 본 결과는 다음 범위 안에서 해석해야 한다.
| 항목 | 판단 |
| ProsMAE vs vanilla | 현재 split/protocol에서 평균 QWK 개선이 관찰됨 |
| Mask ratio 0.75 | 현재 실험군 중 가장 방어 가능한 주 설정 |
| Multi-source pretraining | PANDA-only 및 single-source ablation보다 높은 경향 |
| Noise augmentation | 일관된 개선 근거는 부족하며, 주 결과를 대체하기 어려움 |
| 통계적 주장 | 작은 validation set과 MAE seed variance 때문에 넓은 의미의 통계적 우월성으로 쓰면 과함 |
따라서 논문에서는 “관찰된 개선”, “본 split/protocol에서의 성능 향상”, “예비적/보조적 근거” 수준으로 쓰는 것이 안전하다. “statistically significant”, “state-of-the-art”, “robust across all seeds/settings” 같은 표현은 현재 결과만으로는 피하는 편이 맞다.
논문 반영 권장안
- Main table에는 mask 0.75, multi-source, no-noise를 ProsMAE 주 결과로 사용한다.
- Baseline으로 vanilla facebook/vit-mae-base frozen linear probe를 사용한다.
- Ablation table은 다음 네 축으로 구성한다: mask ratio, external data, noise, MAE seed.
- Noise 0.20은 주장을 대체하는 결과가 아니라 강건성 확인 또는 보조 결과로 둔다.
- PANDA-only와 single-external-source 결과는 multi-source pretraining의 필요성을 설명하는 근거로 사용한다.
주요 산출물
구분 경로
| Main MAE checkpoints | /home/introai13/prostate_project_runs/checkpoints |
| Main downstream outputs | /home/introai13/prostate_project_runs/outputs |
| Main logs | /home/introai13/prostate_project_runs/logs |
| Extra ablation checkpoints | /home/introai13/prostate_project_runs_more/checkpoints |
| Extra ablation downstream outputs | /home/introai13/prostate_project_runs_more/outputs |
| Extra ablation logs | /home/introai13/prostate_project_runs_more/logs |
| Current-best seed repeats | /home/introai13/prostate_project_runs_extra/outputs |
| A100 noise 0.10 outputs/logs | /home/introai33/prostate_project/outputs, /home/introai33/prostate_project/logs |
| Local working copy | /home/user/main/annajung/code/prostate_project_work |
결론
PANDA disjoint split에서 ProsMAE의 가장 방어 가능한 주 설정은 multi-source pretraining + mask ratio 0.75 + no added noise이다. 이 설정은 현재 frozen linear-probe 평가에서 vanilla MAE baseline보다 높은 downstream QWK를 보였고, PANDA-only 및 single-external-source ablation보다도 높은 평균 성능을 보였다. 따라서 논문에서는 이 설정을 main result로 두되, 작은 validation set과 MAE seed variance를 limitation으로 명시하고, noise 및 source ablation을 통해 성능 차이를 설명하는 구성이 가장 자연스럽다.
'Others' 카테고리의 다른 글
| [khkim] AMR 모델 자료조사 (0) | 2026.05.21 |
|---|---|
| [Tien] Data and methods related to birth defect (0) | 2026.05.16 |
| [khkim] MICCAI26 Mathena논문 Rebuttal (0) | 2026.05.09 |
| [Tien] Birth defect's experiments results (0) | 2026.05.09 |
| [khkim] SEFLA - AMR 논문 확장 가능성 리서치 정리 (0) | 2026.04.27 |