ProsMAE 논문 작성의 건

2026. 5. 15. 13:39·Others

 

 

 

ProsMAE 최종 실험 보고서

작성 기준: 2026-05-15 KST.

대상 프로젝트: /home/introai33/prostate_project 및 /home/introai13/prostate_project_runner.

요약

본 실험은 PANDA 전립선 WSI에서 MAE 사전학습에 기반한 frozen encoder linear probe 성능을 평가하기 위해 수행했다. 핵심 비교는 MAE mask ratio, 외부 데이터 포함 여부, noise augmentation, 그리고 vanilla facebook/vit-mae-base baseline이다.

가장 방어하기 좋은 주 결과는 multi-source + mask ratio 0.75 + no added noise 설정이다. 해당 설정은 현재 disjoint split과 frozen linear-probe 평가 프로토콜에서 vanilla MAE baseline보다 높은 평균 QWK를 보였고, PANDA-only 및 partial external-data ablation보다도 높은 경향을 보였다.

 

결과군  Best QWK 요약 해석
ProsMAE main, mask 0.75, seeds 42-45 0.4734 +/- 0.0104 현재 프로토콜의 주 결과 후보
ProsMAE main extra seeds 46-51 0.4737 +/- 0.0417 평균 성능 재현, seed variance는 증가
Vanilla MAE baseline, seeds 42-46 0.4036 +/- 0.0490 ProsMAE 대비 낮음
Vanilla MAE baseline extra seeds 47-52 0.4124 +/- 0.0260 baseline 확장 반복에서도 ProsMAE보다 낮음

실험 설계

데이터 분할

논문용 핵심 실험은 MAE pretraining WSI와 downstream train/validation WSI가 겹치지 않는 disjoint split을 사용했다.

 

항목  값
Split root /home/introai33/prostate_project/data/panda/disjoint_seed42_mae60_down50
MAE pretraining set 241 PANDA slides
Downstream train set 82 PANDA slides
Downstream validation set 80 PANDA slides
외부 MAE 데이터 camelyon17_100, bracs_100
Downstream image dirs data/panda/model1_train_images, data/panda/model1_test_images

MAE 사전학습

설정  값
Base model facebook/vit-mae-base
입력 샘플링 top-half tissue tile sampling
Max steps 5000
Epoch cap 20
Tiles per WSI/image 100
Batch size 64
Learning rate 5e-5
Scheduler warmup 250 steps 이후 cosine decay
AMP / TF32 enabled / enabled
Gradient clip 1.0
Checkpoint format HuggingFace final_model directory

Downstream 평가

 

설정 값
Encoder MAE encoder frozen
Classifier cached WSI feature + linear head
Feature pooling mean
Encoder mask ratio at evaluation 0.0
Tiles per train/eval slide 100 / 100
Tile size 512
Linear epochs 500
Class weighting balanced
Feature standardization enabled
지표 accuracy, macro-F1, quadratic weighted kappa

주요 결과

Mask Ratio 비교

좌표계 수정과 disjoint split을 적용한 5000-step MAE 결과다.

Mask ratio Checkpoint Best QWK Final QWK Final acc Final macro-F1
0.25 /home/introai13/prostate_project_runs/checkpoints/mae_mask025_disjoint_fixcoord_s5000_t100/final_model 0.3963 0.3781 0.3125 0.3042
0.50 /home/introai13/prostate_project_runs/checkpoints/mae_mask05_disjoint_fixcoord_s5000_t100/final_model 0.4274 0.3774 0.3000 0.2875
0.75 /home/introai13/prostate_project_runs/checkpoints/mae_mask075_disjoint_fixcoord_s5000_t100/final_model 0.4699 0.4656 0.2875 0.2902

Mask ratio 0.75가 단일-run 기준으로 가장 높았다. 이 checkpoint를 current-best로 두고 downstream seed 반복을 수행했다.

Main Result vs Baseline

실험군 Seeds Best QWK mean  Std  Min  Max
ProsMAE mask 0.75 current-best 42-45 0.4734 0.0104 0.4613 0.4860
ProsMAE mask 0.75 current-best, extra 46-51 0.4737 0.0417 0.4211 0.5205
Vanilla facebook/vit-mae-base 42-46 0.4036 0.0490 0.3520 0.4665
Vanilla facebook/vit-mae-base, extra 47-52 0.4124 0.0260 0.3742 0.4476

해석: ProsMAE mask 0.75는 vanilla MAE baseline보다 평균 Best QWK가 높게 관찰된다. Extra seed 반복에서도 평균 차이는 유지되지만, downstream validation set이 80장으로 작기 때문에 통계적으로 일반화된 우월성까지 주장하기보다는 본 split/protocol에서의 개선으로 표현하는 것이 적절하다.

Ablation 결과

Noise 및 Mask Ratio

설정  Seeds Best QWK mean Std 해석
Multi-source, mask 0.75, no noise 42-45 0.4734 0.0104 주 결과
Multi-source, mask 0.75, noise 0.02 42-44 0.3694 0.0477 성능 저하
Multi-source, mask 0.75, noise 0.05 42-44 0.3943 0.0513 성능 저하
Multi-source, mask 0.75, noise 0.10 42-44 0.4350 0.0225 주 결과보다 낮음
Multi-source, mask 0.75, noise 0.20 42-44 0.4733 0.0184 주 결과와 유사한 보조 결과
Multi-source, mask 0.25, noise 0.05 42-44 0.4053 0.0198 낮은 mask ratio에서는 제한적
Multi-source, mask 0.50, noise 0.05 42-44 0.4370 0.0123 noise가 일부 도움되지만 mask 0.75보다 낮음

Noise 0.20은 Best QWK가 높게 나왔지만 reconstruction loss가 큰 조건이므로, 주 결과를 대체하기보다는 강건성 확인 또는 보조 ablation으로 제시하는 편이 안전하다.

데이터 소스 Ablation

설정  Seeds  Best QWK mean Std  해석
PANDA-only, no noise, mask 0.75 42-44 0.3757 0.0204 외부 데이터 없이 낮음
PANDA-only, noise 0.05, mask 0.75 42-44 0.3794 0.0232 noise만으로 개선 제한적
PANDA + Camelyon17, no noise, mask 0.75 42-44 0.4165 0.0339 외부 데이터 일부 기여
PANDA + BRACS, no noise, mask 0.75 42-44 0.4330 0.0584 Camelyon17 단독보다 높음
PANDA + Camelyon17 + BRACS, no noise, mask 0.75 42-45 0.4734 0.0104 full multi-source에서 가장 높은 평균과 낮은 variance 관찰

해석: 외부 데이터를 포함한 multi-source MAE가 PANDA-only보다 높은 평균 QWK를 보였다. Camelyon17 또는 BRACS 단독 추가보다 두 외부 데이터를 함께 사용한 설정에서 가장 높은 주 결과가 관찰되었다.

MAE Seed Robustness

설정  Downstream seeds Best QWK mean Std  해석
Main checkpoint, MAE seed 42 42-45 0.4734 0.0104 주 결과
No-noise mask 0.75, MAE seed 43 42-44 0.4373 0.0158 주 결과보다 낮음
No-noise mask 0.75, MAE seed 44 42-44 0.4089 0.0409 주 결과보다 낮음
Noise 0.05 mask 0.75, MAE seed 43 42-44 0.4148 0.0315 noise 0.05 설정도 낮음

해석: downstream seed 반복에서는 주 결과가 안정적이나, MAE pretraining seed 반복에서는 성능 변동이 관찰된다. 본 결과는 주 결과와 ablation 결과를 함께 제시하되, 작은 downstream validation set에서 seed variance가 존재한다는 점을 limitation으로 두는 것이 적절하다.

수치 해석 및 주장 범위

현재 수치 범위는 frozen encoder linear probe와 80-slide validation 기준에서 비정상적으로 보이지 않는다. 6-class ISUP grade 예측에서는 exact accuracy가 0.28-0.34 수준이어도 ordinal agreement를 보는 QWK가 0.4-0.5 수준으로 나올 수 있으므로, accuracy와 QWK 사이의 차이도 모순으로 보지 않는다.

다만 본 결과는 다음 범위 안에서 해석해야 한다.

항목  판단
ProsMAE vs vanilla 현재 split/protocol에서 평균 QWK 개선이 관찰됨
Mask ratio 0.75 현재 실험군 중 가장 방어 가능한 주 설정
Multi-source pretraining PANDA-only 및 single-source ablation보다 높은 경향
Noise augmentation 일관된 개선 근거는 부족하며, 주 결과를 대체하기 어려움
통계적 주장 작은 validation set과 MAE seed variance 때문에 넓은 의미의 통계적 우월성으로 쓰면 과함

따라서 논문에서는 “관찰된 개선”, “본 split/protocol에서의 성능 향상”, “예비적/보조적 근거” 수준으로 쓰는 것이 안전하다. “statistically significant”, “state-of-the-art”, “robust across all seeds/settings” 같은 표현은 현재 결과만으로는 피하는 편이 맞다.

논문 반영 권장안

  1. Main table에는 mask 0.75, multi-source, no-noise를 ProsMAE 주 결과로 사용한다.
  2. Baseline으로 vanilla facebook/vit-mae-base frozen linear probe를 사용한다.
  3. Ablation table은 다음 네 축으로 구성한다: mask ratio, external data, noise, MAE seed.
  4. Noise 0.20은 주장을 대체하는 결과가 아니라 강건성 확인 또는 보조 결과로 둔다.
  5. PANDA-only와 single-external-source 결과는 multi-source pretraining의 필요성을 설명하는 근거로 사용한다.

주요 산출물

구분 경로

Main MAE checkpoints /home/introai13/prostate_project_runs/checkpoints
Main downstream outputs /home/introai13/prostate_project_runs/outputs
Main logs /home/introai13/prostate_project_runs/logs
Extra ablation checkpoints /home/introai13/prostate_project_runs_more/checkpoints
Extra ablation downstream outputs /home/introai13/prostate_project_runs_more/outputs
Extra ablation logs /home/introai13/prostate_project_runs_more/logs
Current-best seed repeats /home/introai13/prostate_project_runs_extra/outputs
A100 noise 0.10 outputs/logs /home/introai33/prostate_project/outputs, /home/introai33/prostate_project/logs
Local working copy /home/user/main/annajung/code/prostate_project_work

결론

PANDA disjoint split에서 ProsMAE의 가장 방어 가능한 주 설정은 multi-source pretraining + mask ratio 0.75 + no added noise이다. 이 설정은 현재 frozen linear-probe 평가에서 vanilla MAE baseline보다 높은 downstream QWK를 보였고, PANDA-only 및 single-external-source ablation보다도 높은 평균 성능을 보였다. 따라서 논문에서는 이 설정을 main result로 두되, 작은 validation set과 MAE seed variance를 limitation으로 명시하고, noise 및 source ablation을 통해 성능 차이를 설명하는 구성이 가장 자연스럽다.

 

'Others' 카테고리의 다른 글

[khkim] AMR 모델 자료조사  (0) 2026.05.21
[Tien] Data and methods related to birth defect  (0) 2026.05.16
[khkim] MICCAI26 Mathena논문 Rebuttal  (0) 2026.05.09
[Tien] Birth defect's experiments results  (0) 2026.05.09
[khkim] SEFLA - AMR 논문 확장 가능성 리서치 정리  (0) 2026.04.27
'Others' 카테고리의 다른 글
  • [khkim] AMR 모델 자료조사
  • [Tien] Data and methods related to birth defect
  • [khkim] MICCAI26 Mathena논문 Rebuttal
  • [Tien] Birth defect's experiments results
team-sudal
team-sudal
team-sudal 님의 블로그 입니다.
  • team-sudal
    SUDAL
    team-sudal
  • 전체
    오늘
    어제
    • 분류 전체보기 (166)
      • MedicalFM (5)
        • anomaly_detection (1)
        • change_detection (1)
        • report_generation (3)
        • classification (1)
        • denoising (1)
        • generation (0)
        • reconstruction (0)
        • regression (3)
        • segmentation (0)
        • super_resolution (1)
        • MAE (7)
      • MAISI (9)
        • MAISI_Data (9)
      • Paper_Review (46)
      • Others (28)
      • LambdaCourse (0)
        • Paper_Review (0)
      • 2026 학부생자율연구 (12)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Visual inspection
    Fibre-optic transillumination
    GaN
    Diagnosis
    Bite-wing radiograph
    0
    Occlusal caries
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
team-sudal
ProsMAE 논문 작성의 건
상단으로

티스토리툴바