(P2 + BiFPN + WIoU) + Mamba 전략입니다.
Mamba Block을 YOLOv8에 통합하는 전략
1. 어디에 추가할 것인가: 3가지 핵심 위치
(A) Backbone의 C2f 모듈 → SSM 기반 블록으로 교체/보강 (가장 추천)
YOLOv8의 backbone은 Conv → C2f 구조가 반복되는데, 후반부 stage (P4, P5 레벨)의 C2f 모듈을 Mamba block(SSM block)으로 교체하거나 하이브리드 형태로 결합하는 것이 가장 효과적임
왜 후반부인가:
- P4, P5 레벨은 feature map 해상도가 작아서 (40×40, 20×20) Mamba의 selective scan 연산 비용이 상대적으로 낮음
- 고수준 semantic feature에서 global context를 잡아야 하는데, CNN의 local receptive field로는 한계가 있음. Mamba의 SSM은 linear complexity로 global dependency를 모델링할 수 있어서 이 부분에서 큰 이득을 봄
- 초반부 stage (P1, P2)는 해상도가 크고 low-level texture 위주라서 CNN이 이미 충분히 잘 처리함
구체적 설계: Mamba YOLO (Wang et al., 2024, arXiv:2406.05835)에서 제안한 ODSSBlock 구조를 참고해. 이들은 C2f를 완전히 SSM 기반 블록으로 대체하면서, Residual Gated (RG) Block을 도입해서 SSM이 원래 텍스트 시퀀스용으로 설계되어 channel depth를 충분히 활용하지 못하는 문제를 해결함.. 핵심은 2D Selective Scan (SS2D)으로 4방향 스캔을 수행하면서도, high-dimensional dot product로 채널 간 상관관계를 강화하는 것.
근거 논문: Mamba YOLO: SSMs-Based YOLO For Object Detection (Wang et al., AAAI 2025, arXiv:2406.05835) — Tiny 버전이 기존 대비 mAP 7.5% 향상, 1.5ms 추론 속도 달성
(B) SPPF 모듈에 Mamba 브랜치 병렬 추가
Backbone 끝의 SPPF (Spatial Pyramid Pooling - Fast) 모듈 옆에 Mamba 브랜치를 병렬로 추가하는 방법임. SPPF가 multi-scale pooling으로 local feature를 추출하는 동안, Mamba 브랜치가 global contextual feature를 추출하고, 둘을 concat/fusion 하는 구조.
왜 여기인가:
- SPPF는 backbone에서 neck으로 넘어가는 bottleneck 지점으로, 여기서 global context를 보강하면 이후 FPN+PAN에서의 multi-scale fusion 품질이 크게 올라감
- Feature map 크기가 20×20 수준이라 Mamba의 연산 비용이 매우 낮음
근거 논문: ME-MSA-YOLO (Tang et al., 2025, Engineering Applications of AI) — SPPF-Mamba 모듈 설계, DOTA 데이터셋에서 baseline 대비 mAP ~11 포인트 향상
(C) Neck (FPN+PAN)의 C2f → Mamba 블록 교체
Neck 부분에서 feature fusion을 담당하는 C2f 모듈을 Mamba 기반 블록으로 교체하는 전략. 특히 top-down pathway (FPN 부분)에 우선적으로 적용하는 것을 추천해.
왜 Neck인가:
- Multi-scale feature fusion 시 서로 다른 scale 간의 long-range dependency를 모델링해야 하는데, 기존 Conv 기반 C2f는 local fusion만 수행
- Mamba를 neck에 적용하면 cross-scale feature 간의 global correlation을 linear complexity로 캡처 가능
- MambaFPN (Liang et al., 2025)이 이 접근법의 효과를 입증: vanilla FPN 대비 더 적은 파라미터로 더 높은 성능
근거 논문들:
- MambaFPN (Liang et al., Neural Networks, 2025) — SSM 기반 FPN이 COCO/LVIS에서 vanilla FPN 능가
- YOLOv5_mamba (Scientific Reports, 2024) — Neck에 mamba 기반 bidirectional dense feedback network 적용, C2f + Mamba 조합이 최고 성능
얼마나 추가할 것인가
전략 변경량 기대 효과 추론 속도 영향
| Minimal: SPPF에만 Mamba 브랜치 1개 추가 | 파라미터 +5~10% | mAP +1~2% | 거의 없음 |
| Moderate (추천): Backbone P4, P5의 C2f 2개를 하이브리드 Conv+Mamba로 교체 | 파라미터 +10~15% | mAP +3~5% | +0.5~1ms |
| Full: Backbone 후반 + Neck의 C2f 전체를 SSM 블록으로 교체 | Mamba YOLO 수준 | mAP +5~7.5% | +1~2ms |
"살짝"이라면 Moderate 전략을 추천해: Backbone의 마지막 2개 C2f (stage 4, 5)만 하이브리드 블록으로 바꾸는 거야. 구체적으로는:
기존: C2f → Conv → C2f → SPPF (backbone 후반)
변경: C2f → Conv → MambaC2f → SPPF-Mamba (backbone 후반)
여기서 MambaC2f는 C2f 내부의 Bottleneck 일부를 SSM branch로 대체한 하이브리드 구조.
3. 왜 이렇게 생각하는가: 핵심 근거 정리
① SSM의 Global Receptive Field가 CNN의 한계를 보완 VMamba는 Mamba를 vision backbone으로 적응시켜 linear time complexity로 global receptive field를 확보했고, 이를 object detection에 적용했을 때 COCO에서 Swin-T/S/B 대비 각각 4.6%/3.9%/2.3% mAP 향상을 달성했음. YOLOv8의 CSPDarknet backbone은 본질적으로 local receptive field에 의존하기 때문에, 고수준 feature에서 SSM을 추가하면 이 gap을 메울 수 있음.
② Linear Complexity로 실시간성 유지 Transformer를 추가하면 self-attention의 quadratic complexity 때문에 실시간 성능이 크게 저하되지만, Mamba YOLO는 SSM의 linear complexity를 활용해서 quadratic complexity 문제를 해결했어. 이건 YOLOv8의 real-time detection이라는 핵심 가치를 유지하면서 성능을 올릴 수 있다는 의미.
③ Pretrain 없이도 효과적 Mamba YOLO의 ODMamba backbone은 ImageNet이나 Object365 같은 대규모 데이터셋에서 pretrain 없이도 scratch training으로 우수한 성능을 달성했음. 이건 custom 데이터셋에서 작업하는 경우 (medical imaging 등) 특히 유리.
④ 후반부 stage 집중의 효율성 초반 stage는 feature map이 크고 low-level feature 중심이라 CNN이 이미 최적이야. 후반부에서만 SSM을 적용하면 연산량 증가는 최소화하면서 semantic understanding은 크게 향상. 이건 YOLOv5_mamba에서도 확인됐는데, backbone과 neck 모두에 C2f + Mamba 조합을 적용했을 때 최고 성능을 달성.
4. 참고해야 할 핵심 논문 목록
- Mamba (원본): Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces," arXiv:2312.00752, 2023
- VMamba: Liu et al., "VMamba: Visual State Space Model," NeurIPS 2024 Spotlight, arXiv:2401.10166
- Vision Mamba (Vim): Zhu et al., "Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model," ICML 2024, arXiv:2401.09417
- Mamba YOLO: Wang et al., "Mamba YOLO: SSMs-Based YOLO For Object Detection," AAAI 2025, arXiv:2406.05835
- MambaFPN: Liang et al., "MambaFPN: A SSM-based Feature Pyramid Network for Object Detection," Neural Networks, 2025
- YOLOv5_mamba: "YOLOv5_mamba: UAV Object Detection Based on Bidirectional Dense Feedback Network," Scientific Reports, 2024
- ME-MSA-YOLO: Tang et al., "Mamba Enhanced YOLO with Multiscale Spatial Attention for Remote Sensing Object Detection," Engineering Applications of AI, 2025
실제 구현 시 주의사항
- 2D Selective Scan (SS2D): 1D 시퀀스용 Mamba를 2D 이미지에 적용할 때 반드시 multi-directional scan (4방향: 좌→우, 우→좌, 상→하, 하→상)을 사용해야 해. VMamba의 Cross-Scan Module 참고.
- Channel 처리: SSM은 원래 channel dimension을 충분히 활용하지 못하므로, Mamba YOLO의 RG Block처럼 channel-wise interaction을 별도로 보강해야함.
- Downsampling 호환: Conv 기반 downsampling이 SSM의 selective scan 결과를 방해할 수 있으므로, VMamba에서 제안한 split + 1×1 conv 방식 고려.
- CUDA 호환성: Mamba의 selective scan은 custom CUDA kernel이 필요한데, causal-conv1d와 mamba-ssm 패키지 설치 시 CUDA 버전 호환 꼭 확인해. H200이나 A100에서는 보통 잘 돌아감.