💡 VGGT의 아키텍쳐 리뷰

VGGT는 Backbone(인코더) + 여러 Head(디코더) 구조라고 볼 수 있음.

구성	역할
Aggregator (백본, 인코더)	이미지 시퀀스를 입력받아 고차원 feature 추출
Head (디코더들)	이 feature를 받아 camera pose, depth 등 task별 출력 생성

VGGT는 공통 인코더(Transformer) 를 통해 여러 디코더(Head)로 분기하는 multi-head encoder-decoder 구조

<aside> 📌

입력 이미지 시퀀스 (N장)

↓

Patch Embed

↓

[카메라 토큰 + 레지스터 토큰 + 패치 토큰]

↓

Aggregator (Alternating Attention) ← 백본 (Backbone)

↓

[Frame Feature (2 × embed_dim)]

↓

Head (Task별 예측 모듈)

└─ Camera Head → Camera Pose 예측

└─ Point Head → Feature Point 예측

└─ Depth Head → Depth Map 예측

└─ DPT Head → Multi-scale Representation 등등

</aside>

코드 소스: https://github.com/facebookresearch/vggt/tree/main

VGGT class