VGGT๋ Backbone(์ธ์ฝ๋) + ์ฌ๋ฌ Head(๋์ฝ๋)ย ๊ตฌ์กฐ๋ผ๊ณ ๋ณผ ์ ์์.
๊ตฌ์ฑ | ์ญํ |
---|---|
Aggregatorย (๋ฐฑ๋ณธ, ์ธ์ฝ๋) | ์ด๋ฏธ์ง ์ํ์ค๋ฅผ ์ ๋ ฅ๋ฐ์ ๊ณ ์ฐจ์ feature ์ถ์ถ |
Headย (๋์ฝ๋๋ค) | ์ด feature๋ฅผ ๋ฐ์ camera pose, depth ๋ฑ task๋ณ ์ถ๋ ฅ ์์ฑ |
VGGT๋ย ๊ณตํต ์ธ์ฝ๋(Transformer)ย ๋ฅผ ํตํด ์ฌ๋ฌ ๋์ฝ๋(Head)๋ก ๋ถ๊ธฐํ๋ย multi-head encoder-decoder ๊ตฌ์กฐ
<aside> ๐
์ ๋ ฅ ์ด๋ฏธ์ง ์ํ์ค (N์ฅ)
โ
Patch Embed
โ
[์นด๋ฉ๋ผ ํ ํฐ + ๋ ์ง์คํฐ ํ ํฐ + ํจ์น ํ ํฐ]
โ
Aggregator (Alternating Attention) โ ๋ฐฑ๋ณธ (Backbone)
โ
[Frame Feature (2 ร embed_dim)]
โ
Head (Task๋ณ ์์ธก ๋ชจ๋)
โโ Camera Head โ Camera Pose ์์ธก
โโ Point Head โ Feature Point ์์ธก
โโ Depth Head โ Depth Map ์์ธก
โโ DPT Head โ Multi-scale Representation ๋ฑ๋ฑ
</aside>
์ฝ๋ ์์ค: https://github.com/facebookresearch/vggt/tree/main