VGGT: Visual Geometry Grounded Transformer.
https://github.com/facebookresearch/vggt
<aside> ๐ก
์ฌ๋ฌ ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ๋จ ํ๋ฒ์ ํผ๋ํฌ์๋ ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํ์ฌ, 3D ์ฅ๋ฉด์ ๊ตฌ์ฑํ๋ ๊ฑฐ์ ๋ชจ๋ ํต์ฌ ์์๋ฅผ ์์ธกํ ์ ์๋ ์ ๊ฒฝ๋ง ๋ชจ๋ธ
Camera Parameter, depth map, 3D point map, ์์ ๊ฐ ํฌ์ธํธ ์ถ์ ์ ๋ณด๊น์ง ํฌํจ
</aside>
๋ชจ๋ 3D ์์ฑ ์์ธก ๊ฐ๋ฅ
VGGT๋ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ๋ค์ํ 3D ์ ๋ณด๋ฅผ ๋์์ ์ถ๋ก ๊ฐ๋ฅ :
ํผ๋ํฌ์๋ ๋ฐฉ์์ ๋จ์ผ ํจ์ค ๊ตฌ์กฐ
์ ํต์ ์ธ SfM์ด๋ MVS ๋ฐฉ์์ฒ๋ผ ๋ฐ๋ณต ์ต์ ํ๋ ํ์ฒ๋ฆฌ๋ฅผ ํ์๋ก ํ์ง ์์ผ๋ฉฐ, ์ค์ง ํ ๋ฒ์ ์ถ๋ก ๋ง์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์
โ ์ค์ ๋ก 1์ด ์ด๋ด์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ 3D ์ฌ๊ตฌ์ฑ ๊ฐ๋ฅ
์๊ฐ ๊ธฐํ ์ ๋ณด ์ต์ ํ ๋๋น ๋์ ์ฑ๋ฅ
๊ธฐ์กด ๊ธฐํ ๊ธฐ๋ฐ ๋ฐฉ์๋ค์ ๋ณต์กํ ๊ณ์ฐ์ ํตํด ์ ๋ฐํ 3D ์ ๋ณด๋ฅผ ์ป์ง๋ง, VGGT๋ ๋จ์ํ ๊ตฌ์กฐ๋ก๋ ๊ทธ๋ณด๋ค ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
๋ค์ํ 3D ์์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ (SOTA)
VGGT๋ ๋ค์๊ณผ ๊ฐ์ ๋ค์ํ ์์ ์์ ๋์ ์ฑ๋ฅ์ ์ ์ฆ
Downstream task ์ฑ๋ฅ ํฅ์
VGGT๋ ๊ทธ ์์ฒด๋ก๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๋ ์ค์ํ ์ ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ฐฑ๋ณธ(backbone)์ผ๋ก ์ฌ์ฉ๋ ๋ downstream task์ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ๊ฒ
Non-Rigid Point Tracking
ํํ๊ฐ ๋ณํ๋ ๋ฌผ์ฒด (์: ์์ง์ด๋ ์ธ์ฒด, ํ๋ ์ฒ ๋ฑ)์์๋ ๋์ผํ 3D ํฌ์ธํธ๋ฅผ ์ ํํ ์ถ์ ๊ฐ๋ฅ
Feed-Forward Novel View Synthesis
๊ธฐ์กด ์์ ์ ์ด๋ฏธ์ง๋ค๋ก๋ถํฐ ์๋ก์ด ์์ ์ ์ด๋ฏธ์ง๋ฅผ ํ ๋ฒ์ ์ถ๋ก ๋ง์ผ๋ก ์์ฑ ๊ฐ๋ฅ
๊ธฐ์กด 3D ์ฅ๋ฉด ์ฌ๊ตฌ์ฑ ๋ฐฉ์