โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-036 Utonia: Toward One Encoder for All Point Clouds
arXiv: 2603.03283 ๊ธฐ๊ด: Pointcept Upvotes: 142 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 1
Utonia: Toward One Encoder for All Point Clouds - ๋ ผ๋ฌธ ์ฌ์ธต ๋ถ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํ์ฌ 3D ์ปดํจํฐ ๋น์ ๋ถ์ผ๋ ๋ฐ์ดํฐ์ ์ข ๋ฅ๋ง๋ค ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ โํํธํโ๋ ์ํ์ ๋๋ค. ์ค๋ด ์ค์บ, ์์จ์ฃผํ ๋ผ์ด๋ค(LiDAR), ํญ๊ณต ์ฌ์ง, 3D ๋ฌผ์ฒด ๋ชจ๋ธ ๋ฑ์ ๊ฐ๊ฐ ์ผ์์ ํน์ฑ, ๋ฐ๋, ์ขํ๊ณ๊ฐ ์์ ํ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ํ๋์ ๋ชจ๋ธ์ด ์ด ๋ชจ๋๋ฅผ ์ดํดํ๊ธฐ๋ ๋ถ๊ฐ๋ฅํ๋ค๊ณ ์ฌ๊ฒจ์ก์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ Utonia๋ผ๋ ๋จ์ผ ์ธ์ฝ๋๋ฅผ ํตํด, ์๋ก ์ ํ ๋ค๋ฅธ ๋๋ฉ์ธ์ ์ ๊ตฐ(Point Cloud) ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๋ชจ๋ธ๋ก ํตํฉํ์ฌ ํ์ตํจ์ผ๋ก์จ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋๋ฉ์ธ ๊ฐ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ธฐ์ ์ผ๋ก ๋์ด๊ณ , ๋ก๋ด ๊ณตํ์ด๋ ๋ฉํฐ๋ชจ๋ฌ(Multimodal) ์ถ๋ก ๊ณผ ๊ฐ์ ๋ค์ํ ํ์ ์์ ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ์ ์์ ํฐ ์์๋ฅผ ๊ฐ์ง๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ธ์์ ๋ชจ๋ ๋ชจ์์ ์ดํดํ๋ โ๋ง๋ฅ ๋โ
์ด ๋ ผ๋ฌธ์ ๋ชฉํ๋ ๋ง์น ์ฌ๋์ ๋์ด ์ค๋ด ๊ฐ๊ตฌ๋ ๋ณด๊ณ , ๋จผ ์ฐ๋ ๋ณด๊ณ , ์์ ์ฅ๋๊ฐ๋ ๋ณผ ์ ์๋ ๊ฒ์ฒ๋ผ, AI์๊ฒ๋ ๋ง๋ฅ์ ์๊ฐ ๊ธฐ๋ฅ์ ์ฃผ๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด AI๋ค์ โ์ค๋ด ์ ๋ฌธ๊ฐโ, โ์ผ์ธ ์ ๋ฌธ๊ฐโ์ฒ๋ผ ๊ฐ๊ธฐ ๋ค๋ฅธ ๋์ ๊ฐ์ง๊ณ ์์์ต๋๋ค. Utonia๋ ์ด๋ค์ ํตํฉํ์ฌ, ๋ฐ์ดํฐ๊ฐ ์ด๋์ ์๋ ์ง ์๊ด์์ด ์ธ์์ ๊ธฐํํ์ ๊ตฌ์กฐ์ ์๋ฏธ๋ฅผ ๋์ผํ ์ธ์ด๋ก ์ดํดํ๋ ํ๋์ ๋๋ฅผ ๋ง๋ญ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
1. ์ธ๊ณผ์ ๋ชจ๋ฌ๋ฆฌํฐ ์ฐจํ (Causal Modality Blinding) ์ ๊ตฐ ๋ฐ์ดํฐ๋ ๋จ์ํ ์ ์ ์์น(XYZ)๋ฟ๋ง ์๋๋ผ ์์(Color)์ด๋ ๋ฒ์ (Normal) ์ ๋ณด๋ฅผ ๊ฐ์ง๊ธฐ๋ ํ๊ณ , ์์ ์๊ธฐ๋ ํฉ๋๋ค. ๋ง์ฝ ๋ชจ๋ธ์ด ์๊น์๋ง ๋๋ฌด ์์กดํ์ฌ ํ์ตํ๋ฉด, ์๊น ์ ๋ณด๊ฐ ์๋ ์ผ์ธ ๋ผ์ด๋ค ๋ฐ์ดํฐ์์๋ ์๋ฌด๊ฒ๋ ๋ชปํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด Utonia๋ ํ์ตํ ๋ ์ผ๋ถ๋ฌ ์์์ด๋ ๋ฒ์ ์ ๋ณด๋ฅผ ๊ฐ๋ ค๋ฒ๋ฆฌ๋(Blinding) ํ๋ จ์ ํฉ๋๋ค. ๋ง์น ์๊ฒฝ์ ์ฐ๊ณ ๋ฒ๋ ์ฐ์ต์ ํตํด ์๋ ฅ์ ๊ฐํํ๋ฏ, ๋ชจ๋ธ์ด ํ์์ ์ธ ํํ ์ ๋ณด๋ฅผ ํ์ตํ๋๋ก ๊ฐ์ ํ๋ ๊ธฐ์ ์ ๋๋ค.
2. ์ธ์ ์
๋ ์ฌ์กฐ์ (Perceptual Granularity Rescale)
์ค๋ด ๋ฐ์ดํฐ๋ ๋ฐฉ ์์ ์ค์บํ ๊ฒ์ด๋ฏ๋ก ์ขํ ๊ฐ์ด ์๊ณ (์: 05๋ฏธํฐ), ์ผ์ธ ๋ผ์ด๋ค๋ ๋์ ์ ์ฒด๋ฅผ ์ฐ์ผ๋ฏ๋ก ์ขํ ๊ฐ์ด ํฝ๋๋ค(์: 0100๋ฏธํฐ). ์ด๋ฅผ ํ๋์ ๋ชจ๋ธ์ ๋ฃ์ผ๋ฉด AI๊ฐ ํผ๋์ ์ผ์ผํต๋๋ค. Utonia๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ง์น ๊ฐ์ ํด์๋์ ๊ฒฉ์(Grid) ์์ ์ฌ๋ฆฐ ๊ฒ์ฒ๋ผ ์ขํ๋ฅผ ์ฌ์กฐ์ (Rescale)ํฉ๋๋ค. ๊ฑฐ๋ํ ์ง๋์ ์์ ๋ฐฉ ๊ทธ๋ฆผ์ ๋ชจ๋ ๊ฐ์ ํฌ๊ธฐ์ ์ก์์ ๋ง์ถฐ์ ํ๋/์ถ์ํด ๋ณด์ฌ์ฃผ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
3. ์ ๋ ์ ๋ ฌ ์ขํ์ ๋ํ RoPE ์ ์ฉ ์ขํ๋ฅผ ์ฌ์กฐ์ ํ ํ์๋ ์ ๋ค์ ์๋์ ์์น ๊ด๊ณ๋ฅผ ๋ ์ ํ์ ํ๊ฒ ํ๊ธฐ ์ํด RoPE(Rotary Positional Embedding) ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ ๋ค์ ์๋์ ์ธ ๊ฑฐ๋ฆฌ์ ๋ฐฉํฅ์ ๋ชจ๋ธ์ด ๋ ์ ์ดํดํ๋๋ก ๋๋ ์ํ์ ๊ธฐ๋ฒ์ ๋๋ค. โ๋ด ์ผ์ชฝ์ ์ปต์ด ์์ดโ๋ผ๋ ์๋์ ์์น ์ ๋ณด๋ฅผ ์ขํ์ ์ ๋์ ํฌ๊ธฐ์ ์๊ด์์ด ์ ์ธ์งํ๋๋ก ๋๋ ๋์นจ๋ฐ ๊ฐ์ ์ญํ ์ ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ์ค๋ด, ์ผ์ธ, ๋ฌผ์ฒด ์ค์ฌ์ 3D ์์ ํ์ค ๋ฒค์น๋งํฌ์ธ Sonata์ Concerto์ ํ๋กํ ์ฝ์ ๋ฐ๋ผ Utonia๋ฅผ ํ๊ฐํ์ต๋๋ค.
์ฃผ์ ๋ฒค์น๋งํฌ ๋ฐ ์ฑ๋ฅ
- ์ค๋ด ์๋ฏธ ๋ถํ (Semantic Segmentation): ScanNet ๋ฐ์ดํฐ์ ์์ 81.1% mIoU๋ฅผ ๋ฌ์ฑํ์ฌ SOTA(State-of-the-art) ์์ค์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค. S3DIS์์๋ 78.1%๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
- ์ผ์ธ ์๋ฏธ ๋ถํ : Waymo์ ๊ฐ์ ์ผ์ธ ๋ฐ์ดํฐ์ ์์ Linear Probing๊ณผ Decoder Probing ํ๊ฐ ๋ชจ๋์์ ๊ธฐ์กด ์ต์์ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ฐ์ด๋ mIoU๋ฅผ ๋ณด์์ต๋๋ค.
- ๋ฌผ์ฒด ๋ถ๋ฅ (Object Classification): PartNetE์ ๊ฐ์ ๋ฌผ์ฒด ์ค์ฌ ๋ฐ์ดํฐ์ ์์๋ ๊ฐ๋ ฅํ ์ ์ด ํ์ต ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ (Ablation Study) ํนํ ํฅ๋ฏธ๋ก์ด ์ ์ ํ 2์ Ablation ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ๋๋ค. ๋จ์ํ ์๋ก ๋ค๋ฅธ ๋๋ฉ์ธ์ ํฉ์ณ์ ํ์ตํ๋ฉด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ํ์ง๋ง Utonia๊ฐ ์ ์ํ **๊ณ ์ ๋ ๊ฒฉ์ ํฌ๊ธฐ(Fixed grid size)**์ ์ขํ ์ฌ์กฐ์ ๊ธฐ๋ฒ์ ์ ์ฉํ์ ๋, ์ฑ๋ฅ ์ ํ๋ฅผ ๋ง๊ณ ์คํ๋ ค ๋จ์ผ ๋๋ฉ์ธ ํ์ต(Separate domain)๋ณด๋ค ๋ ์ข๊ฑฐ๋ ๋น์ทํ ์์ค์ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ์ง์ ํ ํตํฉ ํ์ต์ด ๊ฐ๋ฅํจ์ ์์น์ ์ผ๋ก ์ฆ๋ช ํ ๊ฒฐ์ ์ ์ธ ์ฆ๊ฑฐ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
ํ๊ณ์ ์ด ๋ ผ๋ฌธ์ ์ฒซ ๋จ๊ณ(First step)๋ก์ ๋ค์ํ ๋๋ฉ์ธ์ ํตํฉํ์ง๋ง, ์ฌ์ ํ ๋ชจ๋ 3D ํํ์ ์์ฐ๋ฅด์ง๋ ๋ชปํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋์ ์ด๊ฑฐ๋ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ๊ฐ ์ฌํ ์ฅ๋ฉด, ํน์ ๊ทน๋๋ก ํฌ์ํ(Sparse) ๋ฐ์ดํฐ์์์ ์ฑ๋ฅ์ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ์ด ํ์ํ ์ ์์ต๋๋ค. ๋ํ, ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํด์ ํ์ตํด์ผ ํ๋ฏ๋ก ์ฐ์ฐ ๋น์ฉ์ด ๋งค์ฐ ๋์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์๋ค์ Utonia์ ํํ ๋ฅ๋ ฅ์ ํ์ฅํ์ฌ ๋ ๋ณต์กํ ๊ณต๊ฐ ์ถ๋ก (Spatial Reasoning)์ด๋ ๋น์ -์ธ์ด-ํ๋(Vision-Language-Action) ๋ชจ๋ธ์ ํตํฉํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์์ต๋๋ค. ๋ก๋ด์ด ๋จ์ํ ์ฌ๋ฌผ์ ์ธ์ํ๋ ๊ฒ์ ๋์ด, โ์ด ์ฑ ์ ์์ ๋ฌผ๊ฑด์ ์ฌ๋ ค๋โ๋ผ๋ ๋ณต์กํ ์ง์๋ฅผ ์ดํดํ๊ณ ์ํํ๋ ๋ฐ Utonia์ ๊ธฐํํ์ ์ดํด ๋ฅ๋ ฅ์ ํ์ฉํ๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๊ฐ ์ด์ด์ง ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
- ์์จ์ฃผํ ์๋์ฐจ: ๋ค์ํ ํ๊ฒฝ(๋์, ๊ต์ธ, ํฐ๋ ๋ฑ)์์ ์์ง๋๋ ๋ผ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ์ฌ ์ธ์ ์ฑ๋ฅ์ ๋์ผ ์ ์์ต๋๋ค.
- ๋ก๋ด ๋งค๋ํฐ๋ ์ด์ (Robotic Manipulation): ๊ณต์ฅ์์์ ๋ถํ ์ธ์๋ถํฐ ๊ฐ์ ๋ด์ ๊ฐ๊ตฌ ํ์ ๊น์ง, ๋ค์ํ ์ค์ผ์ผ์ ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ๋ค๋ฃจ๋ ๋ก๋ด ์ ์ด ์์คํ ์ ์ ํฉํฉ๋๋ค.
- ์ฆ๊ฐ ํ์ค(AR) / ๊ฐ์ ํ์ค(VR): ์ค๋ด ๊ณต๊ฐ์ ์ค์บํ์ฌ ๊ฐ๊ตฌ๋ฅผ ๋ฐฐ์นํ๋ ๋ฑ์ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ฌ์ฉ์ ํ๊ฒฝ์ ๋น ๋ฅด๊ฒ ์ดํดํ๋ ๋ฐ ์ฌ์ฉํ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
- GPU: Point Transformer V3 ๋ฐฑ๋ณธ๊ณผ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ํตํฉ ํ์ตํด์ผ ํ๋ฏ๋ก, ๊ณ ์ฑ๋ฅ์ GPU(A100 ๋ฑ)๊ฐ ๋ค์ ์ฅ์ฐฉ๋ ์๋ฒ ํ๊ฒฝ์ด ํ์์ ์ ๋๋ค.
- ๋ฐ์ดํฐ: ๋ค์ํ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ์ (ScanNet, Waymo, ShapeNet ๋ฑ)์ ํ๋ณดํ๊ณ ์ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ด ํ์ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Point Cloud (์ ๊ตฐ): 3D ๊ณต๊ฐ์์ ์ ๋ค์ ์งํฉ์ผ๋ก, x, y, z ์ขํ ์ ๋ณด๋ฅผ ๊ฐ์ง๋ฉฐ ์ฃผ๋ก ๋ผ์ด๋ค๋ ์ค์บ๋๋ก ํ๋ํฉ๋๋ค.
- Self-Supervised Learning (์๊ธฐ ์ง๋ ํ์ต): ๋ณ๋์ ์ ๋ต ๋ผ๋ฒจ์ด ์์ด ๋ฐ์ดํฐ ์์ฒด์์ ํ์ต ์ ํธ๋ฅผ ๋ง๋ค์ด๋ด๋ ํ์ต ๋ฐฉ์์ ๋๋ค.
- Transformer: ํ ์คํธ๋ ์ด๋ฏธ์ง ๋ฑ์ ๋ฐ์ดํฐ ๋ด ์์ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ก, Attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค.
- RoPE (Rotary Positional Embedding): ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์์ ํ ํฐ์ ์๋์ ์์น ์ ๋ณด๋ฅผ ํ์ ํ๋ ฌ์ ํตํด ์ธ์ฝ๋ฉํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Fine-tuning (๋ฏธ์ธ ์กฐ์ ): ์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ(Pre-trained model)์ ๊ฐ์ ธ์์ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ๋ง์ถฐ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ ๊ณผ์ ์ ๋๋ค.
- Linear Probing: ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ , ๋ง์ง๋ง ๋ถ๋ฅ๊ธฐ ๋ ์ด์ด ํ๋๋ง ํ์ต์์ผ ๋ชจ๋ธ์ ํํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Utonia: Toward One Encoder for All โฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Heterogeneous Agent Collaborative Rโฆ | DD-037 |
| ๐ฅ | OmniLottie: Generating Vector Animaโฆ | DD-038 |
| 4. | Helios: Real Real-Time Long Video Gโฆ | DD-039 |
| 5. | From Scale to Speed: Adaptive Test-โฆ | DD-040 |
๐ ์์ฑ์ผ: 2026-03-08 | ๐ค GLM-4.7 Deep Dive