โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-036 Utonia: Toward One Encoder for All Point Clouds

arXiv: 2603.03283 ๊ธฐ๊ด€: Pointcept Upvotes: 142 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


Utonia: Toward One Encoder for All Point Clouds - ๋…ผ๋ฌธ ์‹ฌ์ธต ๋ถ„์„

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

ํ˜„์žฌ 3D ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ๋Š” ๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜๋งˆ๋‹ค ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” โ€˜ํŒŒํŽธํ™”โ€™๋œ ์ƒํƒœ์ž…๋‹ˆ๋‹ค. ์‹ค๋‚ด ์Šค์บ”, ์ž์œจ์ฃผํ–‰ ๋ผ์ด๋‹ค(LiDAR), ํ•ญ๊ณต ์‚ฌ์ง„, 3D ๋ฌผ์ฒด ๋ชจ๋ธ ๋“ฑ์€ ๊ฐ๊ฐ ์„ผ์„œ์˜ ํŠน์„ฑ, ๋ฐ€๋„, ์ขŒํ‘œ๊ณ„๊ฐ€ ์™„์ „ํžˆ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์—, ํ•˜๋‚˜์˜ ๋ชจ๋ธ์ด ์ด ๋ชจ๋‘๋ฅผ ์ดํ•ดํ•˜๊ธฐ๋Š” ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ์—ฌ๊ฒจ์กŒ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ Utonia๋ผ๋Š” ๋‹จ์ผ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด, ์„œ๋กœ ์ „ํ˜€ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์˜ ์ ๊ตฐ(Point Cloud) ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ํ•™์Šตํ•จ์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋„๋ฉ”์ธ ๊ฐ„์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํš๊ธฐ์ ์œผ๋กœ ๋†’์ด๊ณ , ๋กœ๋ด‡ ๊ณตํ•™์ด๋‚˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(Multimodal) ์ถ”๋ก ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ํ•˜์œ„ ์ž‘์—…์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜์˜๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์„ธ์ƒ์˜ ๋ชจ๋“  ๋ชจ์–‘์„ ์ดํ•ดํ•˜๋Š” โ€˜๋งŒ๋Šฅ ๋ˆˆโ€™

์ด ๋…ผ๋ฌธ์˜ ๋ชฉํ‘œ๋Š” ๋งˆ์น˜ ์‚ฌ๋žŒ์˜ ๋ˆˆ์ด ์‹ค๋‚ด ๊ฐ€๊ตฌ๋„ ๋ณด๊ณ , ๋จผ ์‚ฐ๋„ ๋ณด๊ณ , ์ž‘์€ ์žฅ๋‚œ๊ฐ๋„ ๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, AI์—๊ฒŒ๋„ ๋งŒ๋Šฅ์˜ ์‹œ๊ฐ ๊ธฐ๋Šฅ์„ ์ฃผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด AI๋“ค์€ โ€˜์‹ค๋‚ด ์ „๋ฌธ๊ฐ€โ€™, โ€˜์•ผ์™ธ ์ „๋ฌธ๊ฐ€โ€™์ฒ˜๋Ÿผ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๋ˆˆ์„ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. Utonia๋Š” ์ด๋“ค์„ ํ†ตํ•ฉํ•˜์—ฌ, ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋””์„œ ์™”๋“ ์ง€ ์ƒ๊ด€์—†์ด ์„ธ์ƒ์˜ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ์™€ ์˜๋ฏธ๋ฅผ ๋™์ผํ•œ ์–ธ์–ด๋กœ ์ดํ•ดํ•˜๋Š” ํ•˜๋‚˜์˜ ๋‡Œ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

1. ์ธ๊ณผ์  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ฐจํ (Causal Modality Blinding) ์ ๊ตฐ ๋ฐ์ดํ„ฐ๋Š” ๋‹จ์ˆœํžˆ ์ ์˜ ์œ„์น˜(XYZ)๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ƒ‰์ƒ(Color)์ด๋‚˜ ๋ฒ•์„ (Normal) ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ธฐ๋„ ํ•˜๊ณ , ์•„์˜ˆ ์—†๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋ชจ๋ธ์ด ์ƒ‰๊น”์—๋งŒ ๋„ˆ๋ฌด ์˜์กดํ•˜์—ฌ ํ•™์Šตํ•˜๋ฉด, ์ƒ‰๊น” ์ •๋ณด๊ฐ€ ์—†๋Š” ์•ผ์™ธ ๋ผ์ด๋‹ค ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์•„๋ฌด๊ฒƒ๋„ ๋ชปํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด Utonia๋Š” ํ•™์Šตํ•  ๋•Œ ์ผ๋ถ€๋Ÿฌ ์ƒ‰์ƒ์ด๋‚˜ ๋ฒ•์„  ์ •๋ณด๋ฅผ ๊ฐ€๋ ค๋ฒ„๋ฆฌ๋Š”(Blinding) ํ›ˆ๋ จ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์•ˆ๊ฒฝ์„ ์“ฐ๊ณ  ๋ฒ—๋Š” ์—ฐ์Šต์„ ํ†ตํ•ด ์‹œ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋“ฏ, ๋ชจ๋ธ์ด ํ•„์ˆ˜์ ์ธ ํ˜•ํƒœ ์ •๋ณด๋ฅผ ํ•™์Šตํ•˜๋„๋ก ๊ฐ•์ œํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

2. ์ธ์‹ ์ž…๋„ ์žฌ์กฐ์ • (Perceptual Granularity Rescale) ์‹ค๋‚ด ๋ฐ์ดํ„ฐ๋Š” ๋ฐฉ ์•ˆ์„ ์Šค์บ”ํ•œ ๊ฒƒ์ด๋ฏ€๋กœ ์ขŒํ‘œ ๊ฐ’์ด ์ž‘๊ณ (์˜ˆ: 05๋ฏธํ„ฐ), ์•ผ์™ธ ๋ผ์ด๋‹ค๋Š” ๋„์‹œ ์ „์ฒด๋ฅผ ์ฐ์œผ๋ฏ€๋กœ ์ขŒํ‘œ ๊ฐ’์ด ํฝ๋‹ˆ๋‹ค(์˜ˆ: 0100๋ฏธํ„ฐ). ์ด๋ฅผ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์— ๋„ฃ์œผ๋ฉด AI๊ฐ€ ํ˜ผ๋ž€์„ ์ผ์œผํ‚ต๋‹ˆ๋‹ค. Utonia๋Š” ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋งˆ์น˜ ๊ฐ™์€ ํ•ด์ƒ๋„์˜ ๊ฒฉ์ž(Grid) ์œ„์— ์˜ฌ๋ฆฐ ๊ฒƒ์ฒ˜๋Ÿผ ์ขŒํ‘œ๋ฅผ ์žฌ์กฐ์ •(Rescale)ํ•ฉ๋‹ˆ๋‹ค. ๊ฑฐ๋Œ€ํ•œ ์ง€๋„์™€ ์ž‘์€ ๋ฐฉ ๊ทธ๋ฆผ์„ ๋ชจ๋‘ ๊ฐ™์€ ํฌ๊ธฐ์˜ ์•ก์ž์— ๋งž์ถฐ์„œ ํ™•๋Œ€/์ถ•์†Œํ•ด ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

3. ์ž…๋„ ์ •๋ ฌ ์ขŒํ‘œ์— ๋Œ€ํ•œ RoPE ์ ์šฉ ์ขŒํ‘œ๋ฅผ ์žฌ์กฐ์ •ํ•œ ํ›„์—๋„ ์ ๋“ค์˜ ์ƒ๋Œ€์  ์œ„์น˜ ๊ด€๊ณ„๋ฅผ ๋” ์ž˜ ํŒŒ์•…ํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด RoPE(Rotary Positional Embedding) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ ๋“ค์˜ ์ƒ๋Œ€์ ์ธ ๊ฑฐ๋ฆฌ์™€ ๋ฐฉํ–ฅ์„ ๋ชจ๋ธ์ด ๋” ์ž˜ ์ดํ•ดํ•˜๋„๋ก ๋•๋Š” ์ˆ˜ํ•™์  ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. โ€œ๋‚ด ์™ผ์ชฝ์— ์ปต์ด ์žˆ์–ดโ€๋ผ๋Š” ์ƒ๋Œ€์  ์œ„์น˜ ์ •๋ณด๋ฅผ ์ขŒํ‘œ์˜ ์ ˆ๋Œ€์  ํฌ๊ธฐ์™€ ์ƒ๊ด€์—†์ด ์ž˜ ์ธ์ง€ํ•˜๋„๋ก ๋•๋Š” ๋‚˜์นจ๋ฐ˜ ๊ฐ™์€ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์—ฐ๊ตฌ์ง„์€ ์‹ค๋‚ด, ์•ผ์™ธ, ๋ฌผ์ฒด ์ค‘์‹ฌ์˜ 3D ์ž‘์—… ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ์ธ Sonata์™€ Concerto์˜ ํ”„๋กœํ† ์ฝœ์„ ๋”ฐ๋ผ Utonia๋ฅผ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋ฒค์น˜๋งˆํฌ ๋ฐ ์„ฑ๋Šฅ

  • ์‹ค๋‚ด ์˜๋ฏธ ๋ถ„ํ•  (Semantic Segmentation): ScanNet ๋ฐ์ดํ„ฐ์…‹์—์„œ 81.1% mIoU๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ SOTA(State-of-the-art) ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. S3DIS์—์„œ๋„ 78.1%๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์•ผ์™ธ ์˜๋ฏธ ๋ถ„ํ• : Waymo์™€ ๊ฐ™์€ ์•ผ์™ธ ๋ฐ์ดํ„ฐ์…‹์—์„œ Linear Probing๊ณผ Decoder Probing ํ‰๊ฐ€ ๋ชจ๋‘์—์„œ ๊ธฐ์กด ์ตœ์ƒ์œ„ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋›ฐ์–ด๋‚œ mIoU๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ๋ฌผ์ฒด ๋ถ„๋ฅ˜ (Object Classification): PartNetE์™€ ๊ฐ™์€ ๋ฌผ์ฒด ์ค‘์‹ฌ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ์ „์ด ํ•™์Šต ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ (Ablation Study) ํŠนํžˆ ํฅ๋ฏธ๋กœ์šด ์ ์€ ํ‘œ 2์˜ Ablation ์—ฐ๊ตฌ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์„œ๋กœ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์„ ํ•ฉ์ณ์„œ ํ•™์Šตํ•˜๋ฉด ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ Utonia๊ฐ€ ์ œ์•ˆํ•œ **๊ณ ์ •๋œ ๊ฒฉ์ž ํฌ๊ธฐ(Fixed grid size)**์™€ ์ขŒํ‘œ ์žฌ์กฐ์ • ๊ธฐ๋ฒ•์„ ์ ์šฉํ–ˆ์„ ๋•Œ, ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋ง‰๊ณ  ์˜คํžˆ๋ ค ๋‹จ์ผ ๋„๋ฉ”์ธ ํ•™์Šต(Separate domain)๋ณด๋‹ค ๋” ์ข‹๊ฑฐ๋‚˜ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ง„์ •ํ•œ ํ†ตํ•ฉ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•จ์„ ์ˆ˜์น˜์ ์œผ๋กœ ์ฆ๋ช…ํ•œ ๊ฒฐ์ •์ ์ธ ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

ํ•œ๊ณ„์  ์ด ๋…ผ๋ฌธ์€ ์ฒซ ๋‹จ๊ณ„(First step)๋กœ์„œ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์„ ํ†ตํ•ฉํ–ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋ชจ๋“  3D ํ‘œํ˜„์„ ์•„์šฐ๋ฅด์ง€๋Š” ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์ ์ด๊ฑฐ๋‚˜ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ณ€ํ™”๊ฐ€ ์‹ฌํ•œ ์žฅ๋ฉด, ํ˜น์€ ๊ทน๋„๋กœ ํฌ์†Œํ•œ(Sparse) ๋ฐ์ดํ„ฐ์—์„œ์˜ ์„ฑ๋Šฅ์€ ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•ด์„œ ํ•™์Šตํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์—ฐ์‚ฐ ๋น„์šฉ์ด ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ €์ž๋“ค์€ Utonia์˜ ํ‘œํ˜„ ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•˜์—ฌ ๋” ๋ณต์žกํ•œ ๊ณต๊ฐ„ ์ถ”๋ก (Spatial Reasoning)์ด๋‚˜ ๋น„์ „-์–ธ์–ด-ํ–‰๋™(Vision-Language-Action) ๋ชจ๋ธ์— ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ๋‹จ์ˆœํžˆ ์‚ฌ๋ฌผ์„ ์ธ์‹ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, โ€œ์ด ์ฑ…์ƒ ์œ„์— ๋ฌผ๊ฑด์„ ์˜ฌ๋ ค๋†”โ€๋ผ๋Š” ๋ณต์žกํ•œ ์ง€์‹œ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ Utonia์˜ ๊ธฐํ•˜ํ•™์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ตฌ๊ฐ€ ์ด์–ด์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

  • ์ž์œจ์ฃผํ–‰ ์ž๋™์ฐจ: ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ(๋„์‹œ, ๊ต์™ธ, ํ„ฐ๋„ ๋“ฑ)์—์„œ ์ˆ˜์ง‘๋˜๋Š” ๋ผ์ด๋‹ค ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ์ธ์‹ ์„ฑ๋Šฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ (Robotic Manipulation): ๊ณต์žฅ์—์„œ์˜ ๋ถ€ํ’ˆ ์ธ์‹๋ถ€ํ„ฐ ๊ฐ€์ • ๋‚ด์˜ ๊ฐ€๊ตฌ ํŒŒ์•…๊นŒ์ง€, ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์˜ ๋ฌผ์ฒด๋ฅผ ์žก๊ณ  ๋‹ค๋ฃจ๋Š” ๋กœ๋ด‡ ์ œ์–ด ์‹œ์Šคํ…œ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  • ์ฆ๊ฐ• ํ˜„์‹ค(AR) / ๊ฐ€์ƒ ํ˜„์‹ค(VR): ์‹ค๋‚ด ๊ณต๊ฐ„์„ ์Šค์บ”ํ•˜์—ฌ ๊ฐ€๊ตฌ๋ฅผ ๋ฐฐ์น˜ํ•˜๋Š” ๋“ฑ์˜ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‚ฌ์šฉ์ž ํ™˜๊ฒฝ์„ ๋น ๋ฅด๊ฒŒ ์ดํ•ดํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • GPU: Point Transformer V3 ๋ฐฑ๋ณธ๊ณผ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉ ํ•™์Šตํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๊ณ ์„ฑ๋Šฅ์˜ GPU(A100 ๋“ฑ)๊ฐ€ ๋‹ค์ˆ˜ ์žฅ์ฐฉ๋œ ์„œ๋ฒ„ ํ™˜๊ฒฝ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ: ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ๋ฐ์ดํ„ฐ์…‹(ScanNet, Waymo, ShapeNet ๋“ฑ)์„ ํ™•๋ณดํ•˜๊ณ  ์ „์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Point Cloud (์ ๊ตฐ): 3D ๊ณต๊ฐ„์ƒ์˜ ์ ๋“ค์˜ ์ง‘ํ•ฉ์œผ๋กœ, x, y, z ์ขŒํ‘œ ์ •๋ณด๋ฅผ ๊ฐ€์ง€๋ฉฐ ์ฃผ๋กœ ๋ผ์ด๋‹ค๋‚˜ ์Šค์บ๋„ˆ๋กœ ํš๋“ํ•ฉ๋‹ˆ๋‹ค.
  • Self-Supervised Learning (์ž๊ธฐ ์ง€๋„ ํ•™์Šต): ๋ณ„๋„์˜ ์ •๋‹ต ๋ผ๋ฒจ์ด ์—†์ด ๋ฐ์ดํ„ฐ ์ž์ฒด์—์„œ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • Transformer: ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ ๋‚ด ์š”์†Œ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ๊ตฌ์กฐ๋กœ, Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • RoPE (Rotary Positional Embedding): ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์—์„œ ํ† ํฐ์˜ ์ƒ๋Œ€์  ์œ„์น˜ ์ •๋ณด๋ฅผ ํšŒ์ „ ํ–‰๋ ฌ์„ ํ†ตํ•ด ์ธ์ฝ”๋”ฉํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • Fine-tuning (๋ฏธ์„ธ ์กฐ์ •): ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ(Pre-trained model)์„ ๊ฐ€์ ธ์™€์„œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์— ๋งž์ถฐ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  • Linear Probing: ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ ์ •ํ•˜๊ณ , ๋งˆ์ง€๋ง‰ ๋ถ„๋ฅ˜๊ธฐ ๋ ˆ์ด์–ด ํ•˜๋‚˜๋งŒ ํ•™์Šต์‹œ์ผœ ๋ชจ๋ธ์˜ ํ‘œํ˜„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Utonia: Toward One Encoder for All โ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆHeterogeneous Agent Collaborative Rโ€ฆDD-037
๐Ÿฅ‰OmniLottie: Generating Vector Animaโ€ฆDD-038
4.Helios: Real Real-Time Long Video Gโ€ฆDD-039
5.From Scale to Speed: Adaptive Test-โ€ฆDD-040

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-08 | ๐Ÿค– GLM-4.7 Deep Dive