โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-017 Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

arXiv: 2602.00919 ๊ธฐ๊ด€: Sber Robotics Center Upvotes: 236 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


Green-VLA: Staged Vision-Language-Action Model for Generalist Robots ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋น„์ „-์–ธ์–ด-ํ–‰๋™(VLA) ๋ชจ๋ธ์€ ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ ์–‘์„ ๋Š˜๋ฆฌ๋Š” ๋ฐฉ์‹์— ์˜์กดํ•˜์—ฌ, ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ ์ €ํ•˜(ํ”๋“ค๋ฆผ, ํ๋ฆฟํ•จ ๋“ฑ)์™€ ๋‹จ์ˆœ ๋ชจ๋ฐฉ(Behavior Cloning)์˜ ํ•œ๊ณ„๋กœ ์ธํ•ด ๊ธด ์‹œ๊ฐ„์˜ ์ž‘์—…(Long-horizon task)์—์„œ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ โ€˜๋‹จ๊ณ„์  ์ปค๋ฆฌํ˜๋Ÿผ(Staged Curriculum)โ€™ ํ•™์Šต ์ „๋žต์„ ํ†ตํ•ด ์–ธ์–ด/์ด๋ฏธ์ง€ ์ดํ•ด ๋Šฅ๋ ฅ๋ถ€ํ„ฐ ๋กœ๋ด‡ ํŠนํ™” ์ œ์–ด, ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜์˜ ์ •์ฑ… ์ •๋ ฌ๊นŒ์ง€ ์ˆœ์ฐจ์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ด์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡(Embodiment)์—๊ฒŒ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋ฉด์„œ๋„ ๋ณต์žกํ•œ ์žฅ๊ธฐ ์ž‘์—…์„ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ๋กœ๋ด‡ ๊ตฌํ˜„์— ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿซ โ€œํ•™๊ต ๊ต์œก๊ณผ์ •โ€๊ณผ ๊ฐ™์€ ๋‹จ๊ณ„๋ณ„ ํ•™์Šต

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์ธ โ€˜๋‹จ๊ณ„์ (Staged)โ€™ ์ ‘๊ทผ๋ฒ•์„ ์šฐ๋ฆฌ๊ฐ€ ํ•™๊ต์— ๋‹ค๋‹ˆ๋Š” ๊ณผ์ •์— ๋น„์œ ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๋กœ๋ด‡์€ ์ดˆ๋“ฑํ•™๊ต 1ํ•™๋…„ ๊ต๊ณผ์„œ์™€ ๋Œ€ํ•™์› ์ „๊ณต ์„œ์ ์„ ํ•œ๊บผ๋ฒˆ์— ์„ž์–ด์„œ ์™ธ์šฐ๋ผ๊ณ  ์‹œํ‚ค๋Š” ๊ฒƒ๊ณผ ๊ฐ™์•˜์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ Green-VLA๋Š” ์ฒด๊ณ„์ ์ธ ์ปค๋ฆฌํ˜๋Ÿผ์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

  1. L0 (Foundational VLMs) - ์œ ์น˜์›/์ดˆ๋“ฑํ•™๊ต (๊ธฐ์ดˆ ์ง€์‹):
    • ๋กœ๋ด‡์—๊ฒŒ โ€œ์‚ฌ๊ณผโ€, โ€œํŒŒ๋ž€์ƒ‰โ€, โ€œ์žก์•„๋ผโ€ ๊ฐ™์€ ๊ธฐ๋ณธ์ ์ธ ๊ฐœ๋…์„ ์ด๋ฏธ์ง€์™€ ์–ธ์–ด๋กœ ์ดํ•ด์‹œํ‚ค๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. GPT-4V๋‚˜ CLIP ๊ฐ™์€ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์ด ์ด๋ฏธ ๊ฐ€์ง„ ์ง€๋Šฅ์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  2. L1 (Multimodal Grounding) - ์ค‘ํ•™๊ต (์—ฐ๊ฒฐํ•˜๊ธฐ):
    • โ€œ์‚ฌ๊ณผโ€๋ผ๋Š” ๋‹จ์–ด์™€ ์‹ค์ œ ์นด๋ฉ”๋ผ์— ๋ณด์ด๋Š” ์‚ฌ๊ณผ ๊ฐ์ฒด๋ฅผ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ๋งํ•˜๋Š” ๋Œ€์ƒ์ด ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ฌด์—‡์ธ์ง€ ๋งคํ•‘ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  3. R0 (Multi-embodiment Pretraining) - ๊ณ ๋“ฑํ•™๊ต (๋ฒ”์šฉ ํ›ˆ๋ จ):
    • ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๋กœ๋ด‡(ํŒ”์ด 2๊ฐœ์ธ ๋กœ๋ด‡, ๋ฐ”ํ€ด๊ฐ€ ๋‹ฌ๋ฆฐ ๋กœ๋ด‡ ๋“ฑ)์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์„ž์–ด์„œ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. โ€œ๋ฌผ๊ฑด์„ ์ง‘๋Š”๋‹คโ€๋Š” ํ–‰๋™์ด ๋กœ๋ด‡์˜ ๋ชจ์–‘๊ณผ ์ƒ๊ด€์—†์ด ๋ณธ์งˆ์ ์œผ๋กœ ๋น„์Šทํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐฐ์›๋‹ˆ๋‹ค.
  4. R1 (Embodiment-specific Adaptation) - ๋Œ€ํ•™๊ต (์ „๊ณต ์‹ฌํ™”):
    • ์ด์ œ ์‹ค์ œ๋กœ ์ œ์–ดํ•  โ€˜๊ทธ๋ฆฐ(Green)โ€™ ๋กœ๋ด‡์ด๋ผ๋Š” ํŠน์ • ์‹ ์ฒด์— ๋งž์ถฐ ํŠœ๋‹ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋กœ๋ด‡์˜ ํŒ” ๊ธธ์ด, ์†๊ฐ€๋ฝ์˜ ํž˜ ๋“ฑ์„ ์ตํ˜€ ์ž์‹ ์˜ ๋ชธ์— ์ ์‘ํ•ฉ๋‹ˆ๋‹ค.
  5. R2 (RL-based Policy Alignment) - ์ง์žฅ ์‹ค๋ฌด (๋ชฉํ‘œ ์ง€ํ–ฅ ์„ฑ์žฅ):
    • ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์„ ์ƒ๋‹˜(์ธ๊ฐ„)์˜ ๋™์ž‘์„ ๋”ฐ๋ผ ํ•˜๊ธฐ๋งŒ ํ•˜๋ฉด(๋‹จ์ˆœ ๋ชจ๋ฐฉ), ์„ ์ƒ๋‹˜์ด ๋„˜์–ด์ ธ๋„ ๋กœ๋ด‡๋„ ๋„˜์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ํ†ตํ•ด โ€œ๊ฒฐ๊ตญ ๋ฌผ๊ฑด์„ ๊นจ๋œจ๋ฆฌ์ง€ ์•Š๊ณ  ์˜ฎ๊ฒจ์•ผ ํ•œ๋‹คโ€๋Š” **์ตœ์ข… ๋ชฉํ‘œ(๋ณด์ƒ)**๋ฅผ ๋งž์ถ”๋„๋ก ํ–‰๋™์„ ๊ต์ •ํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ํ‰๋‚ด ๋‚ด๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์‹ค์ˆ˜๋ฅผ ์ˆ˜์ •ํ•˜๊ณ  ๋” ๋‚˜์€ ๋ฐฉ๋ฒ•์„ ์Šค์Šค๋กœ ์ฐพ๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

๐Ÿงฎ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ์ˆ˜์‹

๊ธฐ์กด ๋Œ€๋ถ€๋ถ„์˜ ๋กœ๋ด‡ ํ•™์Šต์€ **ํ–‰๋™ ๋ณต์ œ(Behavior Cloning, BC)**๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. $$L_{BC} = E_{(s,a) \sim D} [|| \pi_\theta(s) - a ||^2]$$ ์ด ์‹์€ ๋กœ๋ด‡์ด ์ƒํƒœ($s$)๋ฅผ ๋ณด์•˜์„ ๋•Œ, ์ธ๊ฐ„์ด ํ–ˆ๋˜ ํ–‰๋™($a$)๊ณผ ๋˜‘๊ฐ™์ด ํ•˜๋„๋ก($\pi_\theta$) ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ผ๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ธ๊ฐ„์˜ ๋ฐ์ดํ„ฐ์— ์‹ค์ˆ˜๊ฐ€ ์žˆ๊ฑฐ๋‚˜, ๋กœ๋ด‡์ด ์•ฝ๊ฐ„ ์œ„์น˜๊ฐ€ ์–ด๊ธ‹๋‚˜๋ฉด ์˜ค์ฐจ๊ฐ€ ๋ˆˆ๋ฉ์ด์ฒ˜๋Ÿผ ์ปค์ง‘๋‹ˆ๋‹ค.

Green-VLA๋Š” ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„(R2)์—์„œ **๊ฐ•ํ™”ํ•™์Šต(RL)**์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ โ€œ์ธ๊ฐ„์˜ ํ–‰๋™ $a$์™€ ๋น„์Šทํ•˜๊ฒŒโ€๊ฐ€ ์•„๋‹ˆ๋ผ, โ€œ์ž‘์—…์ด ์„ฑ๊ณต์ ์œผ๋กœ ๋๋‚ฌ๋Š”๊ฐ€?โ€์— ๋Œ€ํ•œ **๋ณด์ƒ(Reward)**์„ ๊ธฐ์ค€์œผ๋กœ ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡์€ ์ˆœ๊ฐ„์ ์ธ ๋™์ž‘ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ **๋ฏธ๋ž˜์˜ ๊ฒฐ๊ณผ(Long-horizon)**๋ฅผ ๊ณ ๋ คํ•ด ํ–‰๋™ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ œ๊ณต๋œ ๋…ผ๋ฌธ ์ดˆ๋ก(Introduction) ๋ถ€๋ถ„์—์„œ๋Š” ๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜(์˜ˆ: ์„ฑ๊ณต๋ฅ  95.2% ๋“ฑ)๊ฐ€ ๋ช…์‹œ๋˜์–ด ์žˆ์ง€ ์•Š์œผ๋‚˜, ์ €์ž๋“ค์ด ์ฃผ์žฅํ•˜๋Š” ์„ฑ๊ณผ์™€ ๊ธฐ์กด ๋ชจ๋ธ๋“ค($\pi 0$, GR00T ๋“ฑ)๊ณผ์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ:
    • ์‹ค์ œ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์ธ โ€˜Green Robotโ€™์„ ๋Œ€์ƒ์œผ๋กœ ์‹ค์ œ ๋ฌผ๋ฆฌ ํ™˜๊ฒฝ(Real-world)์—์„œ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋กœ๋ด‡(Multi-embodiment)๊ณผ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ธฐ์กด SOTA(State-of-the-art) ๋Œ€๋น„ ์„ฑ๊ณผ:
    • ์žฅ๊ธฐ ์ž‘์—…(Long-horizon) ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ: ๊ธฐ์กด ๋ชจ๋ธ์ธ $\pi 0$๋‚˜ GR00T๊ฐ€ ์ฃผ๋กœ ๋‹จ์ˆœํ•œ ํ–‰๋™ ๋ณต์ œ์— ์ง‘์ค‘ํ•˜์—ฌ ๊ธด ์ž‘์—…์—์„œ ์ค‘๊ฐ„์— ์‹คํŒจํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋Š” ๋ฐ˜๋ฉด, Green-VLA๋Š” RL ๊ธฐ๋ฐ˜ ์ •์ฑ… ์ •๋ ฌ(R2 ๋‹จ๊ณ„)์„ ํ†ตํ•ด ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•  ๋•Œ๊นŒ์ง€ ์ง€์†์ ์œผ๋กœ ์ž‘์—…์„ ์ด์–ด๊ฐ€๋Š” ๋Šฅ๋ ฅ์ด ํ›จ์”ฌ ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค.
    • ๋‚ด๊ตฌ์„ฑ(Robustness): ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆ์™„์ „ํ•˜๊ฑฐ๋‚˜(Blurry frames, Jitter) ํ™˜๊ฒฝ์ด ๋‹ฌ๋ผ์ ธ๋„, L0๋ถ€ํ„ฐ R1๊นŒ์ง€ ํ•™์Šต๋œ โ€˜์‚ฌ์ „ ์ง€์‹(Priors)โ€™ ๋•๋ถ„์— ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋œ ๋‹นํ™ฉํ•˜๊ณ  ์ž˜ ๋Œ€์ฒ˜ํ•ฉ๋‹ˆ๋‹ค.
  • ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ:
    • ๋‹จ์ˆœํžˆ โ€œํ•˜๋Š” ๋ฒ•์„ ๋ณด์—ฌ์ฃผ๊ณ  ๋”ฐ๋ผ ํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒโ€์„ ๋„˜์–ด, ์–ธ์–ด ๋ช…๋ น์„ ์ดํ•ดํ•˜๊ณ  ๋ฌผ๋ฆฌ์  ๋ฒ•์น™๊ณผ ๋กœ๋ด‡์˜ ์‹ ์ฒด ์ œ์•ฝ์„ ๊ณ ๋ คํ•˜์—ฌ ์Šค์Šค๋กœ ํ–‰๋™์„ ์ˆ˜์ •ํ•˜๋Š” ๋ฒ”์šฉ์ง€(Generalist) ๋Šฅ๋ ฅ์„ ์‹ค์ œ ๋กœ๋ด‡์—์„œ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ๋ฐ์ดํ„ฐ ํ€„๋ฆฌํ‹ฐ์™€ ์–‘์˜ ๋”œ๋ ˆ๋งˆ:
    • ๋…ผ๋ฌธ์—์„œ๋„ ์–ธ๊ธ‰ํ–ˆ๋“ฏ, ์—ฌ์ „ํžˆ ํ˜„์‹ค์˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋Š” ํ”๋“ค๋ฆฌ๊ฑฐ๋‚˜(Jitter), ํ๋ฆฌ๊ฑฐ๋‚˜(Blurry), ์žฅ๋ฉด์˜ ๋‹ค์–‘์„ฑ์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ โ€œ๋”๋Ÿฌ์šด ๋ฐ์ดํ„ฐโ€๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ •์ œํ•˜๊ณ  ํ•™์Šต์— ํ™œ์šฉํ•˜๋А๋ƒ๊ฐ€ ์—ฌ์ „ํ•œ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.
  • ๊ฐ•ํ™”ํ•™์Šต(RL)์˜ ์–ด๋ ค์›€:
    • ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์ธ R2(RL-based alignment)๋Š” ์‹ค์ œ ๋กœ๋ด‡์—์„œ ์ˆ˜ํ–‰ํ•˜๊ธฐ์— ๋งค์šฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ์œ„ํ—˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(๋กœ๋ด‡์ด ์‹คํ—˜ํ•˜๋‹ค๊ฐ€ ๋ถ€๋Ÿฌ์งˆ ์ˆ˜ ์žˆ์Œ). ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ํ™˜๊ฒฝ ๊ฐ„์˜ ๊ฒฉ์ฐจ(Sim-to-Real Gap)๋ฅผ ์ค„์ด๋Š” ๊ธฐ์ˆ ์ด ์ถ”๊ฐ€๋กœ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:
    • ๋” ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋กœ๋ด‡(Embodiment)๊ณผ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์Šค์ผ€์ผ์„ ํ‚ค์šฐ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ๊ณ ์ˆ˜์ค€์˜ ์ถ”๋ก (Reasoning) ๋Šฅ๋ ฅ๊ณผ ์ €์ˆ˜์ค€์˜ ์ œ์–ด(Control) ๋Šฅ๋ ฅ์„ ๋” ๊ธด๋ฐ€ํ•˜๊ฒŒ ์—ฐ๊ฒฐํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜ ์—ฐ๊ตฌ๊ฐ€ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ์ ์šฉ ๊ฐ€๋Šฅ ๋ถ„์•ผ:
    • ๋ฌผ๋ฅ˜/์ฐฝ๊ณ : ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์™€ ๋ชจ์–‘์˜ ์ƒ์ž๋ฅผ ์‹๋ณ„ํ•˜๊ณ , ์ƒ์ž์˜ ์œ„์น˜๊ฐ€ ๋ฐ”๋€Œ์–ด๋„ ์ ์‘ํ•ด์„œ ์ ์žฌํ•˜๋Š” ๋กœ๋ด‡.
    • ์„œ๋น„์Šค ๋กœ๋ด‡: ๊ฐ€์ •์ด๋‚˜ ์‹๋‹น์—์„œ โ€œ์ฃผ๋ฐฉ์— ์žˆ๋Š” ๋นจ๊ฐ„ ์ปต์„ ๊ฐ€์ ธ๋‹ค ์ค˜โ€๋ผ๋Š” ๋ณต์žกํ•œ ๋ช…๋ น์„ ์ดํ•ดํ•˜๊ณ  ์žฅ์• ๋ฌผ์„ ํ”ผํ•ด ์ˆ˜ํ–‰ํ•˜๋Š” ๋กœ๋ด‡.
    • ์ œ์กฐ ๋ผ์ธ: ๊ณต์ •์ด ๋ฐ”๋€Œ๋”๋ผ๋„ ์†Œํ”„ํŠธ์›จ์–ด ์—…๋ฐ์ดํŠธ ์—†์ด ์–ธ์–ด ๋ช…๋ น๋งŒ์œผ๋กœ ์ƒˆ๋กœ์šด ์ž‘์—…์„ ๋ฐ”๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ์œ ์—ฐํ•œ ์ž๋™ํ™” ์‹œ์Šคํ…œ.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค:
    • ์ปดํ“จํŒ… ํŒŒ์›Œ: ๊ฑฐ๋Œ€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM) ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ ํ•™์Šต์—๋Š” ์ˆ˜๋ฐฑ ์žฅ์˜ ๊ณ ์„ฑ๋Šฅ GPU(A100/H100 ๋“ฑ) ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ: ๋‹ค์–‘ํ•œ ๋กœ๋ด‡๊ณผ ํ™˜๊ฒฝ์—์„œ ์ˆ˜์ง‘ํ•œ ๋Œ€๊ทœ๋ชจ์˜ ์‹œ๊ฐ-์–ธ์–ด-ํ–‰๋™ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
    • ์ถ”๋ก  ํ™˜๊ฒฝ: ์‹ค์ œ ๋กœ๋ด‡์— ํƒ‘์žฌ ์‹œ์—๋Š” ์ง€์—ฐ ์‹œ๊ฐ„(Latency)์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ์ตœ์ ํ™”(์–‘์žํ™”, Edge GPU ๋“ฑ)๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Vision-Language-Action (VLA) Model: ์ด๋ฏธ์ง€(๋น„์ „)์™€ ํ…์ŠคํŠธ(์–ธ์–ด)๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ๋กœ๋ด‡์˜ ํ–‰๋™(Action)์„ ์ถœ๋ ฅํ•˜๋Š” ํ†ตํ•ฉ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  2. Embodiment (๊ตฌ์ฒดํ™”/์‹ค์ฒดํ™”): AI๋‚˜ ๋กœ๋ด‡์ด ๊ฐ€์ง€๋Š” ๋ฌผ๋ฆฌ์ ์ธ ๋ชธ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ํŒ”์˜ ๊ธธ์ด, ์นด๋ฉ”๋ผ์˜ ์œ„์น˜, ๋ฐ”ํ€ด์˜ ๊ฐœ์ˆ˜ ๋“ฑ์„ ์˜๋ฏธํ•˜๋ฉฐ, ์ด๋ฅผ ๋ฐ”๊พธ๋ฉด ํ–‰๋™ ๋ฐฉ์‹๋„ ๋‹ฌ๋ผ์ ธ์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  3. Behavior Cloning (BC, ํ–‰๋™ ๋ณต์ œ): ์ธ๊ฐ„์ด๋‚˜ ์ „๋ฌธ๊ฐ€๊ฐ€ ๋ณด์—ฌ์ค€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๋”ฐ๋ผ ํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ์ง€๋„ ํ•™์Šต์˜ ์ผ์ข…์ž…๋‹ˆ๋‹ค.
  4. Reinforcement Learning (RL, ๊ฐ•ํ™” ํ•™์Šต): ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๊ธฐ๊ณ„ ํ•™์Šต ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  5. Affordance (์–ดํฌ๋˜์Šค): ์‚ฌ๋ฌผ์ด ์ œ๊ณตํ•˜๋Š” ํ–‰๋™ ๊ฐ€๋Šฅ์„ฑ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€˜์†์žก์ดโ€™๋Š” โ€œ์žก์„ ์ˆ˜ ์žˆ๋‹คโ€๋Š” affordance๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  6. Fine-tuning (ํŒŒ์ธ ํŠœ๋‹): ์ด๋ฏธ ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์ด๋‚˜ ๋ฐ์ดํ„ฐ์— ๋งž์ถฐ ์ถ”๊ฐ€์ ์œผ๋กœ ๋ฏธ์„ธํ•˜๊ฒŒ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  7. Long-horizon Task (์žฅ๊ธฐ ์ž‘์—…): ๋‹จ์ˆœํžˆ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ง‘์–ด์„œ ๋“ค๊ณ  ์˜ฎ๊ฒจ์„œ ๋†“๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๊ฐ€ ์—ฐ์†๋œ ๋ณต์žกํ•œ ์ž‘์—…์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Green-VLA: Staged Vision-Language-Aโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆERNIE 5.0 Technical ReportDD-016
๐Ÿฅ‰Kimi K2.5: Visual Agentic Intelligeโ€ฆDD-018
4.Vision-DeepResearch: Incentivizing โ€ฆDD-019
5.PaperBanana: Automating Academic Ilโ€ฆDD-020

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-08 | ๐Ÿค– GLM-4.7 Deep Dive