โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-017 Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
arXiv: 2602.00919 ๊ธฐ๊ด: Sber Robotics Center Upvotes: 236 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 1
Green-VLA: Staged Vision-Language-Action Model for Generalist Robots ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋น์ -์ธ์ด-ํ๋(VLA) ๋ชจ๋ธ์ ๋จ์ํ ๋ฐ์ดํฐ ์์ ๋๋ฆฌ๋ ๋ฐฉ์์ ์์กดํ์ฌ, ๋ฐ์ดํฐ์ ํ์ง ์ ํ(ํ๋ค๋ฆผ, ํ๋ฆฟํจ ๋ฑ)์ ๋จ์ ๋ชจ๋ฐฉ(Behavior Cloning)์ ํ๊ณ๋ก ์ธํด ๊ธด ์๊ฐ์ ์์ (Long-horizon task)์์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ โ๋จ๊ณ์ ์ปค๋ฆฌํ๋ผ(Staged Curriculum)โ ํ์ต ์ ๋ต์ ํตํด ์ธ์ด/์ด๋ฏธ์ง ์ดํด ๋ฅ๋ ฅ๋ถํฐ ๋ก๋ด ํนํ ์ ์ด, ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ฑ ์ ๋ ฌ๊น์ง ์์ฐจ์ ์ผ๋ก ํ์ต์ํด์ผ๋ก์จ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ต๋๋ค. ์ด๋ ์ค์ ํ๊ฒฝ์์ ๋ค์ํ ๋ก๋ด(Embodiment)์๊ฒ ์ ์ฉ ๊ฐ๋ฅํ๋ฉด์๋ ๋ณต์กํ ์ฅ๊ธฐ ์์ ์ ์์ ์ ์ผ๋ก ์ํํ ์ ์๋ ๋ฒ์ฉ ๋ก๋ด ๊ตฌํ์ ์ค์ํ ์ด์ ํ๊ฐ ๋ฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ซ โํ๊ต ๊ต์ก๊ณผ์ โ๊ณผ ๊ฐ์ ๋จ๊ณ๋ณ ํ์ต
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ธ โ๋จ๊ณ์ (Staged)โ ์ ๊ทผ๋ฒ์ ์ฐ๋ฆฌ๊ฐ ํ๊ต์ ๋ค๋๋ ๊ณผ์ ์ ๋น์ ํด ๋ณด๊ฒ ์ต๋๋ค. ๊ธฐ์กด ๋ก๋ด์ ์ด๋ฑํ๊ต 1ํ๋ ๊ต๊ณผ์์ ๋ํ์ ์ ๊ณต ์์ ์ ํ๊บผ๋ฒ์ ์์ด์ ์ธ์ฐ๋ผ๊ณ ์ํค๋ ๊ฒ๊ณผ ๊ฐ์์ต๋๋ค. ํ์ง๋ง Green-VLA๋ ์ฒด๊ณ์ ์ธ ์ปค๋ฆฌํ๋ผ์ ๋ฐ๋ฆ ๋๋ค.
- L0 (Foundational VLMs) - ์ ์น์/์ด๋ฑํ๊ต (๊ธฐ์ด ์ง์):
- ๋ก๋ด์๊ฒ โ์ฌ๊ณผโ, โํ๋์โ, โ์ก์๋ผโ ๊ฐ์ ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋ ์ ์ด๋ฏธ์ง์ ์ธ์ด๋ก ์ดํด์ํค๋ ๋จ๊ณ์ ๋๋ค. GPT-4V๋ CLIP ๊ฐ์ ๊ฑฐ๋ ๋ชจ๋ธ์ด ์ด๋ฏธ ๊ฐ์ง ์ง๋ฅ์ ํ์ฉํฉ๋๋ค.
- L1 (Multimodal Grounding) - ์คํ๊ต (์ฐ๊ฒฐํ๊ธฐ):
- โ์ฌ๊ณผโ๋ผ๋ ๋จ์ด์ ์ค์ ์นด๋ฉ๋ผ์ ๋ณด์ด๋ ์ฌ๊ณผ ๊ฐ์ฒด๋ฅผ ์ฐ๊ฒฐํฉ๋๋ค. ๋งํ๋ ๋์์ด ํ์ค ์ธ๊ณ์ ๋ฌด์์ธ์ง ๋งคํํ๋ ๊ณผ์ ์ ๋๋ค.
- R0 (Multi-embodiment Pretraining) - ๊ณ ๋ฑํ๊ต (๋ฒ์ฉ ํ๋ จ):
- ์ฌ๋ฌ ์ข ๋ฅ์ ๋ก๋ด(ํ์ด 2๊ฐ์ธ ๋ก๋ด, ๋ฐํด๊ฐ ๋ฌ๋ฆฐ ๋ก๋ด ๋ฑ)์ ๋ฐ์ดํฐ๋ฅผ ์์ด์ ํ์ตํฉ๋๋ค. โ๋ฌผ๊ฑด์ ์ง๋๋คโ๋ ํ๋์ด ๋ก๋ด์ ๋ชจ์๊ณผ ์๊ด์์ด ๋ณธ์ง์ ์ผ๋ก ๋น์ทํ๋ค๋ ๊ฒ์ ๋ฐฐ์๋๋ค.
- R1 (Embodiment-specific Adaptation) - ๋ํ๊ต (์ ๊ณต ์ฌํ):
- ์ด์ ์ค์ ๋ก ์ ์ดํ โ๊ทธ๋ฆฐ(Green)โ ๋ก๋ด์ด๋ผ๋ ํน์ ์ ์ฒด์ ๋ง์ถฐ ํ๋ํฉ๋๋ค. ์ด ๋ก๋ด์ ํ ๊ธธ์ด, ์๊ฐ๋ฝ์ ํ ๋ฑ์ ์ตํ ์์ ์ ๋ชธ์ ์ ์ํฉ๋๋ค.
- R2 (RL-based Policy Alignment) - ์ง์ฅ ์ค๋ฌด (๋ชฉํ ์งํฅ ์ฑ์ฅ):
- ๊ฐ์ฅ ์ค์ํ ๋จ๊ณ์ ๋๋ค. ์ ์๋(์ธ๊ฐ)์ ๋์์ ๋ฐ๋ผ ํ๊ธฐ๋ง ํ๋ฉด(๋จ์ ๋ชจ๋ฐฉ), ์ ์๋์ด ๋์ด์ ธ๋ ๋ก๋ด๋ ๋์ด์ง ์ ์์ต๋๋ค. ๊ฐํํ์ต(RL)์ ํตํด โ๊ฒฐ๊ตญ ๋ฌผ๊ฑด์ ๊นจ๋จ๋ฆฌ์ง ์๊ณ ์ฎ๊ฒจ์ผ ํ๋คโ๋ **์ต์ข ๋ชฉํ(๋ณด์)**๋ฅผ ๋ง์ถ๋๋ก ํ๋์ ๊ต์ ํฉ๋๋ค. ๋จ์ํ ํ๋ด ๋ด๋ ๊ฒ์ ๋์ด, ์ค์๋ฅผ ์์ ํ๊ณ ๋ ๋์ ๋ฐฉ๋ฒ์ ์ค์ค๋ก ์ฐพ๋ ๋จ๊ณ์ ๋๋ค.
๐งฎ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์์
๊ธฐ์กด ๋๋ถ๋ถ์ ๋ก๋ด ํ์ต์ **ํ๋ ๋ณต์ (Behavior Cloning, BC)**๋ฅผ ์ฌ์ฉํ์ต๋๋ค. $$L_{BC} = E_{(s,a) \sim D} [|| \pi_\theta(s) - a ||^2]$$ ์ด ์์ ๋ก๋ด์ด ์ํ($s$)๋ฅผ ๋ณด์์ ๋, ์ธ๊ฐ์ด ํ๋ ํ๋($a$)๊ณผ ๋๊ฐ์ด ํ๋๋ก($\pi_\theta$) ์ค์ฐจ๋ฅผ ์ต์ํํ๋ผ๋ ๋ป์ ๋๋ค. ํ์ง๋ง ์ธ๊ฐ์ ๋ฐ์ดํฐ์ ์ค์๊ฐ ์๊ฑฐ๋, ๋ก๋ด์ด ์ฝ๊ฐ ์์น๊ฐ ์ด๊ธ๋๋ฉด ์ค์ฐจ๊ฐ ๋๋ฉ์ด์ฒ๋ผ ์ปค์ง๋๋ค.
Green-VLA๋ ๋ง์ง๋ง ๋จ๊ณ(R2)์์ **๊ฐํํ์ต(RL)**์ ๊ฒฐํฉํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ๋จ์ํ โ์ธ๊ฐ์ ํ๋ $a$์ ๋น์ทํ๊ฒโ๊ฐ ์๋๋ผ, โ์์ ์ด ์ฑ๊ณต์ ์ผ๋ก ๋๋ฌ๋๊ฐ?โ์ ๋ํ **๋ณด์(Reward)**์ ๊ธฐ์ค์ผ๋ก ์ ์ฑ ์ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด์ ์๊ฐ์ ์ธ ๋์ ๋ฟ๋ง ์๋๋ผ **๋ฏธ๋์ ๊ฒฐ๊ณผ(Long-horizon)**๋ฅผ ๊ณ ๋ คํด ํ๋ํ๊ฒ ๋ฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ ๊ณต๋ ๋ ผ๋ฌธ ์ด๋ก(Introduction) ๋ถ๋ถ์์๋ ๊ตฌ์ฒด์ ์ธ ์์น(์: ์ฑ๊ณต๋ฅ 95.2% ๋ฑ)๊ฐ ๋ช ์๋์ด ์์ง ์์ผ๋, ์ ์๋ค์ด ์ฃผ์ฅํ๋ ์ฑ๊ณผ์ ๊ธฐ์กด ๋ชจ๋ธ๋ค($\pi 0$, GR00T ๋ฑ)๊ณผ์ ๋น๊ต๋ฅผ ํตํด ๋ค์๊ณผ ๊ฐ์ด ๋ถ์ํ ์ ์์ต๋๋ค.
- ํ
์คํธ ํ๊ฒฝ:
- ์ค์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ธ โGreen Robotโ์ ๋์์ผ๋ก ์ค์ ๋ฌผ๋ฆฌ ํ๊ฒฝ(Real-world)์์ ํ ์คํธํ์ต๋๋ค.
- ๋ค์ํ ํํ์ ๋ก๋ด(Multi-embodiment)๊ณผ ํ๊ฒฝ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ฐํ์ต๋๋ค.
- ๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ฑ๊ณผ:
- ์ฅ๊ธฐ ์์ (Long-horizon) ์ํ ๋ฅ๋ ฅ: ๊ธฐ์กด ๋ชจ๋ธ์ธ $\pi 0$๋ GR00T๊ฐ ์ฃผ๋ก ๋จ์ํ ํ๋ ๋ณต์ ์ ์ง์คํ์ฌ ๊ธด ์์ ์์ ์ค๊ฐ์ ์คํจํ๋ ๊ฒฝํฅ์ด ์๋ ๋ฐ๋ฉด, Green-VLA๋ RL ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ ฌ(R2 ๋จ๊ณ)์ ํตํด ๋ชฉํ๋ฅผ ๋ฌ์ฑํ ๋๊น์ง ์ง์์ ์ผ๋ก ์์ ์ ์ด์ด๊ฐ๋ ๋ฅ๋ ฅ์ด ํจ์ฌ ๋ฐ์ด๋ฉ๋๋ค.
- ๋ด๊ตฌ์ฑ(Robustness): ๋ฐ์ดํฐ๊ฐ ๋ถ์์ ํ๊ฑฐ๋(Blurry frames, Jitter) ํ๊ฒฝ์ด ๋ฌ๋ผ์ ธ๋, L0๋ถํฐ R1๊น์ง ํ์ต๋ โ์ฌ์ ์ง์(Priors)โ ๋๋ถ์ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ๋ ๋นํฉํ๊ณ ์ ๋์ฒํฉ๋๋ค.
- ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ:
- ๋จ์ํ โํ๋ ๋ฒ์ ๋ณด์ฌ์ฃผ๊ณ ๋ฐ๋ผ ํ๊ฒ ํ๋ ๊ฒโ์ ๋์ด, ์ธ์ด ๋ช ๋ น์ ์ดํดํ๊ณ ๋ฌผ๋ฆฌ์ ๋ฒ์น๊ณผ ๋ก๋ด์ ์ ์ฒด ์ ์ฝ์ ๊ณ ๋ คํ์ฌ ์ค์ค๋ก ํ๋์ ์์ ํ๋ ๋ฒ์ฉ์ง(Generalist) ๋ฅ๋ ฅ์ ์ค์ ๋ก๋ด์์ ์ ์ฆํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ฐ์ดํฐ ํ๋ฆฌํฐ์ ์์ ๋๋ ๋ง:
- ๋ ผ๋ฌธ์์๋ ์ธ๊ธํ๋ฏ, ์ฌ์ ํ ํ์ค์ ๋ก๋ด ๋ฐ์ดํฐ๋ ํ๋ค๋ฆฌ๊ฑฐ๋(Jitter), ํ๋ฆฌ๊ฑฐ๋(Blurry), ์ฅ๋ฉด์ ๋ค์์ฑ์ด ๋ถ์กฑํฉ๋๋ค. ์ด๋ฌํ โ๋๋ฌ์ด ๋ฐ์ดํฐโ๋ฅผ ์ผ๋ง๋ ์ ์ ์ ํ๊ณ ํ์ต์ ํ์ฉํ๋๋๊ฐ ์ฌ์ ํ ๊ณผ์ ์ ๋๋ค.
- ๊ฐํํ์ต(RL)์ ์ด๋ ค์:
- ๋ง์ง๋ง ๋จ๊ณ์ธ R2(RL-based alignment)๋ ์ค์ ๋ก๋ด์์ ์ํํ๊ธฐ์ ๋งค์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ์ํํ ์ ์์ต๋๋ค(๋ก๋ด์ด ์คํํ๋ค๊ฐ ๋ถ๋ฌ์ง ์ ์์). ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ์ ๊ฒฉ์ฐจ(Sim-to-Real Gap)๋ฅผ ์ค์ด๋ ๊ธฐ์ ์ด ์ถ๊ฐ๋ก ํ์ํฉ๋๋ค.
- ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ๋ ๋ค์ํ ํํ์ ๋ก๋ด(Embodiment)๊ณผ ํ๊ฒฝ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ๋ชจ๋ธ์ ์ค์ผ์ผ์ ํค์ฐ๋ ๊ฒ์ ๋๋ค.
- ๊ณ ์์ค์ ์ถ๋ก (Reasoning) ๋ฅ๋ ฅ๊ณผ ์ ์์ค์ ์ ์ด(Control) ๋ฅ๋ ฅ์ ๋ ๊ธด๋ฐํ๊ฒ ์ฐ๊ฒฐํ๋ ์ํคํ ์ฒ ์ฐ๊ตฌ๊ฐ ์์๋ฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
- ์ ์ฉ ๊ฐ๋ฅ ๋ถ์ผ:
- ๋ฌผ๋ฅ/์ฐฝ๊ณ : ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ์์ ์์๋ฅผ ์๋ณํ๊ณ , ์์์ ์์น๊ฐ ๋ฐ๋์ด๋ ์ ์ํด์ ์ ์ฌํ๋ ๋ก๋ด.
- ์๋น์ค ๋ก๋ด: ๊ฐ์ ์ด๋ ์๋น์์ โ์ฃผ๋ฐฉ์ ์๋ ๋นจ๊ฐ ์ปต์ ๊ฐ์ ธ๋ค ์คโ๋ผ๋ ๋ณต์กํ ๋ช ๋ น์ ์ดํดํ๊ณ ์ฅ์ ๋ฌผ์ ํผํด ์ํํ๋ ๋ก๋ด.
- ์ ์กฐ ๋ผ์ธ: ๊ณต์ ์ด ๋ฐ๋๋๋ผ๋ ์ํํธ์จ์ด ์ ๋ฐ์ดํธ ์์ด ์ธ์ด ๋ช ๋ น๋ง์ผ๋ก ์๋ก์ด ์์ ์ ๋ฐ๋ก ์ํํ๋ ์ ์ฐํ ์๋ํ ์์คํ .
- ํ์ํ ๋ฆฌ์์ค:
- ์ปดํจํ ํ์: ๊ฑฐ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM) ๊ธฐ๋ฐ์ด๋ฏ๋ก ํ์ต์๋ ์๋ฐฑ ์ฅ์ ๊ณ ์ฑ๋ฅ GPU(A100/H100 ๋ฑ) ํด๋ฌ์คํฐ๊ฐ ํ์ํฉ๋๋ค.
- ๋ฐ์ดํฐ: ๋ค์ํ ๋ก๋ด๊ณผ ํ๊ฒฝ์์ ์์งํ ๋๊ท๋ชจ์ ์๊ฐ-์ธ์ด-ํ๋ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ด ํ์์ ์ ๋๋ค.
- ์ถ๋ก ํ๊ฒฝ: ์ค์ ๋ก๋ด์ ํ์ฌ ์์๋ ์ง์ฐ ์๊ฐ(Latency)์ ์ค์ด๊ธฐ ์ํ ์ต์ ํ(์์ํ, Edge GPU ๋ฑ)๊ฐ ํ์ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Vision-Language-Action (VLA) Model: ์ด๋ฏธ์ง(๋น์ )์ ํ ์คํธ(์ธ์ด)๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ก๋ด์ ํ๋(Action)์ ์ถ๋ ฅํ๋ ํตํฉ ๋ชจ๋ธ์ ๋๋ค.
- Embodiment (๊ตฌ์ฒดํ/์ค์ฒดํ): AI๋ ๋ก๋ด์ด ๊ฐ์ง๋ ๋ฌผ๋ฆฌ์ ์ธ ๋ชธ์ ๋๋ค. ๋ก๋ด ํ์ ๊ธธ์ด, ์นด๋ฉ๋ผ์ ์์น, ๋ฐํด์ ๊ฐ์ ๋ฑ์ ์๋ฏธํ๋ฉฐ, ์ด๋ฅผ ๋ฐ๊พธ๋ฉด ํ๋ ๋ฐฉ์๋ ๋ฌ๋ผ์ ธ์ผ ํฉ๋๋ค.
- Behavior Cloning (BC, ํ๋ ๋ณต์ ): ์ธ๊ฐ์ด๋ ์ ๋ฌธ๊ฐ๊ฐ ๋ณด์ฌ์ค ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ๋ฐ๋ผ ํ๋๋ก ํ์ตํ๋ ์ง๋ ํ์ต์ ์ผ์ข ์ ๋๋ค.
- Reinforcement Learning (RL, ๊ฐํ ํ์ต): ์ํ์ฐฉ์ค๋ฅผ ํตํด ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉ๋ฒ์ ์ค์ค๋ก ํ์ตํ๋ ๊ธฐ๊ณ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค.
- Affordance (์ดํฌ๋์ค): ์ฌ๋ฌผ์ด ์ ๊ณตํ๋ ํ๋ ๊ฐ๋ฅ์ฑ์ ๋๋ค. ์๋ฅผ ๋ค์ด โ์์ก์ดโ๋ โ์ก์ ์ ์๋คโ๋ affordance๋ฅผ ์ ๊ณตํฉ๋๋ค.
- Fine-tuning (ํ์ธ ํ๋): ์ด๋ฏธ ํ์ต๋ ๊ฑฐ๋ ๋ชจ๋ธ์ ํน์ ์์ ์ด๋ ๋ฐ์ดํฐ์ ๋ง์ถฐ ์ถ๊ฐ์ ์ผ๋ก ๋ฏธ์ธํ๊ฒ ์กฐ์ ํ๋ ๊ณผ์ ์ ๋๋ค.
- Long-horizon Task (์ฅ๊ธฐ ์์ ): ๋จ์ํ ๋ฌผ์ฒด๋ฅผ ์ก๋ ๊ฒ์ด ์๋๋ผ, ์ง์ด์ ๋ค๊ณ ์ฎ๊ฒจ์ ๋๋ ๋ฑ ์ฌ๋ฌ ๋จ๊ณ๊ฐ ์ฐ์๋ ๋ณต์กํ ์์ ์ ๋งํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Green-VLA: Staged Vision-Language-Aโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | ERNIE 5.0 Technical Report | DD-016 |
| ๐ฅ | Kimi K2.5: Visual Agentic Intelligeโฆ | DD-018 |
| 4. | Vision-DeepResearch: Incentivizing โฆ | DD-019 |
| 5. | PaperBanana: Automating Academic Ilโฆ | DD-020 |
๐ ์์ฑ์ผ: 2026-02-08 | ๐ค GLM-4.7 Deep Dive