โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-015 Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
arXiv: 2601.12993 ๊ธฐ๊ด: BeingBeyond Upvotes: 75 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 5

๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ก๋ด ํ์ต ๋ชจ๋ธ(VLA)๋ค์ ํน์ ๋ก๋ด(์: ์ง๊ฒ๊ฐ ๋ฌ๋ฆฐ ํ ํ๋)์ ์ต์ ํ๋์ด ์์ด, ๋ก๋ด์ ๋ชจ์(Embodiment)์ด ์กฐ๊ธ๋ง ๋ฐ๋์ด๋ ์์ง์ผ ์ ์๋ โ์ธ๊ตญ์ด ๋ชป ์์๋ฃ๋ ํ์ง์ธโ๊ณผ ๊ฐ์ ๋ฒ์ฉ์ฑ ๋ฌธ์ ์ ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ๋ฐ์ดํฐ ํฌ์์ฑ ๋ฌธ์ ๋ฅผ ์๊ณ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฌ๋์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ **โ๋ชจ๊ตญ์ด(Mother Tongue)โ**๋ก ์ทจ๊ธํ์ฌ, ์๋ก ๋ค๋ฅธ 30์ข ์ด์์ ๋ก๋ด๊ณผ ์ฌ๋์ ํ๋์ ํตํฉ๋ ์ธ์ด(์ก์ ์คํ์ด์ค)๋ก ํ์ต์ํค๋ ํ๊ธฐ์ ์ธ Human-Centric Learning(์ธ๊ฐ ์ค์ฌ ํ์ต) ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์๋์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง ๋ก๋ด๋ ์ฌ๋์ด๋ ๋ฐ์ดํฐ๊ฐ ๋ง์ ๋ค๋ฅธ ๋ก๋ด์ ๊ธฐ์ ์ ์ด์๋ฐ์ ์ฆ์ ์ฌ์ฉํ ์ ์๊ฒ ๋ง๋ค์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ ์ผ์์ํ ๋น์ : โ์ธ๊ณ ๊ณต์ฉ์ด๋ก ๋ฐฐ์ฐ๋ ์ด์ ๋ฒโ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด๋ **โ๋ก๋ด๋ง๋ค ์ฌ์ฉํ๋ โ์ธ์ด(์ ์ด ๋ช ๋ น)โ๊ฐ ๋ค๋ฅด์ง๋ง, โ๋ฌผ๋ฆฌ ๋ฒ์น(์๋)โ์ ๊ฐ๋คโ**๋ ๊ฒ์ ๋๋ค.
- ๊ธฐ์กด ๋ฐฉ์์ ๋ฌธ์ (Monolingual Speaker): ๊ธฐ์กด ๋ก๋ด์ โBMWโ ์ด์ ๋๋ก๋ง ์ด์ ๋ฒ์ ๋ฐฐ์ ์ต๋๋ค. ๊ทธ๋์ โ๋ฒ์คโ๋ โ๋นํ๊ธฐโ์ ์ด์ ๋๋ฅผ ์ฃผ๋ฉด ์์ ์๋์ ์ ํ๊ฑฐ๋ ์ฌ๊ณ ๊ฐ ๋ฉ๋๋ค. (๊ฐ๊ฐ์ ๋ก๋ด๋ง๋ค ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ก ๋ชจ์์ผ ํจ)
- Being-H0.5์ ํด๊ฒฐ์ฑ (Universal Translator): ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ ํ๊ฒ(๋ก๋ด)์ด ์ดํดํ ์ ์๋ **โ์ฌ๋์ ์์ง์(์๋)โ**์ ์ธ๊ณ ๊ณต์ฉ์ด๋ก ์ ์ํฉ๋๋ค. โ๊ทธ๋ฆ์ ์ง์ด ์ฌ๋ ค๋ผโ๋ผ๋ ์ฌ๋์ ํ๋(๋ชจ๊ตญ์ด)์ ํ์ตํด๋๋ฉด, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ง๊ฒ ๋ก๋ด์๊ฒ๋ โ์ง๊ฒ ๋ซ๊ธฐโ ๋ช ๋ น์, ์๊ฐ๋ฝ ๋ก๋ด์๊ฒ๋ โ์๊ฐ๋ฝ ๊ตฌ๋ถ๋ฆฌ๊ธฐโ ๋ช ๋ น์ผ๋ก ๊ฐ๊ฐ ๋ฒ์ญํด ์ค๋๋ค.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
-
๋ฐ์ดํฐ ์์ง (UniHand-2.0): ์ฌ๋์ด ๋ฌผ๊ฑด์ ์กฐ์ํ๋ ์์ 35,000์๊ฐ ์ด์๊ณผ ๋ค์ํ ๋ก๋ด(30์ข )์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ โ์ ๋๋ฒ์คโ๊ธ ๋ฐ์ดํฐ์ ์ ๋ง๋ญ๋๋ค. ๋ง์น ์ธ์ด ํ์ต์ ์ํด ์๋ง์ ๋๋ผ์ ๋ง๋ญ์น(Corpus)๋ฅผ ๋ชจ์ผ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
-
ํตํฉ๋ ์ก์ ๊ณต๊ฐ (Unified Action Space) ์ ์: ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ์ ๋๋ค. ์ง๊ฒ ๋ก๋ด์
[๋ชจํฐ ๊ฐ๋]๋ก, ํด๋จธ๋ ธ์ด๋๋[๊ด์ ํ ํฌ]๋ก ๋ช ๋ น์ ๋ฐ์ง๋ง, ์ด๋ฅผ ๋ชจ๋ **์๋ฏธ์ ๋จ์(Semantic Slots)**๋ก ๋งคํํฉ๋๋ค. ์๋ฅผ ๋ค์ด, โ์ง๋๋ค(Pinch)โ, โ์ก๋๋ค(Grasp)โ ๊ฐ์ ์๋ฏธ ์๋ ์ฌ๋กฏ์ ๊ฐ ๋ก๋ด์ ๋ง๋ ์ซ์๋ฅผ ์ฑ์ ๋ฃ์ด ์๋ก ๋ค๋ฅธ ํ๋์จ์ด๊ฐ ๊ฐ์ ์๋ฏธ๋ฅผ ๊ณต์ ํ๊ฒ ํฉ๋๋ค. -
์ํคํ ์ฒ (Mixture-of-Transformers, MoT):
- ์๊ฐํ๋ ๋จธ๋ฆฌ (High-level Reasoning): ์๊ฐ(Vision)๊ณผ ์ธ์ด(Language)๋ฅผ ์ฒ๋ฆฌํ๋ ๋ถ๋ถ์ ๋ชจ๋ ๋ก๋ด์ด ๊ณต์ ํฉ๋๋ค. โ์ด๊ฑธ ์ด๋ป๊ฒ ํ ๊น?โ๋ฅผ ์๊ฐํ๋ ๋์ ํด๋นํฉ๋๋ค.
- ์์ง์ด๋ ๋ชธ (Low-level Motor Control): ํน์ ๋ก๋ด์ ๋ชธ์ฒด์ ๋ง๋ ๋ช ๋ น์ ๋ด๋ฆฌ๋ ๋ถ๋ถ์ ๋ฐ๋ก ๋ก๋๋ค. ๋์ ๋ช ๋ น์ โ์ด ๋ก๋ด์ ๊ด์ ์ ๋ง๊ฒโ ํด์ํ๋ ์ฒ์ ์ญํ ์ ํฉ๋๋ค.
๐งฎ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ์์ฝ (๊ฐ๋ตํ)
์ด ๋ชจ๋ธ์ ๋ค์ํ ๋ก๋ด์ ์ํ $s$์ ์ด๋ฏธ์ง $I$, ์ธ์ด ๋ช ๋ น $L$์ ์ ๋ ฅ๋ฐ์ ํตํฉ๋ ์ก์ $a$๋ฅผ ์ถ๋ ฅํฉ๋๋ค. $$ a = \text{Policy}(I, L; \theta_{\text{shared}}) + \text{Adapter}(s; \theta_{\text{embodiment}}) $$ ์ฌ๊ธฐ์ $\theta_{\text{shared}}$๋ ๋ชจ๋ ๋ก๋ด์ด ๊ณตํต์ผ๋ก ํ์ตํ๋ โ๋(๊ณตํต ์ธ์ด)โ ๋ถ๋ถ์ด๊ณ , $\text{Adapter}$๋ ๋ก๋ด์ ์ข ๋ฅ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ โ๋ฒ์ญ๊ธฐโ ์ญํ ์ ํ์ฌ, ๋ชธ์ด ๋ฌ๋ผ๋ ๊ฐ์ ์๋ฏธ๋ฅผ ํ๋์ผ๋ก ์ฎ๊ธธ ์ ์๊ฒ ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
- ๋ฒค์น๋งํฌ: 5๊ฐ์ง ์๋ก ๋ค๋ฅธ ํํ์ ๋ก๋ด ํ๋ซํผ(ํ ํ, ๋ ํ, ํด๋จธ๋
ธ์ด๋, ์ด์กฑ ๋ณดํ ๋ก๋ด ๋ฑ)์์ ์ค์ ํ๊ฒฝ ํ
์คํธ๋ฅผ ์งํํ์ต๋๋ค. (๋
ผ๋ฌธ์์ ์ธ๊ธ๋
UniCraftor์์คํ ์ ํตํด ๊ณ ํ์ง์ ๋ฐ์ดํฐ๋ก ๊ฒ์ฆ๋จ) - ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ (SOTA ๋๋น):
- Cross-Embodiment ์ฑ๋ฅ: ๊ธฐ์กด ๋ชจ๋ธ๋ค์ด ๋ค๋ฅธ ๋ก๋ด์์๋ ์ ํ ์๋ํ์ง ์๊ฑฐ๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๋ฐ๋ฉด, Being-H0.5๋ ๋จ์ผ ์ฒดํฌํฌ์ธํธ ํ๋๋ก ์๋ก ๋ค๋ฅธ 5๊ฐ์ ๋ก๋ด ํ๋ซํผ์์ ๋ชจ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค.
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ๋ก๋ด ์ ์ฉ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํฉ์์๋ ์ธ๊ฐ์ ์๊ฐ์ ํ์ (Interaction traces)์ ์ฌ์ ์ง์(Prior)์ผ๋ก ํ์ฉํ์ฌ, ์ ๋ก์ท(Zero-shot) ๋๋ ์ ์ ๋ฐ์ดํฐ๋ก๋ ๋ณต์กํ ์์ ํ๋ ์์ ๋ฑ์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ต๋๋ค.
- ์์ ์ฑ:
Manifold-Preserving Gating(MPG)๊ธฐ์ ์ ํตํด ๊ธฐ์กด ๋ํจ์ ๋ชจ๋ธ๋ค์ด ๊ฒช๋ ๋ก๋ด ๊ด์ ์ ํ์ฉ ๋ฒ์๋ฅผ ๋ฒ์ด๋๋ ๋น์ ์์ ์์ง์(Drift)์ ํฌ๊ฒ ์ค์ฌ ์์ ์ ์ธ ์ ์ด๊ฐ ๊ฐ๋ฅํด์ก์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ ์๊ฐ ์ธ๊ธํ ํ๊ณ:
- ์์ง ๋งค์ฐ ๋ณต์กํ๊ณ ์ ๊ตํ ์๊ฐ๋ฝ ์กฐ์(Dexterous manipulation) ๋ฐ์ดํฐ๋ ์๋์ ์ผ๋ก ๋ถ์กฑํ์ฌ, ์ธ๊ฐ ์์ค์ ์ฌ์ธํ ์๋๋ฆผ์ ๋ฐ๋ผ๊ฐ๊ธฐ์๋ ๋ฐ์ดํฐ์ ์๊ณผ ์ง์ด ๋ ํ์ํ ์ ์์ต๋๋ค.
- ์์ ํ ์๋ก์ด ํํ์ ๋ก๋ด(์: ๊ผฌ๋ฆฌ๊ฐ ๋ฌ๋ฆฐ ๋ก๋ด์ด๋ ๋ ๊ฐ๊ฐ ๋ฌ๋ฆฐ ๋ก๋ด)์ ๋ํด์๋ ์ ๋ก์ท ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ต๋๋ค.
- ๊ฐ์ ๊ฐ๋ฅ์ (ํฅํ ์ฐ๊ตฌ):
- ๋ ๋ค์ํ ํ๊ฒฝ(์ผ์ธ, ๋น์ ํ ํ๊ฒฝ)์์์ ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง์ ํตํด ๋ชจ๋ธ์ ๊ฒฌ๊ณ ์ฑ(Robustness)์ ๋์ผ ์ ์์ต๋๋ค.
- ์ค์๊ฐ์ฑ(Real-time)์ ๋ ๋์ด๊ธฐ ์ํ ๋ชจ๋ธ ๊ฒฝ๋ํ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. (ํ์ฌ VLA ๋ชจ๋ธ๋ค์ ๋์ฒด๋ก ์ฐ์ฐ๋์ด ๋ง์)
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
- ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ:
- ๋ก๋ด ์ ์กฐ์ฌ/์ฐ๊ตฌ์: ์๋ก์ด ๋ก๋ด ๊ฐ๋ฐ ์, ์ผ์ผ์ด ๋ชจ๋ธ์ ์ฒ์๋ถํฐ ํ์ต์ํฌ ํ์ ์์ด Being-H0.5๋ฅผ ๋ฒ ์ด์ค๋ก fine-tuning๋ง ํ๋ฉด ๋ฐ๋ก ๊ธฐ๋ณธ ๋์์ ๊ตฌํํ ์ ์์ต๋๋ค.
- ๊ฐ์ ์ฉ ์๋น์ค ๋ก๋ด: ๋ค์ํ ํํ์ ๊ฐ์ ์ ํ์ด๋ ๊ฐ๊ตฌ์ ์ํธ์์ฉํด์ผ ํ๋ ๋ก๋ด์๊ฒ ์ ์ฉํฉ๋๋ค.
- ํ์ํ ๋ฆฌ์์ค:
- GPU: ๋๊ท๋ชจ VLA ๋ชจ๋ธ์ด๋ฏ๋ก ์ถ๋ก (Inference) ์ A100์ด๋ H100 ๊ฐ์ ๊ณ ์ฑ๋ฅ GPU๊ฐ ํ์ํ๋ฉฐ, ์ค์๊ฐ ์ ์ด๋ฅผ ์ํด์๋ ์ต์ ํ๊ฐ ํ์์ ์ ๋๋ค.
- ๋ฐ์ดํฐ: ์๋ก์ด ๋ก๋ด์ ์ ์ฉํ๋ ค๋ฉด ํด๋น ๋ก๋ด์ ํ์(Kinematics)์ ๋ง๋ ํตํฉ ์ก์ ๊ณต๊ฐ ๋งคํ ํ ์ด๋ธ์ด ํ์ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- VLA (Vision-Language-Action) Model: ์ด๋ฏธ์ง(๋)์ ์ธ์ด(์ง์)๋ฅผ ๋ณด๊ณ ๋ฐ๋ก ํ๋(์ก์ )์ ์์ธกํ๋ ๋ก๋ด์ฉ ๊ฑฐ๋ ๋ชจ๋ธ์ ๋๋ค. GPT๊ฐ ํ ์คํธ๋ฅผ ์์ฑํ๋ฏ, ๋ก๋ด์ ๋์์ ์์ฑํฉ๋๋ค.
- Cross-Embodiment (ํฌ๋ก์ค-์๋ฐ๋๋จผํธ): ํ ๋ชจ๋ธ์ด ๋ค์ํ ํํ(Morphology)์ ๋ก๋ด ๋ชธ์ฒด(์: ํ, ๋ค๋ฆฌ, ์ง๊ฒ ๋ฑ)์ ๊ฑธ์ณ ๋ฒ์ฉ์ ์ผ๋ก ์๋ํ๋ ๋ฅ๋ ฅ์ ๋งํฉ๋๋ค.
- Action Space (์ก์ ์คํ์ด์ค): ๋ก๋ด์ด ์์ง์ผ ์ ์๋ ๋ช ๋ น์ ์งํฉ์ ๋๋ค. (์: ๊ด์ ์ ๊ฐ๋, ๋ชจํฐ์ ์๋ ๋ฑ). ๋ก๋ด๋ง๋ค ์ด ๊ณต๊ฐ์ ์ฐจ์๊ณผ ์๋ฏธ๊ฐ ๋ค๋ฆ ๋๋ค.
- Pre-training (์ฌ์ ํ์ต): ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ด ์ธ์์ ๊ธฐ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ์น์ด๋ ๊ฐ๋ ์ ๋ฏธ๋ฆฌ ์ตํ๋ ๊ณผ์ ์ ๋๋ค.
- Fine-tuning (ํ์ธํ๋): ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ์์ ์ด๋ ํน์ ๋ก๋ด์ ๋ง์ถฐ ์กฐ๊ธ ๋ ํ์ต์์ผ ์ฑ๋ฅ์ ๋์ด๋ ๊ณผ์ ์ ๋๋ค.
- Manifold Learning (๋งค๋ํด๋ ํ์ต): ๊ณ ์ฐจ์ ๋ฐ์ดํฐ(๋ณต์กํ ๋ก๋ด์ ์์ง์)๊ฐ ์ค์ ๋ก๋ ์ ์ฐจ์์ ๊ตฌ์กฐ(์์ฐ์ค๋ฌ์ด ๊ถค์ )๋ฅผ ๋ฐ๋ฅธ๋ค๋ ๊ฐ์ ํ์, ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ฉฐ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Agentic Reasoning for Large Languagโฆ | DD-011 |
| ๐ฅ | Your Group-Relative Advantage Is Biโฆ | DD-012 |
| ๐ฅ | EvoCUA: Evolving Computer Use Agentโฆ | DD-013 |
| 4. | LLM-in-Sandbox Elicits General Agenโฆ | DD-014 |
| 5. | Being-H0.5: Scaling Human-Centric Rโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive