โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-015 Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

arXiv: 2601.12993 ๊ธฐ๊ด€: BeingBeyond Upvotes: 75 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5

Figure 1


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋กœ๋ด‡ ํ•™์Šต ๋ชจ๋ธ(VLA)๋“ค์€ ํŠน์ • ๋กœ๋ด‡(์˜ˆ: ์ง‘๊ฒŒ๊ฐ€ ๋‹ฌ๋ฆฐ ํŒ” ํ•˜๋‚˜)์— ์ตœ์ ํ™”๋˜์–ด ์žˆ์–ด, ๋กœ๋ด‡์˜ ๋ชจ์–‘(Embodiment)์ด ์กฐ๊ธˆ๋งŒ ๋ฐ”๋€Œ์–ด๋„ ์›€์ง์ผ ์ˆ˜ ์—†๋Š” โ€˜์™ธ๊ตญ์–ด ๋ชป ์•Œ์•„๋“ฃ๋Š” ํ˜„์ง€์ธโ€™๊ณผ ๊ฐ™์€ ๋ฒ”์šฉ์„ฑ ๋ฌธ์ œ์™€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ๋ฐ์ดํ„ฐ ํฌ์†Œ์„ฑ ๋ฌธ์ œ๋ฅผ ์•ˆ๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์‚ฌ๋žŒ์˜ ํ–‰๋™ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌผ๋ฆฌ์  ์ƒํ˜ธ์ž‘์šฉ์˜ **โ€˜๋ชจ๊ตญ์–ด(Mother Tongue)โ€˜**๋กœ ์ทจ๊ธ‰ํ•˜์—ฌ, ์„œ๋กœ ๋‹ค๋ฅธ 30์ข… ์ด์ƒ์˜ ๋กœ๋ด‡๊ณผ ์‚ฌ๋žŒ์„ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ์–ธ์–ด(์•ก์…˜ ์ŠคํŽ˜์ด์Šค)๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ํš๊ธฐ์ ์ธ Human-Centric Learning(์ธ๊ฐ„ ์ค‘์‹ฌ ํ•™์Šต) ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋กœ๋ด‡๋„ ์‚ฌ๋žŒ์ด๋‚˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์€ ๋‹ค๋ฅธ ๋กœ๋ด‡์˜ ๊ธฐ์ˆ ์„ ์ด์‹๋ฐ›์•„ ์ฆ‰์‹œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐ŸŒ ์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ์„ธ๊ณ„ ๊ณต์šฉ์–ด๋กœ ๋ฐฐ์šฐ๋Š” ์šด์ „๋ฒ•โ€

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” **โ€œ๋กœ๋ด‡๋งˆ๋‹ค ์‚ฌ์šฉํ•˜๋Š” โ€˜์–ธ์–ด(์ œ์–ด ๋ช…๋ น)โ€˜๊ฐ€ ๋‹ค๋ฅด์ง€๋งŒ, โ€˜๋ฌผ๋ฆฌ ๋ฒ•์น™(์˜๋„)โ€˜์€ ๊ฐ™๋‹คโ€**๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ๋ฐฉ์‹์˜ ๋ฌธ์ œ (Monolingual Speaker): ๊ธฐ์กด ๋กœ๋ด‡์€ โ€˜BMWโ€™ ์šด์ „๋Œ€๋กœ๋งŒ ์šด์ „ ๋ฒ•์„ ๋ฐฐ์› ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ โ€˜๋ฒ„์Šคโ€™๋‚˜ โ€˜๋น„ํ–‰๊ธฐโ€™์˜ ์šด์ „๋Œ€๋ฅผ ์ฃผ๋ฉด ์•„์˜ˆ ์ž‘๋™์„ ์•ˆ ํ•˜๊ฑฐ๋‚˜ ์‚ฌ๊ณ ๊ฐ€ ๋‚ฉ๋‹ˆ๋‹ค. (๊ฐ๊ฐ์˜ ๋กœ๋ด‡๋งˆ๋‹ค ๋ฐ์ดํ„ฐ๋ฅผ ๋”ฐ๋กœ ๋ชจ์•„์•ผ ํ•จ)
  • Being-H0.5์˜ ํ•ด๊ฒฐ์ฑ… (Universal Translator): ์ด ๋…ผ๋ฌธ์€ ๋ชจ๋“  ํƒˆ๊ฒƒ(๋กœ๋ด‡)์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” **โ€˜์‚ฌ๋žŒ์˜ ์›€์ง์ž„(์˜๋„)โ€˜**์„ ์„ธ๊ณ„ ๊ณต์šฉ์–ด๋กœ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. โ€œ๊ทธ๋ฆ‡์„ ์ง‘์–ด ์˜ฌ๋ ค๋ผโ€๋ผ๋Š” ์‚ฌ๋žŒ์˜ ํ–‰๋™(๋ชจ๊ตญ์–ด)์„ ํ•™์Šตํ•ด๋‘๋ฉด, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ง‘๊ฒŒ ๋กœ๋ด‡์—๊ฒŒ๋Š” โ€˜์ง‘๊ฒŒ ๋‹ซ๊ธฐโ€™ ๋ช…๋ น์„, ์†๊ฐ€๋ฝ ๋กœ๋ด‡์—๊ฒŒ๋Š” โ€˜์†๊ฐ€๋ฝ ๊ตฌ๋ถ€๋ฆฌ๊ธฐโ€™ ๋ช…๋ น์œผ๋กœ ๊ฐ๊ฐ ๋ฒˆ์—ญํ•ด ์ค๋‹ˆ๋‹ค.

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ (UniHand-2.0): ์‚ฌ๋žŒ์ด ๋ฌผ๊ฑด์„ ์กฐ์ž‘ํ•˜๋Š” ์˜์ƒ 35,000์‹œ๊ฐ„ ์ด์ƒ๊ณผ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡(30์ข…)์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ โ€˜์œ ๋‹ˆ๋ฒ„์Šคโ€™๊ธ‰ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์–ธ์–ด ํ•™์Šต์„ ์œ„ํ•ด ์ˆ˜๋งŽ์€ ๋‚˜๋ผ์˜ ๋ง๋ญ‰์น˜(Corpus)๋ฅผ ๋ชจ์œผ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  2. ํ†ตํ•ฉ๋œ ์•ก์…˜ ๊ณต๊ฐ„ (Unified Action Space) ์ •์˜: ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ์ง‘๊ฒŒ ๋กœ๋ด‡์€ [๋ชจํ„ฐ ๊ฐ๋„]๋กœ, ํœด๋จธ๋…ธ์ด๋“œ๋Š” [๊ด€์ ˆ ํ† ํฌ]๋กœ ๋ช…๋ น์„ ๋ฐ›์ง€๋งŒ, ์ด๋ฅผ ๋ชจ๋‘ **์˜๋ฏธ์  ๋‹จ์œ„(Semantic Slots)**๋กœ ๋งคํ•‘ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์ง‘๋Š”๋‹ค(Pinch)โ€, โ€œ์žก๋Š”๋‹ค(Grasp)โ€ ๊ฐ™์€ ์˜๋ฏธ ์žˆ๋Š” ์Šฌ๋กฏ์— ๊ฐ ๋กœ๋ด‡์— ๋งž๋Š” ์ˆซ์ž๋ฅผ ์ฑ„์›Œ ๋„ฃ์–ด ์„œ๋กœ ๋‹ค๋ฅธ ํ•˜๋“œ์›จ์–ด๊ฐ€ ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ณต์œ ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

  3. ์•„ํ‚คํ…์ฒ˜ (Mixture-of-Transformers, MoT):

    • ์ƒ๊ฐํ•˜๋Š” ๋จธ๋ฆฌ (High-level Reasoning): ์‹œ๊ฐ(Vision)๊ณผ ์–ธ์–ด(Language)๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ถ€๋ถ„์€ ๋ชจ๋“  ๋กœ๋ด‡์ด ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. โ€œ์ด๊ฑธ ์–ด๋–ป๊ฒŒ ํ• ๊นŒ?โ€๋ฅผ ์ƒ๊ฐํ•˜๋Š” ๋‡Œ์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
    • ์›€์ง์ด๋Š” ๋ชธ (Low-level Motor Control): ํŠน์ • ๋กœ๋ด‡์˜ ๋ชธ์ฒด์— ๋งž๋Š” ๋ช…๋ น์„ ๋‚ด๋ฆฌ๋Š” ๋ถ€๋ถ„์€ ๋”ฐ๋กœ ๋‘ก๋‹ˆ๋‹ค. ๋‡Œ์˜ ๋ช…๋ น์„ โ€œ์ด ๋กœ๋ด‡์˜ ๊ด€์ ˆ์— ๋งž๊ฒŒโ€ ํ•ด์„ํ•˜๋Š” ์ฒ™์ˆ˜ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿงฎ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์š”์•ฝ (๊ฐ„๋žตํ™”)

์ด ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡์˜ ์ƒํƒœ $s$์™€ ์ด๋ฏธ์ง€ $I$, ์–ธ์–ด ๋ช…๋ น $L$์„ ์ž…๋ ฅ๋ฐ›์•„ ํ†ตํ•ฉ๋œ ์•ก์…˜ $a$๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. $$ a = \text{Policy}(I, L; \theta_{\text{shared}}) + \text{Adapter}(s; \theta_{\text{embodiment}}) $$ ์—ฌ๊ธฐ์„œ $\theta_{\text{shared}}$๋Š” ๋ชจ๋“  ๋กœ๋ด‡์ด ๊ณตํ†ต์œผ๋กœ ํ•™์Šตํ•˜๋Š” โ€œ๋‡Œ(๊ณตํ†ต ์–ธ์–ด)โ€ ๋ถ€๋ถ„์ด๊ณ , $\text{Adapter}$๋Š” ๋กœ๋ด‡์˜ ์ข…๋ฅ˜์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” โ€œ๋ฒˆ์—ญ๊ธฐโ€ ์—ญํ• ์„ ํ•˜์—ฌ, ๋ชธ์ด ๋‹ฌ๋ผ๋„ ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ํ–‰๋™์œผ๋กœ ์˜ฎ๊ธธ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

  • ๋ฒค์น˜๋งˆํฌ: 5๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ํ”Œ๋žซํผ(ํ•œ ํŒ”, ๋‘ ํŒ”, ํœด๋จธ๋…ธ์ด๋“œ, ์ด์กฑ ๋ณดํ–‰ ๋กœ๋ด‡ ๋“ฑ)์—์„œ ์‹ค์ œ ํ™˜๊ฒฝ ํ…Œ์ŠคํŠธ๋ฅผ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. (๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰๋œ UniCraftor ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ๋กœ ๊ฒ€์ฆ๋จ)
  • ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ (SOTA ๋Œ€๋น„):
    • Cross-Embodiment ์„ฑ๋Šฅ: ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ๋‹ค๋ฅธ ๋กœ๋ด‡์—์„œ๋Š” ์ „ํ˜€ ์ž‘๋™ํ•˜์ง€ ์•Š๊ฑฐ๋‚˜ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๋ฐ˜๋ฉด, Being-H0.5๋Š” ๋‹จ์ผ ์ฒดํฌํฌ์ธํŠธ ํ•˜๋‚˜๋กœ ์„œ๋กœ ๋‹ค๋ฅธ 5๊ฐœ์˜ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ ๋ชจ๋‘ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ: ๋กœ๋ด‡ ์ „์šฉ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ์ƒํ™ฉ์—์„œ๋„ ์ธ๊ฐ„์˜ ์‹œ๊ฐ์  ํ”์ (Interaction traces)์„ ์‚ฌ์ „ ์ง€์‹(Prior)์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ, ์ œ๋กœ์ƒท(Zero-shot) ๋˜๋Š” ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋ณต์žกํ•œ ์–‘์† ํ˜‘๋™ ์ž‘์—… ๋“ฑ์„ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์•ˆ์ •์„ฑ: Manifold-Preserving Gating(MPG) ๊ธฐ์ˆ ์„ ํ†ตํ•ด ๊ธฐ์กด ๋””ํ“จ์ „ ๋ชจ๋ธ๋“ค์ด ๊ฒช๋˜ ๋กœ๋ด‡ ๊ด€์ ˆ์˜ ํ—ˆ์šฉ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚˜๋Š” ๋น„์ •์ƒ์  ์›€์ง์ž„(Drift)์„ ํฌ๊ฒŒ ์ค„์—ฌ ์•ˆ์ •์ ์ธ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„:
    • ์•„์ง ๋งค์šฐ ๋ณต์žกํ•˜๊ณ  ์ •๊ตํ•œ ์†๊ฐ€๋ฝ ์กฐ์ž‘(Dexterous manipulation) ๋ฐ์ดํ„ฐ๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋ถ€์กฑํ•˜์—ฌ, ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์„ฌ์„ธํ•œ ์†๋†€๋ฆผ์„ ๋”ฐ๋ผ๊ฐ€๊ธฐ์—๋Š” ๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ์งˆ์ด ๋” ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ํ˜•ํƒœ์˜ ๋กœ๋ด‡(์˜ˆ: ๊ผฌ๋ฆฌ๊ฐ€ ๋‹ฌ๋ฆฐ ๋กœ๋ด‡์ด๋‚˜ ๋‚ ๊ฐœ๊ฐ€ ๋‹ฌ๋ฆฐ ๋กœ๋ด‡)์— ๋Œ€ํ•ด์„œ๋Š” ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ฐœ์„  ๊ฐ€๋Šฅ์  (ํ–ฅํ›„ ์—ฐ๊ตฌ):
    • ๋” ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ(์•ผ์™ธ, ๋น„์ •ํ˜• ํ™˜๊ฒฝ)์—์„œ์˜ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๊ฒฌ๊ณ ์„ฑ(Robustness)์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์‹ค์‹œ๊ฐ„์„ฑ(Real-time)์„ ๋” ๋†’์ด๊ธฐ ์œ„ํ•œ ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. (ํ˜„์žฌ VLA ๋ชจ๋ธ๋“ค์€ ๋Œ€์ฒด๋กœ ์—ฐ์‚ฐ๋Ÿ‰์ด ๋งŽ์Œ)

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ:
    • ๋กœ๋ด‡ ์ œ์กฐ์‚ฌ/์—ฐ๊ตฌ์†Œ: ์ƒˆ๋กœ์šด ๋กœ๋ด‡ ๊ฐœ๋ฐœ ์‹œ, ์ผ์ผ์ด ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šต์‹œํ‚ฌ ํ•„์š” ์—†์ด Being-H0.5๋ฅผ ๋ฒ ์ด์Šค๋กœ fine-tuning๋งŒ ํ•˜๋ฉด ๋ฐ”๋กœ ๊ธฐ๋ณธ ๋™์ž‘์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐ€์ •์šฉ ์„œ๋น„์Šค ๋กœ๋ด‡: ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๊ฐ€์ „์ œํ’ˆ์ด๋‚˜ ๊ฐ€๊ตฌ์™€ ์ƒํ˜ธ์ž‘์šฉํ•ด์•ผ ํ•˜๋Š” ๋กœ๋ด‡์—๊ฒŒ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค:
    • GPU: ๋Œ€๊ทœ๋ชจ VLA ๋ชจ๋ธ์ด๋ฏ€๋กœ ์ถ”๋ก (Inference) ์‹œ A100์ด๋‚˜ H100 ๊ฐ™์€ ๊ณ ์„ฑ๋Šฅ GPU๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ์‹ค์‹œ๊ฐ„ ์ œ์–ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์ตœ์ ํ™”๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ: ์ƒˆ๋กœ์šด ๋กœ๋ด‡์— ์ ์šฉํ•˜๋ ค๋ฉด ํ•ด๋‹น ๋กœ๋ด‡์˜ ํ˜•์ƒ(Kinematics)์— ๋งž๋Š” ํ†ตํ•ฉ ์•ก์…˜ ๊ณต๊ฐ„ ๋งคํ•‘ ํ…Œ์ด๋ธ”์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. VLA (Vision-Language-Action) Model: ์ด๋ฏธ์ง€(๋ˆˆ)์™€ ์–ธ์–ด(์ง€์‹œ)๋ฅผ ๋ณด๊ณ  ๋ฐ”๋กœ ํ–‰๋™(์•ก์…˜)์„ ์˜ˆ์ธกํ•˜๋Š” ๋กœ๋ด‡์šฉ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. GPT๊ฐ€ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋“ฏ, ๋กœ๋ด‡์˜ ๋™์ž‘์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  2. Cross-Embodiment (ํฌ๋กœ์Šค-์ž„๋ฐ”๋””๋จผํŠธ): ํ•œ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํ˜•ํƒœ(Morphology)์˜ ๋กœ๋ด‡ ๋ชธ์ฒด(์˜ˆ: ํŒ”, ๋‹ค๋ฆฌ, ์ง‘๊ฒŒ ๋“ฑ)์— ๊ฑธ์ณ ๋ฒ”์šฉ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.
  3. Action Space (์•ก์…˜ ์ŠคํŽ˜์ด์Šค): ๋กœ๋ด‡์ด ์›€์ง์ผ ์ˆ˜ ์žˆ๋Š” ๋ช…๋ น์˜ ์ง‘ํ•ฉ์ž…๋‹ˆ๋‹ค. (์˜ˆ: ๊ด€์ ˆ์˜ ๊ฐ๋„, ๋ชจํ„ฐ์˜ ์†๋„ ๋“ฑ). ๋กœ๋ด‡๋งˆ๋‹ค ์ด ๊ณต๊ฐ„์˜ ์ฐจ์›๊ณผ ์˜๋ฏธ๊ฐ€ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
  4. Pre-training (์‚ฌ์ „ ํ•™์Šต): ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์ด ์„ธ์ƒ์˜ ๊ธฐ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ•์น™์ด๋‚˜ ๊ฐœ๋…์„ ๋ฏธ๋ฆฌ ์ตํžˆ๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  5. Fine-tuning (ํŒŒ์ธํŠœ๋‹): ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์ด๋‚˜ ํŠน์ • ๋กœ๋ด‡์— ๋งž์ถฐ ์กฐ๊ธˆ ๋” ํ•™์Šต์‹œ์ผœ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  6. Manifold Learning (๋งค๋‹ˆํด๋“œ ํ•™์Šต): ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ(๋ณต์žกํ•œ ๋กœ๋ด‡์˜ ์›€์ง์ž„)๊ฐ€ ์‹ค์ œ๋กœ๋Š” ์ €์ฐจ์›์˜ ๊ตฌ์กฐ(์ž์—ฐ์Šค๋Ÿฌ์šด ๊ถค์ )๋ฅผ ๋”ฐ๋ฅธ๋‹ค๋Š” ๊ฐ€์ •ํ•˜์—, ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ•˜๋ฉฐ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Agentic Reasoning for Large Languagโ€ฆDD-011
๐ŸฅˆYour Group-Relative Advantage Is Biโ€ฆDD-012
๐Ÿฅ‰EvoCUA: Evolving Computer Use Agentโ€ฆDD-013
4.LLM-in-Sandbox Elicits General Agenโ€ฆDD-014
5.Being-H0.5: Scaling Human-Centric Rโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive