โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-037 Heterogeneous Agent Collaborative Reinforcement Learning

arXiv: 2603.02604 ๊ธฐ๊ด€: ByteDance Upvotes: 140 | Comments: 5 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


Heterogeneous Agent Collaborative Reinforcement Learning ๋…ผ๋ฌธ ๋ถ„์„

์ด ๋ฌธ์„œ๋Š” โ€˜Heterogeneous Agent Collaborative Reinforcement Learning (HACRL)โ€™ ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์‹ฌ์ธต ๋ถ„์„ ๋ฆฌํฌํŠธ์ž…๋‹ˆ๋‹ค. ์ฃผ๋‹ˆ์–ด ๊ฐœ๋ฐœ์ž๋„ ํ•ต์‹ฌ ๊ฐœ๋…์„ ๋ช…ํ™•ํžˆ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

ํ˜„์žฌ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•œ ์–ธ์–ด ๋ชจ๋ธ ํ›ˆ๋ จ, ํŠนํžˆ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ(RLVR)์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์€ ๊ฐ ๋ชจ๋ธ์ด ๋…๋ฆฝ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๊ฒ€์ฆํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๋น„์šฉ์ด ๋งค์šฐ ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์ด ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ๊ฐ์ž ํ•ด๊ฒฐํ•˜๋ฉฐ ๋น„์Šทํ•œ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๋ฐ˜๋ณตํ•˜๋Š” ๋‚ญ๋น„๊ฐ€ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋Šฅ๋ ฅ๊ณผ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ ์—์ด์ „ํŠธ๋“ค์ด ํ›ˆ๋ จ ์ค‘์— ๊ฒ€์ฆ๋œ ๊ฒฝํ—˜(๋กค์•„์›ƒ)์„ ๊ณต์œ ํ•˜์—ฌ ์ƒํ˜ธ ํ•™์Šตํ•จ์œผ๋กœ์จ, ์ „์ฒด์ ์ธ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ  ์ž์› ๋‚ญ๋น„๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ƒˆ๋กœ์šด ํ˜‘์—… ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜์ „๋ฌธ ๋ถ„์•ผ๊ฐ€ ๋‹ค๋ฅธ ์Šคํ„ฐ๋”” ๊ทธ๋ฃนโ€™

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” โ€˜์ „๊ณต์ด ๋‹ค๋ฅธ ๋Œ€ํ•™์ƒ๋“ค์ด ๋ชจ์—ฌ ์Šคํ„ฐ๋””๋ฅผ ํ•˜๋Š” ๊ฒƒโ€™๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ๋ฐฉ์‹(๋…๋ฆฝ ํ•™์Šต): ์ˆ˜ํ•™๋„, ๋ฌธํ•™๋„, ๊ณตํ•™๋„๊ฐ€ ๊ฐ์ž ๋ฐฉ์— ํ˜ผ์ž ์žˆ์œผ๋ฉด์„œ ๊ฐ™์€ ๋…ผ์ˆ  ๋ฌธ์ œ๋ฅผ ํ˜ผ์ž ์“ฐ๊ณ  ์Šค์Šค๋กœ ์ฑ„์ ํ•ฉ๋‹ˆ๋‹ค. ์„œ๋กœ์˜ ์ดˆ์•ˆ์„ ๋ณผ ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ๋น„์Šทํ•œ ์‹ค์ˆ˜๋ฅผ ํ•˜๊ฑฐ๋‚˜ ๋” ์ข‹์€ ์•„์ด๋””์–ด๊ฐ€ ์žˆ์–ด๋„ ๊ณต์œ ๋˜์ง€ ์•Š์•„ ํ•™์Šต ์†๋„๊ฐ€ ๋А๋ฆฝ๋‹ˆ๋‹ค.
  • HACRL ๋ฐฉ์‹(ํ˜‘์—… ํ•™์Šต): ์„ธ ๋ช…์ด ๋ชจ์—ฌ์„œ ๊ฐ์ž ์“ด ๋‹ต์•ˆ์„ ์„œ๋กœ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ˆ˜ํ•™๋„๊ฐ€ ์“ด ๊ธ€์€ ๊ณตํ•™๋„์˜ ์Šคํƒ€์ผ๊ณผ ๋‹ค๋ฅด๊ณ , ๊ณตํ•™๋„์˜ ๋‹ต์•ˆ์€ ๋ฌธํ•™๋„์™€ ๋Šฅ๋ ฅ ์ฐจ์ด๊ฐ€ ๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ โ€˜๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒโ€™(์ •๋‹ต ์—ฌ๋ถ€๋‚˜ ์ฑ„์  ๊ธฐ์ค€)์ด ๋ช…ํ™•ํ•˜๋‹ค๋ฉด, ์„œ๋กœ์˜ โ€˜๊ฒ€์ฆ๋œ ์‹œํ–‰์ฐฉ์˜คโ€™๋ฅผ ํ†ตํ•ด ๋ณธ์ธ์˜ ์ง€์‹์„ ์—…๋ฐ์ดํŠธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜ํ•™๋„์˜ ํ’€์ด ๊ณผ์ •์„ ๋ณด๊ณ  ๊ณตํ•™๋„๊ฐ€ ๋…ผ๋ฆฌ๋ ฅ์„ ํ‚ค์šฐ๊ณ , ๋ฌธํ•™๋„์˜ ์„œ์ˆ ์„ ๋ณด๊ณ  ๊ณตํ•™๋„๊ฐ€ ๊ธ€์“ฐ๊ธฐ๋ฅผ ๋ฐฐ์šฐ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€ ์‹œํ—˜์„ ๋ณผ ๋•Œ๋Š” ์—ฌ์ „ํžˆ ๊ฐ์ž ํ˜ผ์ž ๋ฌธ์ œ๋ฅผ ํ‘ผ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

HACPO(Heterogeneous Agent Collaborative Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ํฌ๊ฒŒ ๋„ค ๋‹จ๊ณ„๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

  1. ๋…๋ฆฝ์  ์ƒ์„ฑ: ์„œ๋กœ ๋‹ค๋ฅธ ๊ตฌ์กฐ๋‚˜ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๋“ค์ด ๋™์ผํ•œ ์งˆ๋ฌธ(ํ”„๋กฌํ”„ํŠธ)์— ๋Œ€ํ•ด ๊ฐ์ž ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  2. ๊ฒ€์ฆ ๋ฐ ๊ณต์œ : ์ƒ์„ฑ๋œ ๋‹ต๋ณ€๋“ค์„ ์ž๋™ ๊ฒ€์ฆ ๋„๊ตฌ(์˜ˆ: ์ฝ”๋“œ ํ…Œ์ŠคํŠธ, ์ˆ˜ํ•™ ๊ฒ€์ฆ๊ธฐ)๋กœ ์ฑ„์ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ โ€˜๊ฒ€์ฆ๋œ ๋กค์•„์›ƒ(๊ฒฝ๋กœ)โ€˜๋“ค์„ ์„œ๋กœ ๊ณต์œ  ํ’€(Pool)์— ๋ชจ์๋‹ˆ๋‹ค.
  3. ๋Šฅ๋ ฅ ๋ฐ ๋ถ„์‚ฐ ๋ณด์ • (ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜): ๋‚จ์˜ ๋‹ต๋ณ€์„ ๊ทธ๋Œ€๋กœ ๋ฏฟ์œผ๋ฉด ์œ„ํ—˜ํ•ฉ๋‹ˆ๋‹ค. HACPO๋Š” ๋‹ค์Œ ๋‘ ๊ฐ€์ง€๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ •์ œํ•ฉ๋‹ˆ๋‹ค.
    • ๋Šฅ๋ ฅ ์ฐจ์ด ์ธ์‹: ์ˆ˜ํ•™๋„์˜ ๋‹ต๋ณ€์ด ๋งž์„ ํ™•๋ฅ ์ด ๋ฌธํ•™๋„๋ณด๋‹ค ๋†’๋‹ค๋ฉด, ๊ทธ ์ •๋ณด๋ฅผ ๋” ๋†’์€ ๊ฐ€์ค‘์น˜๋กœ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ถ„์‚ฐ ๋ณด์ •: ๋‚จ์˜ ๊ธ€์„ ๋‚ด๊ฐ€ ์ผ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ณ  ํ•™์Šตํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์˜ค์ฐจ(Importance Sampling)๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ณด์ •ํ•ฉ๋‹ˆ๋‹ค.
  4. ์ •์ฑ… ์—…๋ฐ์ดํŠธ: ์ •์ œ๋œ ๊ณต์œ  ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐ์ž์˜ ์ •์ฑ…(๋ชจ๋ธ)์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋„ˆ๋ฌด ํฐ ๋ณ€ํ™”๋ฅผ ๋ง‰๊ธฐ ์œ„ํ•ด ๋‹จ๊ณ„๋ณ„ ํด๋ฆฌํ•‘(Stepwise Clipping)์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ˆ˜ํ•™์  ๊ธฐ์—ฌ๋Š” โ€˜๋ถˆํŽธ์„ฑ(Unbiasedness)โ€˜์„ ์ž…์ฆํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ๋‹จ์ผ ์—์ด์ „ํŠธ ๋ฐฉ์‹์—์„œ๋Š” ์ž์‹ ์ด ์ƒ์„ฑํ•œ ๋‹ต๋ณ€๋“ค์˜ ํ‰๊ท  ์ ์ˆ˜๋ฅผ ๊ธฐ์ค€(Baseline)์œผ๋กœ ์‚ผ์•„ ์šฐ์ˆ˜ํ•œ ๋‹ต๋ณ€์„ ์žฅ๋ คํ–ˆ์Šต๋‹ˆ๋‹ค. HACPO๋Š” ์ด ๊ธฐ์ค€์— ๋‹ค๋ฅธ ์—์ด์ „ํŠธ๋“ค์˜ ๋‹ต๋ณ€ ์ ์ˆ˜๊นŒ์ง€ ํฌํ•จํ•˜์—ฌ โ€˜ํ˜ผํ•ฉ ๊ธฐ์ค€(Mixed Baseline)โ€˜์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด, ์—์ด์ „ํŠธ k์˜ ๊ธฐ์ค€(Mu)์„ ๊ณ„์‚ฐํ•  ๋•Œ ๋‹ค๋ฅธ ์—์ด์ „ํŠธ๋“ค์˜ ๋ฐ์ดํ„ฐ๋„ ์„ž์–ด์„œ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์˜ ์ •๋ฆฌ(Theorem 4.1)์— ๋”ฐ๋ฅด๋ฉด, ์ด๋ ‡๊ฒŒ ๋‚จ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์„ž์–ด์„œ ๊ธฐ์ค€์„ ์žก์•„๋„ ์ˆ˜ํ•™์ ์œผ๋กœ ํŽธํ–ฅ(Bias)์ด ๋ฐœ์ƒํ•˜์ง€ ์•Š์Œ์„ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋‚จ์˜ ๊ฒฝํ—˜์„ ๊ณต์œ ํ•ด๋„ ๋‚ด๊ฐ€ ํ•™์Šตํ•ด์•ผ ํ•  ๋ฐฉํ–ฅ์ด ํ‹€์–ด์ง€์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ œ๊ณต๋œ ๋…ผ๋ฌธ ํ…์ŠคํŠธ์—๋Š” ๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜(์˜ˆ: ์ •ํ™•๋„ 95.2% ๋“ฑ)๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์ง€ ์•Š์œผ๋‚˜, ๊ฒฐ๋ก  ๋ฐ ๋‚ด์šฉ ์š”์•ฝ ๋ถ€๋ถ„์„ ํ†ตํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ฑ๊ณผ๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ: ์ฃผ๋กœ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ(Mathematical Problem Solving)๊ณผ ์ฝ”๋“œ ์ƒ์„ฑ(Code Generation)๊ณผ ๊ฐ™์ด ์ž๋™ ๊ฒ€์ฆ์ด ๊ฐ€๋Šฅํ•œ ์ž‘์—…์„ ๋Œ€์ƒ์œผ๋กœ ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” RLVR(๏ฟฝ์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ ๊ฐ•ํ™” ํ•™์Šต) ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋”ฐ๋ฅด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  • ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์„ฑ๋Šฅ: ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šตํ•˜๋Š”(Isolated) ๋ฐฉ์‹๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ HACPO๋ฅผ ์ ์šฉํ–ˆ์„ ๋•Œ ๋ชจ๋“  ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์ด ์ผ๊ด€๋˜๊ฒŒ ๊ทธ๋ฆฌ๊ณ  ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ: ๋‹จ์ˆœํžˆ ์„ฑ๋Šฅ์ด ์ข‹์•„์ง„ ๊ฒƒ์„ ๋„˜์–ด, โ€˜์ด๊ธฐ์ข…(Heterogeneous)โ€™ ํ™˜๊ฒฝ์—์„œ๋„ ํ•™์Šต์ด ์•ˆ์ •์ ์ด๋ผ๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋‚˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋‹ค๋ฅธ GPT ๊ณ„์—ด ๋ชจ๋ธ๊ณผ Llama ๊ณ„์—ด ๋ชจ๋ธ์ด ์„ž์—ฌ ์žˆ์–ด๋„, ์„œ๋กœ์—๊ฒŒ ๋„์›€์ด ๋˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ธฐ์กด์˜ ์ฆ๋ฅ˜(Distillation) ๋ฐฉ์‹์ด ์ƒ์œ„ ๋ชจ๋ธ์—์„œ ํ•˜์œ„ ๋ชจ๋ธ๋กœ์˜ ์ผ๋ฐฉํ–ฅ ํ•™์Šต์ด์—ˆ๋‹ค๋ฉด, ์ด ๋ฐฉ์‹์€ ์„œ๋กœ๊ฐ€ ์„œ๋กœ์—๊ฒŒ ๊ฐ€๋ฅด์นจ์„ ์ฃผ๋Š” ์Œ๋ฐฉํ–ฅ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„ ๋…ผ๋ฌธ์˜ ๊ฒฐ๋ก  ๋ถ€๋ถ„์—์„œ ์ด๋ก ์  ๋ถ„์„์ด โ€˜์ œ์–ด๋œ ์ด๊ธฐ์ข…์„ฑ(Controlled Heterogeneity)โ€™ ํ•˜์—์„œ๋งŒ ์œ ํšจํ•จ์„ ์–ธ๊ธ‰ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์—์ด์ „ํŠธ ๊ฐ„์˜ ๋Šฅ๋ ฅ ์ฐจ์ด๋‚˜ ํŠน์„ฑ ์ฐจ์ด๊ฐ€ ๋„ˆ๋ฌดๆž็ซฏ(ๆฅต็ซฏ)ํ•˜๊ฒŒ ํฌ์ง€ ์•Š์€ ๊ฒฝ์šฐ์—๋งŒ ์ตœ์ ํ™” ๋ฐฉํ–ฅ์ด ๋ณด์žฅ๋œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ

  1. ๊ทน๋‹จ์  ์ด์งˆ์„ฑ ํ™•์žฅ: ์„œ๋กœ ์™„์ „ํžˆ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์„ ์ „๋ฌธ์œผ๋กœ ํ•˜๊ฑฐ๋‚˜, ๋Šฅ๋ ฅ ์ฐจ์ด๊ฐ€ ํ˜„์ €ํžˆ ํฐ ๋ชจ๋ธ ๊ฐ„์˜ ํ˜‘์—… ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  2. ํ†ต์‹  ๋น„์šฉ ์ตœ์ ํ™”: ์‹ค์ œ๋กœ ๋กค์•„์›ƒ์„ ๊ณต์œ ํ•˜๋Š” ๋ฐ ๋“œ๋Š” ๋„คํŠธ์›Œํฌ ๋น„์šฉ์ด๋‚˜ ์ €์žฅ ๊ณต๊ฐ„ ํšจ์œจ์„ฑ์— ๋Œ€ํ•œ ๊ณ ๋ ค๊ฐ€ ๋” ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ์•…์˜์ ์ธ ์—์ด์ „ํŠธ ๋ฐฉ์–ด: ํ˜‘์—… ๊ณผ์ •์—์„œ ์ผ๋ถ€ ์—์ด์ „ํŠธ๊ฐ€ ์•…์˜์ ์œผ๋กœ ๋‚˜์œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฃผ์ž…ํ•  ๊ฒฝ์šฐ ์ด๋ฅผ ๋ฐฉ์–ดํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ํ˜„์žฌ ๋…ผ๋ฌธ์—์„œ ๋‹ค๋ฃจ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๊ณณ ์—ฌ๋Ÿฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๊ฐœ๋ฐœํ•˜๊ฑฐ๋‚˜ ํŒŒ์ธ ํŠœ๋‹ํ•˜๋Š” ๊ธฐ์—…์ด๋‚˜ ์—ฐ๊ตฌ์†Œ์— ๋ฐ”๋กœ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํšŒ์‚ฌ ๋‚ด์— โ€˜์ผ๋ฐ˜ ์šฉ๋„ ๋ชจ๋ธโ€™, โ€˜์ฝ”๋”ฉ ํŠนํ™” ๋ชจ๋ธโ€™, โ€˜๋ฒ•๋ฅ  ํŠนํ™” ๋ชจ๋ธโ€™์ด ๊ฐ์ž ๋”ฐ๋กœ ํ›ˆ๋ จ๋˜๊ณ  ์žˆ๋‹ค๋ฉด, HACRL์„ ์ ์šฉํ•˜์—ฌ ํ›ˆ๋ จ ์ค‘๊ฐ„ ๊ฒฐ๊ณผ๋ฌผ์„ ๊ณต์œ ํ•จ์œผ๋กœ์จ ์ „์ฒด ๋ชจ๋ธ๋“ค์˜ ์ง€๋Šฅ์„ ๋™์‹œ์— ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • GPU (์—ฐ์‚ฐ ์ž์›): ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๊ฐ€ ๋™์‹œ์— ํ•™์Šตํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๋‹จ์ผ ๋ชจ๋ธ ํ›ˆ๋ จ๋ณด๋‹ค ๋งŽ์€ GPU ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ƒ˜ํ”Œ ํšจ์œจ์ด ์ข‹์•„์ ธ ์ „์ฒด์ ์ธ ํ•™์Šต ์‹œ๊ฐ„(Epoch)์€ ์ค„์–ด๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ฒ€์ฆ ์‹œ์Šคํ…œ (Verifier): RLVR ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜๊ฑฐ๋‚˜ ์ˆ˜ํ•™์„ ํ‘ธ๋Š” ๋“ฑ ์ž๋™์œผ๋กœ ๋ณด์ƒ์„ ์ค„ ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  2. RLHF (Reinforcement Learning from Human Feedback): ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ณด์ƒ ์‹ ํ˜ธ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ์„ ์ธ๊ฐ„์˜ ์„ ํ˜ธ์— ๋งž์ถฐ ํŠœ๋‹ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  3. PPO (Proximal Policy Optimization): ๊ฐ•ํ™” ํ•™์Šต์—์„œ ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•  ๋•Œ ํ•œ ๋ฒˆ์— ๋„ˆ๋ฌด ๋งŽ์ด ๋ฐ”๋€Œ์ง€ ์•Š๋„๋ก ์ œ์•ฝ์„ ๊ฑฐ๋Š” ๋Œ€ํ‘œ์ ์ธ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  4. On-Policy vs Off-Policy: ํ˜„์žฌ ํ•™์Šตํ•˜๋ ค๋Š” ์ •์ฑ…์ด ์ง์ ‘ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋Š”์ง€(On-Policy), ๊ณผ๊ฑฐ์— ๋‹ค๋ฅธ ์ •์ฑ…์ด ๋ชจ์•„๋‘” ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋Š”์ง€(Off-Policy)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  5. ์ง€์‹ ์ฆ๋ฅ˜(Knowledge Distillation): ํฌ๊ณ  ์„ฑ๋Šฅ ์ข‹์€ ๋ชจ๋ธ(Teacher)์˜ ์ง€์‹์„ ์ž‘์€ ๋ชจ๋ธ(Student)์—๊ฒŒ ์˜ฎ๊ฒจ์ฃผ๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  6. ์ด๊ธฐ์ข… ์—์ด์ „ํŠธ(Heterogeneous Agents): ์„œ๋กœ ๋‹ค๋ฅธ ๊ตฌ์กฐ, ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ, ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์—์ด์ „ํŠธ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  7. Importance Sampling (์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง): ๋‹ค๋ฅธ ํ™•๋ฅ  ๋ถ„ํฌ์—์„œ ์–ป์€ ์ƒ˜ํ”Œ์„ ํ˜„์žฌ์˜ ๋ถ„ํฌ์—์„œ ์–ป์€ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ •ํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋Š” ํ†ต๊ณ„์  ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Utonia: Toward One Encoder for All โ€ฆDD-036
๐ŸฅˆHeterogeneous Agent Collaborative Rโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰OmniLottie: Generating Vector Animaโ€ฆDD-038
4.Helios: Real Real-Time Long Video Gโ€ฆDD-039
5.From Scale to Speed: Adaptive Test-โ€ฆDD-040

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-08 | ๐Ÿค– GLM-4.7 Deep Dive