โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-029 Experiential Reinforcement Learning

arXiv: 2602.13949 ๊ธฐ๊ด€: Microsoft Upvotes: 61 | Comments: 5 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4

Figure 1


์•ˆ๋…•ํ•˜์„ธ์š”. AI/ML ์ „๋ฌธ๊ฐ€๋กœ์„œ ํฅ๋ฏธ๋กœ์šด ๋…ผ๋ฌธ์„ ํ•˜๋‚˜ ๊นŠ์ด ์žˆ๊ฒŒ ๋ถ„์„ํ•ด ๋“œ๋ฆด ๊ธฐํšŒ๋ฅผ ๊ฐ–๊ฒŒ ๋˜์–ด ๊ธฐ์ฉ๋‹ˆ๋‹ค. ์ด๋ฒˆ์— ๋ฆฌ๋ทฐํ•  ๋…ผ๋ฌธ์€ ์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning) ํ›ˆ๋ จ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋ณ€ํ™”์‹œํ‚ฌ ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง„ โ€˜Experiential Reinforcement Learning(๊ฒฝํ—˜ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต)โ€˜์ž…๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ ๋‹จ์ˆœํžˆ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ๋ฐ›๋Š” ๊ธฐ์กด ๋ฐฉ์‹์—์„œ ๋ฒ—์–ด๋‚˜, ์ธ๊ฐ„์ฒ˜๋Ÿผ โ€˜์„ฑ์ฐฐ(Reflection)โ€™ ๊ณผ์ •์„ ํ•™์Šต ๋ฃจํ”„์— ์ง์ ‘ ๋…น์—ฌ๋‚ด๋Š” ๊ฒƒ์ด ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ์ ์ธ์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ฃผ๋‹ˆ์–ด ๊ฐœ๋ฐœ์ž๋ถ„๋“ค๋„ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•˜์‹ค ์ˆ˜ ์žˆ๋„๋ก ๋น„์œ ์™€ ์˜ˆ์‹œ๋ฅผ ๋“ค์–ด ์ƒ์„ธํžˆ ํ’€์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.


์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์–ธ์–ด ๋ชจ๋ธ ๊ฐ•ํ™” ํ•™์Šต(RLVR ๋“ฑ) ๋ฐฉ์‹์€ ๋ณด์ƒ ์‹ ํ˜ธ(Reward Signal)๊ฐ€ ์„ฑ๊ณต ์—ฌ๋ถ€๋งŒ ์•Œ๋ ค์ฃผ๊ณ  ์‹คํŒจ์˜ ์›์ธ์€ ์•Œ๋ ค์ฃผ์ง€ ์•Š๋Š” ํฌ์†Œํ•œ(Sparse) ํ™˜๊ฒฝ์—์„œ ๋งค์šฐ ๋น„ํšจ์œจ์ ์ด๊ณ  ๋ถˆ์•ˆ์ •ํ•œ ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ธ๊ฐ„์˜ ํ•™์Šต ๋ฐฉ์‹์„ ๋ชจ๋ฐฉํ•˜์—ฌ, โ€˜๊ฒฝํ—˜-์„ฑ์ฐฐ-ํ†ตํ•ฉ(Consolidation)โ€˜์˜ ๋ฃจํ”„๋ฅผ RL ๊ณผ์ •์— ๋ช…์‹œ์ ์œผ๋กœ ํฌํ•จ์‹œํ‚ด์œผ๋กœ์จ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์‹ค์ˆ˜๋ฅผ ๋ถ„์„ํ•˜๊ณ  ํ–‰๋™์„ ๊ต์ •ํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ํ›ˆ๋ จ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜์š”๋ฆฌ ์‹ค๋ ฅ ๋Š˜๋ฆฌ๊ธฐโ€™

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ์š”๋ฆฌ๋ฅผ ๋ฐฐ์šฐ๋Š” ์ƒํ™ฉ์„ ์ƒ์ƒํ•ด ๋ณด์„ธ์š”.

๊ธฐ์กด์˜ ๊ฐ•ํ™” ํ•™์Šต(RL) ๋ฐฉ์‹์€ ๋งˆ์น˜ ์š”๋ฆฌ๋ฅผ ํ•ด๋ณด๊ณ  ๋ง›์—†์œผ๋ฉด ๊ทธ์ € โ€˜0์ โ€™์„ ๋ฐ›๊ณ  ๋‹ค์‹œ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋žœ๋ค์œผ๋กœ ์žฌ๋ฃŒ๋ฅผ ๋„ฃ์–ด๋ณด๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ์™œ ๋ง›์ด ์—†๋Š”์ง€(์†Œ๊ธˆ์ด ๋งŽ์•˜๋Š”์ง€, ๋ถˆ์ด ์•ฝํ–ˆ๋Š”์ง€) ์ „ํ˜€ ๋ชจ๋ฅธ ์ฑ„ ์ˆ˜๋งŒ ๋ฒˆ์˜ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๊ฒช์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋งค์šฐ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๊ฒฝํ—˜ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต(ERL)์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค.

  1. ์‹œ๋„: ์š”๋ฆฌ๋ฅผ ํ•ด๋ด…๋‹ˆ๋‹ค.
  2. ํ”ผ๋“œ๋ฐฑ: ์Œ์‹์ด ์งญ๋‹ˆ๋‹ค.
  3. ์„ฑ์ฐฐ(Reflection): โ€œ์•„, ์†Œ๊ธˆ ๋Œ€์‹  ๊ฐ„์žฅ์„ ๋„ฃ์—ˆ๋”๋‹ˆ ์งฐ๋‹ค. ๋‹ค์Œ์—” ๊ฐ„์žฅ์„ ๋œ ๋„ฃ์–ด์•ผ๊ฒ ๋‹ค.โ€๋ผ๊ณ  ์›์ธ์„ ๋ถ„์„ํ•˜์—ฌ ๋ฉ”๋ชจ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค.
  4. ์žฌ์‹œ๋„: ์ด ๋ฉ”๋ชจ๋ฅผ ๋ณด๊ณ  ์š”๋ฆฌ๋ฅผ ๋‹ค์‹œ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฒˆ์—” ๋ง›์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  5. ํ†ตํ•ฉ(Consolidation): โ€œ๋ง›์žˆ๋Š” ์š”๋ฆฌ = ๊ฐ„์žฅ์„ ๋ฐ˜๋งŒ ๋„ฃ๋Š” ๊ฒƒโ€์ด๋ผ๋Š” ์‚ฌ์‹ค์„ ๋‚ด ๋‡Œ(๋ชจ๋ธ)์— ๊นŠ์ด ์ƒˆ๊ฒจ, ๋‹ค์Œ๋ถ€ํ„ฐ๋Š” ๋ฉ”๋ชจ๋ฅผ ์•ˆ ๋ด๋„ ๋ง›์žˆ๊ฒŒ ์š”๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

ERL์€ ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฃจํ”„๋ฅผ ํ•™์Šต ๊ณผ์ •์— ํฌํ•จ์‹œํ‚ต๋‹ˆ๋‹ค.

  1. ๊ฒฝํ—˜(Experience) ๋ฐ ์ดˆ๊ธฐ ์‹œ๋„: ๋ชจ๋ธ์ด ์ฃผ์–ด์ง„ ์ž‘์—…์— ๋Œ€ํ•ด ์ฒซ ๋ฒˆ์งธ ๋‹ต์•ˆ(Initial Attempt)์„ ์ƒ์„ฑํ•˜๊ณ  ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ ํ”ผ๋“œ๋ฐฑ(๋ณด์ƒ)์„ ๋ฐ›์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ๋Œ€๋ถ€๋ถ„ ์‹คํŒจํ•˜๊ฑฐ๋‚˜ ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ๋ฐ›๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  2. ์„ฑ์ฐฐ(Reflection) ๋ฐ ์ˆ˜์ •: ๋ชจ๋ธ์€ ์ž์‹ ์˜ ์ฒซ ๋ฒˆ์งธ ์‹œ๋„์™€ ๋ฐ›์€ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ”ํƒ•์œผ๋กœ โ€œ์–ด๋–ค ์ ์ด ์ž˜๋ชป๋˜์—ˆ๋Š”์ง€โ€๋ฅผ ๋ถ„์„ํ•˜๋Š” ํ…์ŠคํŠธ(Reflection)๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ์„ฑ์ฐฐ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‘ ๋ฒˆ์งธ ๋‹ต์•ˆ(Refined Attempt)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. ํ†ตํ•ฉ(Consolidation): ๋‘ ๋ฒˆ์งธ ์‹œ๋„๊ฐ€ ์ฒซ ๋ฒˆ์งธ๋ณด๋‹ค ๋‚ซ๋‹ค๋ฉด, ๊ทธ ์„ฑ๊ณต ๊ฒฝํ—˜์„ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜์— ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ **์ถ”๋ก  ์‹œ์ (Inference)**์—๋Š” ์„ฑ์ฐฐ ๊ณผ์ • ์—†์ด ๋ฐ”๋กœ ์ •๋‹ต์„ ๋‚ผ ์ˆ˜ ์žˆ๋„๋ก, ์ด ์ˆ˜์ •๋œ ํ–‰๋™ ํŒจํ„ด์„ ๋ชจ๋ธ ์ž์ฒด์— ๋‚ด์žฌํ™”์‹œํ‚จ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ธฐ์กด์˜ RL ๊ณผ์ •์— โ€˜Reflectionโ€™๊ณผ โ€˜Revisionโ€™ ๋‹จ๊ณ„๋ฅผ ์‚ฝ์ž…ํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ •์ฑ…(Policy)์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

  1. $\tau_1 \sim \pi_{\theta}(y|s)$ : ์ดˆ๊ธฐ ์ •์ฑ…์œผ๋กœ ์ฒซ ๋ฒˆ์งธ ๊ถค์ (Trajectory) ์ƒ์„ฑ
  2. $r_1 = R(\tau_1)$ : ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ ๋ณด์ƒ ํš๋“ (๋ณดํ†ต 0, ์‹คํŒจ)
  3. $refl = \pi_{\theta}(\text{reflection} | \tau_1, r_1)$ : ์‹คํŒจ ์›์ธ ๋ถ„์„ ๋ฐ ์„ฑ์ฐฐ ์ƒ์„ฑ
  4. $\tau_2 \sim \pi_{\theta}(y|s, refl)$ : ์„ฑ์ฐฐ์„ ์กฐ๊ฑด(Condition)์œผ๋กœ ํ•˜์—ฌ ์ˆ˜์ •๋œ ๊ถค์  ์ƒ์„ฑ
  5. $r_2 = R(\tau_2)$ : ์ˆ˜์ •๋œ ์‹œ๋„์— ๋Œ€ํ•œ ๋ณด์ƒ ํš๋“ (๋ณดํ†ต ์„ฑ๊ณต)
  6. Update $\theta$ using $(\tau_1, \tau_2)$ : $\tau_2$์˜ ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ํ†ตํ•ด ์ •์ฑ… ์—…๋ฐ์ดํŠธ (GRPO ๋“ฑ ์‚ฌ์šฉ)

์ฆ‰, $\tau_1$์„ ๋‹จ์ˆœํžˆ ์‹คํŒจ ๋ฐ์ดํ„ฐ๋กœ ์น˜๋ถ€ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, $\tau_2$๋ผ๋Š” ์ข‹์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๊ธฐ ์œ„ํ•œ โ€˜์”จ์•—โ€™์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์—ฐ๊ตฌ์ง„์€ ์ œํ•œ๋œ ๊ทœ์น™ ์ •๋ณด๋งŒ ์ฃผ๊ณ  ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๊ทœ์น™์„ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ํฌ์†Œ ๋ณด์ƒ(Sparse Reward) ํ™˜๊ฒฝ์—์„œ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋‚˜?

  1. Frozen Lake: ์–ผ์ŒํŒ ์œ„์—์„œ ๊ตฌ๋ฉ์„ ํ”ผํ•ด ๋ชฉํ‘œ์ง€์ ๊นŒ์ง€ ๊ฐ€์•ผ ํ•˜๋Š” ๊ฒŒ์ž„. ๊ทœ์น™์„ ๋ชฐ๋ผ๋„ ์‹œํ–‰์ฐฉ์˜ค๋กœ ๋ฒ•์น™์„ ์œ ์ถ”ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  2. Sokoban: ์ฐฝ๊ณ ์ง€๊ธฐ ๊ฒŒ์ž„. ๋ฐ•์Šค๋ฅผ ๋ฏธ๋Š” ์ˆœ์„œ๊ฐ€ ์ค‘์š”ํ•˜๋ฉฐ, ํ•œ ๋ฒˆ ์ž˜๋ชป ๋ฏธ์šฐ๋ฉด ๋˜๋Œ๋ฆด ์ˆ˜ ์—†์–ด ๊ธด ๊ณ„ํš์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  3. HotpotQA: ๋ฉ€ํ‹ฐํ™‰(Multi-hop) ์งˆ์˜์‘๋‹ต. ์—ฌ๋Ÿฌ ๋ฌธ์„œ๋ฅผ ์ฐพ์•„๋ณด๊ณ  ์ข…ํ•ฉํ•ด ๋‹ต์„ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ข‹์•„์กŒ๋‚˜?

ํŠนํžˆ Sokoban์—์„œ ์••๋„์ ์ธ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฒŒ์ž„์€ ํ•œ ๋ฒˆ์˜ ์‹ค์ˆ˜๊ฐ€ ๋Œ์ดํ‚ฌ ์ˆ˜ ์—†๋Š” ์‹คํŒจ๋กœ ์ด์–ด์ง€๊ธฐ ๋•Œ๋ฌธ์—, ์„ฑ์ฐฐ ์—†๋Š” ํ•™์Šต์€ ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅ์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค.

  • Qwen3-4B ๋ชจ๋ธ: ๊ธฐ์กด RLVR ๋ฐฉ์‹์€ ์„ฑ๊ณต๋ฅ  0.06(์ˆ˜๋ฐฑ ๋ฒˆ ์ค‘ ํ•œ ๋ฒˆ ์„ฑ๊ณต)์— ๊ทธ์ณค์œผ๋‚˜, ERL์€ 0.87๋กœ ์•ฝ 14๋ฐฐ ์ด์ƒ ์ƒ์Šนํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Olmo3-7B ๋ชจ๋ธ: ๊ธฐ์กด RLVR์€ 0.04, ERL์€ 0.20์œผ๋กœ 5๋ฐฐ ์ƒ์Šนํ–ˆ์Šต๋‹ˆ๋‹ค.

HotpotQA์—์„œ๋„ F1 ์ ์ˆ˜๊ฐ€ 0.383(RLVR)์—์„œ 0.393(ERL)์œผ๋กœ ์†Œํญ but ์œ ์˜๋ฏธํ•˜๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

ํ•™์Šต ๊ณก์„ (Training Wall-clock time)์„ ์‚ดํŽด๋ณด๋ฉด ERL์€ ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ์„ฑ๋Šฅ์ด ์ƒ์Šนํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์ด ๋†’์•„ ์ ์€ ์–‘์˜ ํ›ˆ๋ จ์œผ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ตœ์ข… ์„ฑ๋Šฅ(Converged Performance) ๋˜ํ•œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ํ›จ์”ฌ ๋†’์Šต๋‹ˆ๋‹ค.

ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

  1. ์ถ”๋ก  ๋น„์šฉ(Inference Cost) ์ฆ๊ฐ€: ํ•™์Šต ์‹œ์—๋Š” ๋‘ ๋ฒˆ์˜ ์‹œ๋„์™€ ์„ฑ์ฐฐ ๊ณผ์ •์„ ๊ฑฐ์น˜๋ฏ€๋กœ ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ํ•™์Šต๋œ ๋ชจ๋ธ์€ ๋ฐฐํฌ ์‹œ์— ์ถ”๊ฐ€ ๋น„์šฉ ์—†์ด ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
  2. ๋‚˜์œ ์„ฑ์ฐฐ์˜ ์œ„ํ—˜: ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์„ฑ์ฐฐ(Reflection)์ด ํ•ญ์ƒ ์ •ํ™•ํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ํ‹€๋ฆฐ ๋ถ„์„์„ ๋ฐ”ํƒ•์œผ๋กœ ํ–‰๋™์„ ์ˆ˜์ •ํ•˜๋ฉด ์˜คํžˆ๋ ค ํ•™์Šต์ด ๋ฐฉํ•ด๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

  • ์„ฑ์ฐฐ์˜ ํ’ˆ์งˆ์„ ๊ฒ€์ฆํ•˜๊ฑฐ๋‚˜ ๋ณด์ •ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ˜„์žฌ๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ ์„ฑ์ฐฐ์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ์ด๋ฅผ ๋” ๊ตฌ์กฐํ™”๋œ ์ƒํƒœ ๊ณต๊ฐ„(State Space)์œผ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

  • ์ฝ”๋”ฉ ์—์ด์ „ํŠธ(Coding Agents): ์ฝ”๋“œ๋ฅผ ์งœ๊ณ  ์—๋Ÿฌ๊ฐ€ ๋‚ฌ์„ ๋•Œ, ๋‹จ์ˆœํžˆ ๋‹ค์‹œ ์งœ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ โ€œ์–ด๋–ค ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ๋ˆ„๋ฝ๋˜์—ˆ๋Š”์ง€โ€ ๋ถ„์„ํ•˜๊ฒŒ ํ•˜์—ฌ ์ˆ˜์ •๋œ ์ฝ”๋“œ๋ฅผ ํ•™์Šต์‹œํ‚ค๊ธฐ์— ๋งค์šฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  • ์›น ๋ธŒ๋ผ์šฐ์ง• ์—์ด์ „ํŠธ: ์›น ํŽ˜์ด์ง€ ํƒ์ƒ‰ ์ค‘ ์‹คํŒจํ–ˆ์„ ๋•Œ, ํŽ˜์ด์ง€ ๊ตฌ์กฐ๋ฅผ ์ดํ•ด ๋ชป ํ•ด ์‹คํŒจํ–ˆ๋Š”์ง€, ๋ฒ„ํŠผ์„ ์ž˜๋ชป ๋ˆŒ๋ €๋Š”์ง€ ์„ฑ์ฐฐํ•˜๊ฒŒ ํ•˜์—ฌ ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ณต์žกํ•œ ๊ฒŒ์ž„ AI: ๊ทœ์น™์ด ๋ถˆํ™•์‹คํ•˜๊ฑฐ๋‚˜ ์žฅ๊ธฐ์ ์ธ ๊ณ„ํš์ด ํ•„์š”ํ•œ ํ™˜๊ฒฝ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • GPU: ๊ธฐ์กด RLHF๋‚˜ RLVR๊ณผ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ GPU ์ž์›์ด ํ•„์š”ํ•˜์ง€๋งŒ, ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ํ† ํฐ ์ƒ์„ฑ๋Ÿ‰์ด 2๋ฐฐ๋กœ ๋Š˜์–ด๋‚  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์—ฌ์œ  ์žˆ๋Š” ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ๋Šฅ๋ ฅ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ: ๋ณ„๋„์˜ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•œ ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ, ํ™˜๊ฒฝ(Environment)๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ ๊ถค์ (Trajectory) ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  2. ํฌ์†Œ ๋ณด์ƒ(Sparse Reward): ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์„ ๋•Œ๋งŒ ๋ณด์ƒ์„ ์ฃผ๊ณ , ๊ทธ ๊ณผ์ •์—๋Š” ์•„๋ฌด๋Ÿฐ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ์ง€ ์•Š๋Š” ๋ณด์ƒ ์ฒด๊ณ„๋กœ ํ•™์Šต์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
  3. ์–ธ์–ด ๋ชจ๋ธ(Language Model): ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ›ˆ๋ จ๋œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  4. ๊ถค์ (Trajectory): ๊ฐ•ํ™” ํ•™์Šต์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ์ƒํƒœ(state)์™€ ํ–‰๋™(action)์„ ์‹œ๊ฐ„ ์ˆœ์„œ๋Œ€๋กœ ๊ฒช์€ ๊ฒฝ๋กœ์˜ ๊ธฐ๋ก์ž…๋‹ˆ๋‹ค.
  5. ์ •์ฑ…(Policy): ์—์ด์ „ํŠธ๊ฐ€ ํŠน์ • ์ƒํƒœ์—์„œ ์–ด๋–ค ํ–‰๋™์„ ์ทจํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ์ „๋žต์ด๋‚˜ ๋ชจ๋ธ ์ž์ฒด๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  6. ์ถ”๋ก (Inference): ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๊ฑฐ๋‚˜ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  7. RLVR (Reinforcement Learning from Verifiable Rewards): ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ(์˜ˆ: ์ปดํŒŒ์ผ ์„ฑ๊ณต ์—ฌ๋ถ€)์„ ํ†ตํ•ด ์–ธ์–ด ๋ชจ๋ธ์„ ๊ฐ•ํ™” ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•๋ก ์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Less is Enough: Synthesizing Diversโ€ฆDD-026
๐ŸฅˆSQuTR: A Robustness Benchmark for Sโ€ฆDD-027
๐Ÿฅ‰GLM-5: from Vibe Coding to Agentic โ€ฆDD-028
4.Experiential Reinforcement Learning๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.MedXIAOHE: A Comprehensive Recipe fโ€ฆDD-030

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-22 | ๐Ÿค– GLM-4.7 Deep Dive