โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-033 VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

arXiv: 2602.10693 ๊ธฐ๊ด€: rednote-hilab Upvotes: 215 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3

Figure 1


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๊ฐ•ํ™” ํ•™์Šต(RL)์œผ๋กœ ํ•™์Šตํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” โ€˜๋ถˆ์•ˆ์ •์„ฑโ€™ ๋ฌธ์ œ๋Š” ์˜ค๋žซ๋™์•ˆ ๋‚œ์ œ์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ๊ณผ ํ•™์Šตํ•˜๋Š” ๋ชจ๋ธ์ด ์„œ๋กœ ๋‹ค๋ฅธ ์ƒํƒœ์ธ โ€˜Off-policyโ€™ ์ƒํ™ฉ(๋น„๋™๊ธฐ ํ•™์Šต, ๋ฐฐ์น˜ ์ง€์—ฐ ๋“ฑ)์—์„œ ๊ธฐ์กด์˜ ๋ฐฉ์‹๋“ค์€ ํ•™์Šต์ด ๋ถ•๊ดดํ•˜๊ฑฐ๋‚˜ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ๋ฌธ์ œ๋ฅผ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. VESPO๋Š” ์ด๋Ÿฌํ•œ ๋ถ„ํฌ ์ฐจ์ด๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •๋‹นํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ณด์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, ๋ชจ๋ธ์ด 64 ์Šคํ…์ด๋‚˜ ๋Šฆ์–ด์ง„ ๋ฐ์ดํ„ฐ๋กœ๋„ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ๋ณ€ํ™”ํ•˜๋Š” ๋ ˆ์‹œํ”ผ์™€ ์š”๋ฆฌ์‚ฌ

์ด ๋…ผ๋ฌธ์˜ ์ƒํ™ฉ์„ โ€˜๋ ˆ์Šคํ† ๋ž‘ ์ฃผ๋ฐฉโ€™์— ๋น„์œ ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋‹น์‹ ์€ ํ˜์‹ ์ ์ธ ์ƒˆ๋กœ์šด ๋ ˆ์‹œํ”ผ(ํ˜„์žฌ ์ •์ฑ…, Target Policy)๋ฅผ ๊ณ„์† ๊ฐœ์„ ํ•˜๊ณ  ์žˆ๋Š” ์…ฐํ”„์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ ์š”๋ฆฌ๋ฅผ ํ•˜๋Š” ์ฃผ๋ฐฉ์žฅ๋“ค์€ ๋„ˆ๋ฌด ๋ฐ”๋น ์„œ, ๋‹น์‹ ์ด ์–ด์ œ ์ˆ˜์ •ํ•œ ๋ ˆ์‹œํ”ผ๊ฐ€ ์•„๋‹Œ ์ผ์ฃผ์ผ ์ „ ๋ ˆ์‹œํ”ผ(์˜ค๋ž˜๋œ ์ •์ฑ…, Behavior Policy)๋ฅผ ๋ณด๊ณ  ์š”๋ฆฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค.

์ด ์ƒํ™ฉ์—์„œ ๋‹น์‹ ์€ ์™„์„ฑ๋œ ์š”๋ฆฌ๋ฅผ ๋ณด๊ณ  โ€œ์ด ๋ ˆ์‹œํ”ผ๊ฐ€ ์ข‹์€์ง€ ๋‚˜์œ์ง€โ€๋ฅผ ํŒ๋‹จํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

  • ๋ฌธ์ œ์ : ์ฃผ๋ฐฉ์žฅ์ด ์“ด ๋ ˆ์‹œํ”ผ์™€ ๋‹น์‹ ์ด ์“ฐ๋Š” ๋ ˆ์‹œํ”ผ๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์—, ๋ง›์ด ์—†๋Š” ์ด์œ ๊ฐ€ โ€˜์žฌ๋ฃŒ ๋น„์œจโ€™ ๋•Œ๋ฌธ์ธ์ง€ โ€˜์ฃผ๋ฐฉ์žฅ์˜ ์‹ค์ˆ˜โ€™ ๋•Œ๋ฌธ์ธ์ง€ ํ—ท๊ฐˆ๋ฆฝ๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ทธ๋Œ€๋กœ ๋ฐ˜์˜ํ•ด ๋‚ด ๋ ˆ์‹œํ”ผ๋ฅผ ๊ณ ์น˜๋ฉด ์˜คํžˆ๋ ค ๋ง›์„ ๋ง์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ธฐ์กด ๋ฐฉ์‹์˜ ํ•œ๊ณ„: ๊ธฐ์กด ๋ฐฉ์‹(์˜ˆ: ํ† ํฐ ๋‹จ์œ„ ํด๋ฆฌํ•‘)์€ ์†Œ๊ธˆ, ์„คํƒ• ๋“ฑ ์žฌ๋ฃŒ ํ•˜๋‚˜ํ•˜๋‚˜๋ฅผ ๋”ฐ๋กœ๋”ฐ๋กœ ๋ณด์ •ํ•˜๋ ค ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์š”๋ฆฌ๋Š” ์žฌ๋ฃŒ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ(๋ฌธ๋งฅ)์ด ์ค‘์š”ํ•˜๋ฏ€๋กœ, ๊ฐœ๋ณ„ ๋ณด์ •์€ ์š”๋ฆฌ์˜ ๋ง›์„ ๋ง์น˜๊ฑฐ๋‚˜ ๋ณด์ • ํšจ๊ณผ๊ฐ€ ๋ฏธ๋ฏธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • VESPO์˜ ์ ‘๊ทผ: VESPO๋Š” ์š”๋ฆฌ ์ „์ฒด(์‹œํ€€์Šค ์ „์ฒด)๋ฅผ ํ•˜๋‚˜๋กœ ๋ณด๊ณ , โ€œ์ฃผ๋ฐฉ์žฅ์ด ์‹ค์ œ๋กœ ์“ด ๋ ˆ์‹œํ”ผ์™€ ๋‚ด ํ˜„์žฌ ๋ ˆ์‹œํ”ผ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ๊ณ ๋ คํ•  ๋•Œ, ์ด ์š”๋ฆฌ๊ฐ€ ๋งˆ์น˜ *๊ฐ€์ƒ์˜ ์ตœ์  ๋ ˆ์‹œํ”ผ(Q)**๋ฅผ ๋”ฐ๋ผ ๋งŒ๋“  ๊ฒƒ์ฒ˜๋Ÿผ ํ•ด์„ํ•˜๋ ค๋ฉด ์–ด๋–ป๊ฒŒ ํ‰๊ฐ€ํ•ด์•ผ ํ• ๊นŒ?โ€๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐœ๋ณ„ ์žฌ๋ฃŒ๊ฐ€ ์•„๋‹ˆ๋ผ ์™„์„ฑ๋œ ์š”๋ฆฌ ์ „์ฒด์˜ ๊ถค์ ์„ ๋ฐ”๋กœ์žก์•„, ๋‚ด ๋ ˆ์‹œํ”ผ๋ฅผ ์•ˆ์ „ํ•˜๊ณ  ํšจ๊ณผ์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ๊ฐ€์ค‘์น˜ ๊ณ„์‚ฐ (Importance Weight): ๋ชจ๋ธ์ด ํ˜„์žฌ ์ •์ฑ…์œผ๋กœ๋Š” ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•  ํ™•๋ฅ ๊ณผ, ๊ณผ๊ฑฐ์— ์‹ค์ œ๋กœ ์ƒ์„ฑํ–ˆ์„ ํ™•๋ฅ ์˜ ๋น„์œจ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด โ€œ์–ผ๋งˆ๋‚˜ ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ๋Š”๊ฐ€โ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„์ž…๋‹ˆ๋‹ค.
  2. ๋ณ€๋ถ„์  ์ตœ์ ํ™” (Variational Optimization): VESPO๋Š” ๋‹จ์ˆœํžˆ ์ด ๋น„์œจ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, โ€œ์ด ๋น„์œจ์„ ์–ด๋–ค ํ•จ์ˆ˜์— ํ†ต๊ณผ์‹œํ‚ค๋ฉด ๋ถ„์‚ฐ(Variance)์ด ๊ฐ€์žฅ ์ค„์–ด๋“ค๋ฉด์„œ๋„ ์˜๋ฏธ ์žˆ๋Š” ์ •๋ณด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์„๊นŒ?โ€๋ผ๋Š” ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ํ’‰๋‹ˆ๋‹ค. ๋งˆ์น˜ ๋ฐ์ดํ„ฐ์˜ ์žก์Œ์„ ๊ฑธ๋Ÿฌ๋‚ด๋Š” ๊ฐ€์žฅ ์ข‹์€ ํ•„ํ„ฐ๋ฅผ ์„ค๊ณ„ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  3. ๊ฐ€์ƒ ์ œ์•ˆ ๋ถ„ํฌ ๋„์ถœ (Implicit Proposal Q): ์ด ๊ณผ์ •์„ ํ†ตํ•ด ๋„์ถœ๋œ ํ•จ์ˆ˜๋Š” ์‚ฌ์‹ค์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ๋งˆ์น˜ โ€˜๊ฐ€์ƒ์˜ ์ œ์•ˆ ๋ถ„ํฌ(Q)โ€˜์—์„œ ๋ฝ‘์€ ๊ฒƒ์ฒ˜๋Ÿผ ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์ด Q๋Š” ์›๋ณธ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ํ˜„์žฌ ํ•™์Šตํ•˜๋ ค๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์กฐ์ •๋œ ์ƒํƒœ์ž…๋‹ˆ๋‹ค.
  4. ์‹œํ€€์Šค ๋‹จ์œ„ ์—…๋ฐ์ดํŠธ: ์ด ๋ณด์ •์ด ํ† ํฐ ํ•˜๋‚˜ํ•˜๋‚˜๊ฐ€ ์•„๋‹ˆ๋ผ ๋ฌธ์žฅ ์ „์ฒด ์‹œํ€€์Šค์— ๋Œ€ํ•ด ํ•œ ๋ฒˆ์— ์ด๋ฃจ์–ด์ง€๋ฏ€๋กœ, ๋ฌธ๋งฅ์ด ๊นจ์ง€์ง€ ์•Š๊ณ  ๊ธธ์ด์— ๋”ฐ๋ฅธ ํŽธํ–ฅ(Bias)๋„ ์ƒ๊ธฐ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜

๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ์ค‘์š”๋„ ๊ฐ€์ค‘์น˜ $W$๋ฅผ ์žฌํ˜•์„ฑํ•˜๋Š” ํ•จ์ˆ˜ $\phi(W)$๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ณ€๋ถ„ ๋ชฉ์ ํ•จ์‹์œผ๋กœ ์ •์‹ํ™”ํ•ฉ๋‹ˆ๋‹ค.

$$ \min_Q \left[ \text{KL}(Q || \mu) + \lambda \text{Var}_{Q} [G] \right] $$

์—ฌ๊ธฐ์„œ $\mu$๋Š” ํ–‰๋™ ์ •์ฑ…(๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ), $Q$๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ฐพ๊ณ ์ž ํ•˜๋Š” ๊ฐ€์ƒ์˜ ์ œ์•ˆ ๋ถ„ํฌ, $G$๋Š” ๋ณด์ƒ์ž…๋‹ˆ๋‹ค. ์ด ์‹์€ โ€œQ๊ฐ€ ์›๋ณธ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ $\mu$์—์„œ ๋„ˆ๋ฌด ๋ฒ—์–ด๋‚˜์ง€ ์•Š์œผ๋ฉด์„œ($\text{KL}$), ๋ณด์ƒ์˜ ๋ถ„์‚ฐ($\text{Var}$)์„ ์ตœ์†Œํ™”ํ•˜๋ผโ€๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ์ด ์‹์„ ํ’€๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹ซํžŒ ํ˜•์‹(Closed-form)์˜ ํ•ด๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค.

$$ \phi^*(W) \propto \frac{1}{1 + \alpha W^2} $$

์ด ์ปค๋„ ํ•จ์ˆ˜๋Š” ๊ฐ€์ค‘์น˜ $W$๊ฐ€ ๋„ˆ๋ฌด ์ปค์ง€๋ฉด(์ฆ‰, ํ˜„์žฌ ์ •์ฑ…๊ณผ ๊ณผ๊ฑฐ ์ •์ฑ…์ด ๋„ˆ๋ฌด ๋‹ค๋ฅด๋ฉด) ์ž๋™์œผ๋กœ ๊ฐ’์„ ๋‚ฎ์ถ”์–ด ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€๋Š” ๊ฒƒ์„ ๋ง‰์•„์ฃผ๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋‚˜?

์—ฐ๊ตฌ์ง„์€ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ณ ๋‚œ๋„ ๋ฒค์น˜๋งˆํฌ์ธ AIME 2024/2025, AMC 2023, MATH-500์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ Llama-3.2-3B, Qwen3-8B, ๊ทธ๋ฆฌ๊ณ  ๋ผ์šฐํŒ… ๋ถˆ์ผ์น˜ ๋ฌธ์ œ๊ฐ€ ์‹ฌํ•œ MoE(Mixture of Experts) ์•„ํ‚คํ…์ฒ˜์ธ Qwen3-30B-A3B-Base๋ฅผ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ข‹์•„์กŒ๋‚˜?

  • ์•ˆ์ •์„ฑ: VESPO๋Š” โ€˜Staleness Ratio(๋ฐ์ดํ„ฐ ์ง€์—ฐ ๋น„์œจ)โ€˜๊ฐ€ ์ตœ๋Œ€ 64๋ฐฐ์— ๋‹ฌํ•˜๋Š” ๊ทนํ•œ์˜ ์ƒํ™ฉ์—์„œ๋„ ํ•™์Šต์ด ๋ถ•๊ดดํ•˜์ง€ ์•Š๊ณ  ์•ˆ์ •์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ธฐ์กด ๋ฐฉ์‹๋“ค์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์กฐ๊ธˆ๋งŒ ์˜ค๋ž˜๋˜์–ด๋„ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ: ํ‰๊ท  ์ •ํ™•๋„(Avg@k)์—์„œ VESPO๋Š” GRPO๋‚˜ SAPO ๊ฐ™์€ ๊ธฐ์กด ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ๋†’์€ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
  • MoE ๋ชจ๋ธ์—์„œ์˜ ๊ฐ•์ : ํ•™์Šต๊ณผ ์ถ”๋ก  ์—”์ง„์ด ๋‹ฌ๋ผ ์ƒ๊ธฐ๋Š” ๋ถˆ์ผ์น˜(Mismatch)๊ฐ€ ์‹ฌํ•œ MoE ๋ชจ๋ธ์—์„œ, VESPO๋Š” ์ด๋Ÿฌํ•œ ๋…ธ์ด์ฆˆ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํก์ˆ˜ํ•˜์—ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ์›”๋“ฑํžˆ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๋‹จ์ˆœํžˆ ์„ฑ๋Šฅ ์ˆ˜์น˜ ์ƒ์Šน์„ ๋„˜์–ด, โ€œ์™„์ „ํžˆ ๋น„๋™๊ธฐ์ ์ธ ํ•™์Šต ์‹œ์Šคํ…œโ€์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๋Š” ์ด๋ก ์ /์‹ค๋ฌด์  ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ–ˆ๋‹ค๋Š” ์ ์ด ๊ฐ€์žฅ ํฐ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ LLM ๊ตฐ์ง‘(Cluster)์—์„œ ๋ฆฌ์†Œ์Šค ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์ˆ ์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

๋…ผ๋ฌธ์€ ์ฃผ๋กœ ์ˆ˜ํ•™์  ์ถ”๋ก  ๊ณผ์ œ์— ์ง‘์ค‘๋˜์–ด ์žˆ์–ด, ๋Œ€ํ™”๋‚˜ ๋„๊ตฌ ์‚ฌ์šฉ์ด ํ•„์š”ํ•œ ๋ณต์žกํ•œ โ€˜์—์ด์ „ํŠธ(Agent)โ€™ ํ™˜๊ฒฝ์—์„œ์˜ ๊ฒ€์ฆ์ด ์ถ”๊ฐ€๋กœ ํ•„์š”ํ•ด ๋ณด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, VESPO๊ฐ€ ๋„์ž…ํ•˜๋Š” ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๊ทน๋„๋กœ ํฐ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ์—์„œ ์–ด๋–ป๊ฒŒ ์ž‘์šฉํ• ์ง€์— ๋Œ€ํ•œ ์‹ฌ์ธต ๋ถ„์„์ด ํ–ฅํ›„ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์  ๋ฐ ํ–ฅํ›„ ๋ฐฉํ–ฅ

์ €์ž๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ ๋” ํฐ ๋น„๋™๊ธฐ ํด๋Ÿฌ์Šคํ„ฐ๋กœ์˜ ํ™•์žฅ, ๋ฉ€ํ‹ฐ ํ„ด(Multi-turn) ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ๋„๊ตฌ ์‚ฌ์šฉ์ด ํฌํ•จ๋œ ์—์ด์ „ํŠธ RL ์„ค์ •์œผ๋กœ์˜ ํ™•์žฅ, ๊ทธ๋ฆฌ๊ณ  ์˜คํ”ผ์…œ ์ฆ๋ฅ˜(On-policy Distillation)์— ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

ํ˜„์žฌ LLM์„ ๊ฐ•ํ™” ํ•™์Šต์œผ๋กœ ํŒŒ์ธ ํŠœ๋‹ํ•˜๋Š” ๋ชจ๋“  ๋ถ„์•ผ์— ์ฆ‰์‹œ ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋Œ€๊ทœ๋ชจ GPU ๊ตฐ์žฅ์„ ์šด์šฉํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ณผ ํ•™์Šต์„ ๋น„๋™๊ธฐ๋กœ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š” ์ƒํ™ฉ, ํ˜น์€ ํ•™์Šต ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜๋ฅผ ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ํ•„์ˆ˜์ ์ธ ๊ธฐ์ˆ ์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. MoE(Mixture of Experts) ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ํ™˜๊ฒฝ์—์„œ๋Š” ๊ฑฐ์˜ ํ•„์ˆ˜์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค (GPU, ๋ฐ์ดํ„ฐ ๋“ฑ)

๋…ผ๋ฌธ์˜ ์‹คํ—˜์€ 32๊ฐœ์˜ NVIDIA H20 GPU ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. vLLM๊ณผ ๊ฐ™์€ ํšจ์œจ์ ์ธ ์ถ”๋ก  ์—”์ง„๊ณผ FSDP์™€ ๊ฐ™์€ ๋ถ„์‚ฐ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๊ฒฐํ•ฉ๋œ ํ™˜๊ฒฝ์ด๋ผ๋ฉด, ๊ธฐ์กด PPO ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์— ๋น„ํ•ด ํฐ ์ถ”๊ฐ€ ํ•˜๋“œ์›จ์–ด ๋น„์šฉ ์—†์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜๋งŒ ๊ต์ฒดํ•˜์—ฌ ์•ˆ์ •์„ฑ ์ด๋“์„ ์–ป์„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ์˜คํ”„ํด๋ฆฌ ํ•™์Šต(Off-Policy Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ˜„์žฌ์˜ ์ •์ฑ…์ด ์•„๋‹Œ, ๊ณผ๊ฑฐ์— ํ˜น์€ ๋‹ค๋ฅธ ์ •์ฑ…์— ์˜ํ•ด ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜๋Š” ๊ฐ•ํ™” ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง(Importance Sampling): ๋‹ค๋ฅธ ๋ถ„ํฌ์—์„œ ์–ป์€ ์ƒ˜ํ”Œ์„ ์ด์šฉํ•ด ํŠน์ • ๋ถ„ํฌ์˜ ๊ธฐ๋Œ“๊ฐ’์„ ์ถ”์ •ํ•˜๋Š” ํ†ต๊ณ„์  ๊ธฐ๋ฒ•์œผ๋กœ, ๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฅผ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์˜ค์ฐจ๋ฅผ ๋ณด์ •ํ•ฉ๋‹ˆ๋‹ค.
  • ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ(Policy Gradient): ๊ฐ•ํ™” ํ•™์Šต์—์„œ ์ •์ฑ…์„ ์ง์ ‘ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ์‹์ด๋ฉฐ, PPO(Proximal Policy Optimization)๋Š” ์ด์˜ ๋Œ€ํ‘œ์ ์ธ ์˜ˆ์ž…๋‹ˆ๋‹ค.
  • ๋ณ€๋ถ„ ์ถ”๋ก (Variational Inference): ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ทผ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, ๋ณต์žกํ•œ ๋ถ„ํฌ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ํ˜ผํ•ฉ ์ „๋ฌธ๊ฐ€ ๋ชจ๋ธ(MoE, Mixture of Experts): ๋ชจ๋ธ์˜ ๊ฐ ๋ ˆ์ด์–ด๊ฐ€ ์ „์ฒด๊ฐ€ ์•„๋‹Œ ์ผ๋ถ€ ์ „๋ฌธ๊ฐ€(Expert)๋งŒ ํ™œ์„ฑํ™”๋˜์–ด ์—ฐ์‚ฐ ํšจ์œจ์„ ๋†’์ด๋Š” ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค.
  • ํ›ˆ๋ จ-์ถ”๋ก  ๋ถˆ์ผ์น˜(Train-Inference Mismatch): ๋ชจ๋ธ์„ ํ•™์Šตํ•  ๋•Œ์˜ ์—ฐ์‚ฐ ๋ฐฉ์‹๊ณผ ์‹ค์ œ๋กœ ์ถ”๋ก (์„œ๋น™)ํ•  ๋•Œ์˜ ์—ฐ์‚ฐ ๋ฐฉ์‹ ์ฐจ์ด๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ์„ฑ๋Šฅ ์ €ํ•˜๋‚˜ ์˜ค๋ฅ˜ ํ˜„์ƒ์ž…๋‹ˆ๋‹ค.
  • ๋ถ„์‚ฐ(Variance): ์˜ˆ์ธก๊ฐ’์ด ์‹ค์ œ๊ฐ’ ์ฃผ๋ณ€์—์„œ ์–ผ๋งˆ๋‚˜ ํฉ๋ฟŒ๋ ค์ ธ ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„๋กœ, ๋†’์€ ๋ถ„์‚ฐ์€ ํ•™์Šต์˜ ๋ถˆ์•ˆ์ •์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡A Very Big Video Reasoning SuiteDD-031
๐ŸฅˆDoes Your Reasoning Model Implicitlโ€ฆDD-032
๐Ÿฅ‰VESPO: Variational Sequence-Level Sโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.The Trinity of Consistency as a Defโ€ฆDD-034
5.From Blind Spots to Gains: Diagnostโ€ฆDD-035

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-01 | ๐Ÿค– GLM-4.7 Deep Dive