โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-022 Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

arXiv: 2602.08222 Upvotes: 165 | Comments: 0 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2

Figure 1


๋…ผ๋ฌธ ๋ถ„์„: Weak-Driven Learning


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ์‚ฌํ›„ ํ›ˆ๋ จ(Post-training) ๋ฐฉ์‹๋“ค์€ ๋ชจ๋ธ์ด ์ด๋ฏธ ์ •๋‹ต์„ ์ž˜ ๋งžํžˆ๊ณ  ๋†’์€ ์ž์‹ ๊ฐ์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋ฉด(ํฌํ™” ์ƒํƒœ), ๋” ์ด์ƒ ์„ฑ๋Šฅ์ด ์˜ค๋ฅด์ง€ ์•Š๋Š” ๊ณ ์งˆ์ ์ธ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ํฌํ™” ์ƒํƒœ์— ๋น ์ง„ ๊ฐ•ํ•œ ๋ชจ๋ธ์„ ๋” ๋˜‘๋˜‘ํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด, ์ •๋‹ต์„ ๊ฐ€๋ฅด์ณ ์ฃผ๋Š” โ€˜๋” ๊ฐ•ํ•œ ์Šค์Šนโ€™ ๋Œ€์‹  ๊ณผ๊ฑฐ์˜ โ€˜์•ฝํ•œ ์ƒํƒœโ€™๋ฅผ ์—ญ์ด์šฉํ•˜๋Š” ํ˜์‹ ์ ์ธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ๋ฒ„๋ ค์ง€๋˜ โ€˜์•ฝํ•จ(Weakness)โ€˜๊ณผ โ€˜ํ˜ผ๋ž€(Confusion)โ€˜์„ ํ•™์Šต์˜ ์—ฐ๋ฃŒ๋กœ ์žฌํ™œ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์˜ ํ•œ๊ณ„๋ฅผ ๋šซ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์—ด์—ˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ํ…Œ๋‹ˆ์Šค ์ฝ”์น˜์˜ ์—ญ์„ค์  ๊ฐ€๋ฅด์นจ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ฐœ๋…์€ โ€˜ํ…Œ๋‹ˆ์Šค ์ฝ”์น˜โ€™์— ๋น„์œ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ํ•™์Šต ๋ฐฉ์‹์€ ์‹ค๋ ฅ์ด ๋Š˜๊ณ  ์ž์‹ ๊ฐ์ด ์ƒ๊ธด ํ”„๋กœ ์„ ์ˆ˜(๊ฐ•ํ•œ ๋ชจ๋ธ)์—๊ฒŒ ๊ณ„์†ํ•ด์„œ ์‰ฌ์šด ์ฝ”์Šค๋ฅผ ๊ณต๋žตํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์„ ์ˆ˜๋Š” ๋„ˆ๋ฌด ์‰ฌ์›Œ์„œ ์ง€๋ฃจํ•ดํ•˜๊ณ , ์‹ค๋ ฅ์€ ๋” ์ด์ƒ ๋Š˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค(ํฌํ™” ์ƒํƒœ). ํ•˜์ง€๋งŒ ์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์€ ์กฐ๊ธˆ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์ฝ”์น˜๋Š” ํ”„๋กœ ์„ ์ˆ˜์—๊ฒŒ ์ž์‹ ์˜ โ€˜์ž…๋ฌธ์ž ์‹œ์ ˆ ์‹ค์ˆ˜ ์˜์ƒ(์•ฝํ•œ ๋ชจ๋ธ)โ€˜์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋‹น์‹œ์—๋Š” ๊ณต์ด ๋„คํŠธ์— ๊ฑธ๋ฆด๊นŒ ๋ด ๋‘๋ ค์›Œํ–ˆ๊ณ , ์™ผ์ชฝ์œผ๋กœ ๋‚ ์•„๊ฐˆ์ง€ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐˆ์ง€ ํ™•์‹ ์ด ์„œ์ง€ ์•Š์•˜๋˜ โ€˜๋ถˆํ™•์‹คํ•œ ์ƒํƒœโ€™๋ฅผ ๊ธฐ์–ตํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋ถˆํ™•์‹คํ•จ์„ ๋˜์ƒˆ๊น€์งˆํ•˜๋ฉด์„œ, ํ”„๋กœ ์„ ์ˆ˜๋Š” ๋‹จ์ˆœํžˆ โ€œ๊ณต์„ ๋„˜๊ธฐ๋Š” ๊ฒƒโ€์„ ๋„˜์–ด โ€œ์™œ ๊ทธ๋ ‡๊ฒŒ ์œ„ํƒœ๋กœ์šด ์ƒท์ด ๋‚˜์˜ค๋ฉด ์•ˆ ๋˜๋Š”์ง€โ€๋ฅผ ๋” ๊นŠ์ด ์ดํ•ดํ•˜๊ณ  ์ž์„ธ๋ฅผ ๊ต์ •ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๊ณผ๊ฑฐ์˜ ์•ฝํ•œ ๋ชจ์Šต์ด ํ˜„์žฌ์˜ ๊ฐ•ํ•œ ๋ชจ์Šต์„ ๋” ๋‹จ๋‹จํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ๊ธฐ์ค€์ ์ด ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ด ๋ฐฉ์‹์€ ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

์ฒซ์งธ, ์•ฝํ•œ ๋ชจ๋ธ๊ณผ ๊ฐ•ํ•œ ๋ชจ๋ธ ์ค€๋น„ํ•˜๊ธฐ ์šฐ์„  ํ›ˆ๋ จ ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ์ฒดํฌํฌ์ธํŠธ๋ฅผ โ€˜์•ฝํ•œ ๋ชจ๋ธ(Weak Agent)โ€˜๋กœ, ์ถฉ๋ถ„ํžˆ ํ›ˆ๋ จ๋œ ํ˜„์žฌ์˜ ๋ชจ๋ธ์„ โ€˜๊ฐ•ํ•œ ๋ชจ๋ธ(Strong Agent)โ€˜๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ์•ฝํ•œ ๋ชจ๋ธ์€ ์ •๋‹ต์„ ๋งžํžˆ๋”๋ผ๋„ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์˜ค๋‹ต์„ ๊ณ ๋ฏผํ•˜๋Š” ๋А์Šจํ•œ ํƒœ๋„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋‘˜์งธ, ๋ถˆํ™•์‹ค์„ฑ(Entropy) ๋ถ„์„์„ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ์„ ๋ณ„ ๊ฐ•ํ•œ ๋ชจ๋ธ์€ ์ด๋ฏธ ๋ฌธ์ œ๋ฅผ ์‰ฝ๊ฒŒ ํ’€์–ด์„œ ๋ถˆํ™•์‹ค์„ฑ์ด ๋‚ฎ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์•ฝํ•œ ๋ชจ๋ธ์€ ๊ทธ ๋ฌธ์ œ๋ฅผ ํ’€ ๋•Œ ๋งŽ์ด ๊ณ ๋ฏผํ–ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋•Œ ์•ฝํ•œ ๋ชจ๋ธ๊ณผ ๊ฐ•ํ•œ ๋ชจ๋ธ ์‚ฌ์ด์˜ โ€˜๋ถˆํ™•์‹ค์„ฑ ์ฐจ์ด(Entropy Dynamics)โ€˜๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์•ฝํ•œ ๋ชจ๋ธ์€ ๊ณ ๋ฏผํ–ˆ์ง€๋งŒ ๊ฐ•ํ•œ ๋ชจ๋ธ์€ ์‰ฝ๊ฒŒ ๋„˜์–ด๊ฐ”๋˜ ๋ฌธ์ œ๋“ค์„ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ๋“ค์ด ๋ฐ”๋กœ โ€˜๊ต์ •ํ•ด์•ผ ํ•  ์ž ์žฌ์  ํ—ˆ์ โ€™์ด ์ˆจ์–ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋“ค์ž…๋‹ˆ๋‹ค.

์…‹์งธ, ๋ณด์ƒ ํ•™์Šต(Compensatory Learning) ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ๊ฐ•ํ•œ ๋ชจ๋ธ์€ ์ด๋ฏธ ์˜ค๋‹ต์„ ๊ฑฐ์˜ 0%์˜ ํ™•๋ฅ ๋กœ ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋” ์ด์ƒ ์˜ค๋‹ต์„ ํ”ผํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์ด ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค(๊ธฐ์šธ๊ธฐ๊ฐ€ ์‚ฌ๋ผ์ง). ์ด๋•Œ ์•ฝํ•œ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ๊ฐ’์„ ์ผ๋ถ€ ์„ž์–ด(Logit Mixing), ๊ฐ•ํ•œ ๋ชจ๋ธ์—๊ฒŒ โ€œ์ด ์˜ค๋‹ต๋„ ์ƒ๊ฐํ•ด๋ณผ ๋งŒํ•˜๋‹คโ€๋ผ๊ณ  ์ž ์‹œ ๋ฏฟ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๊ฐ•ํ•œ ๋ชจ๋ธ์€ ๋‹ค์‹œ ๊ทธ ์˜ค๋‹ต์„ ํ™•์‹คํ•˜๊ฒŒ ๋ฐฐ์ œํ•˜๋ ค๊ณ  ๋…ธ๋ ฅํ•˜๊ฒŒ ๋˜๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋” ๋‚ ์นด๋กœ์šด ํŒ๋‹จ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๊ณผ์ •์˜ ํ•ต์‹ฌ์€ โ€˜๊ธฐ์šธ๊ธฐ(Gradient)โ€˜์˜ ์„ฑ์งˆ์— ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ์˜ค๋‹ต($k$)์„ ๋‚ผ ํ™•๋ฅ ($P$)์ด ๊ฑฐ์˜ 0์ด๋ผ๋ฉด, ์†์‹ค ํ•จ์ˆ˜(Loss)๋ฅผ ์˜ค๋‹ต ๋ฐฉํ–ฅ์œผ๋กœ ๋ฏธ๋ถ„ํ•œ ๊ฐ’๋„ 0์— ๊ฐ€๊นŒ์›Œ์ ธ ํ•™์Šต์ด ๋ฉˆ์ถฅ๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

$$ \left|\frac{\partial \ell}{\partial z_t[k]}\right| = P_{\theta}(k \mid x) $$

์—ฌ๊ธฐ์„œ $P_{\theta}(k \mid x)$๊ฐ€ ์˜ค๋‹ต์˜ ํ™•๋ฅ ์ธ๋ฐ, ๊ฐ•ํ•œ ๋ชจ๋ธ์€ ์ด ๊ฐ’์ด 0์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์•ฝํ•œ ๋ชจ๋ธ์˜ ๋กœ์ง“(Logit)์„ ์„ž์–ด ์ด ํ™•๋ฅ ์„ ์ธ์œ„์ ์œผ๋กœ ๋†’์—ฌ์ค๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์ปค์กŒ๋˜ ํ™•๋ฅ ์„ ๋‹ค์‹œ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์ด ๊ฐ•๋ ฅํ•˜๊ฒŒ ํ•™์Šตํ•˜๊ฒŒ ๋˜๊ณ , ์ด๊ฒƒ์ด ๋ฐ”๋กœ โ€˜์•ฝํ•œ ๋ชจ๋ธ์ด ๊ฐ•ํ•œ ๋ชจ๋ธ์„ ๋” ๊ฐ•ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š”โ€™ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ์ฝ”๋“œ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์—์„œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ตœ์‹  ๋‚œ์ด๋„์˜ ์ˆ˜ํ•™ ๋ฌธ์ œ์ธ AIME 2025 ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ํ–ฅ์ƒ ์ˆ˜์น˜ ๊ธฐ์กด์˜ ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹(SFT)์œผ๋กœ๋Š” ์„ฑ๋Šฅ์ด ์ •์ฒด๋˜๋˜ ์ƒํ™ฉ์—์„œ, ์ด ๋ฐฉ์‹(WMSS)์„ ์ ์šฉํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ๋‘ ๋ฐฐ ๊ฐ€๊นŒ์ด ์ƒ์Šนํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ˆ˜ํ•™ ๋ฌธ์ œ ํ’€์ด์—์„œ ๋ชจ๋ธ์ด ๋ง‰ํ˜€ ์žˆ๋˜ ๋ถ€๋ถ„์„ ๋šซ๊ณ  ์ •๋‹ต๋ฅ ์„ ํฌ๊ฒŒ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

ํšจ์œจ์„ฑ ๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์ถ”๋ก (Inference) ๋น„์šฉ ์ฆ๊ฐ€ ์—†์ด ์ด๋ฃจ์–ด์กŒ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ›ˆ๋ จ ์‹œ์—๋งŒ ์•ฝํ•œ ๋ชจ๋ธ์„ ์ฐธ๊ณ ํ•˜๊ณ , ์‹ค์ œ๋กœ ์„œ๋น„์Šค๋ฅผ ํ•  ๋•Œ๋Š” ๊ฐ•ํ•œ ๋ชจ๋ธ๋งŒ ์‚ฌ์šฉํ•˜๋ฉด ๋˜๋ฏ€๋กœ ์ถ”๊ฐ€์ ์ธ GPU ์ž์›์ด๋‚˜ ์†๋„ ์ €ํ•˜๊ฐ€ ์ „ํ˜€ ์—†์Šต๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„ ์ด ๋ฐฉ์‹์€ ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ๊ณผ๊ฑฐ์˜ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๋ณ„๋„๋กœ ์œ ์ง€ํ•˜๊ณ  ๊ด€๋ฆฌํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ์ €์žฅ ๊ณต๊ฐ„์ด๋‚˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ๋‹ค์†Œ ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์–ด๋–ค ์‹œ์ ์˜ ์ฒดํฌํฌ์ธํŠธ๋ฅผ โ€˜์•ฝํ•œ ๋ชจ๋ธโ€™๋กœ ์„ ์ •ํ•˜๋А๋ƒ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ํŽธ์ฐจ๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋„ˆ๋ฌด ์•ฝํ•œ ๋ชจ๋ธ์„ ์“ฐ๋ฉด ๋…ธ์ด์ฆˆ๊ฐ€ ์‹ฌํ•˜๊ณ , ๋„ˆ๋ฌด ๊ฐ•ํ•œ ๋ชจ๋ธ์„ ์“ฐ๋ฉด ํšจ๊ณผ๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ํ˜„์žฌ๋Š” ๋‹จ์ˆœํžˆ ๊ณผ๊ฑฐ์˜ ์ฒดํฌํฌ์ธํŠธ ํ•˜๋‚˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ์•ž์œผ๋กœ๋Š” ์—ฌ๋Ÿฌ ์‹œ์ ์˜ ์•ฝํ•œ ๋ชจ๋ธ๋“ค์„ ์•™์ƒ๋ธ”ํ•ด์„œ ๊ฐ•ํ•œ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๋ฐฉ์‹์ด๋‚˜, ๋ชจ๋ธ ์Šค์Šค๋กœ ์ž์‹ ์˜ ์•ฝํ•œ ๋ถ€๋ถ„์„ ์ง„๋‹จํ•˜๊ณ  ๊ต์ •ํ•˜๋Š” โ€˜์ž๊ฐ€ ์ง„ํ™”(Self-evolution)โ€™ ๊ตฌ์กฐ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.


5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ LLM(Large Language Model)์„ ์‚ฌํ›„ ํ›ˆ๋ จ(Fine-tuning)ํ•˜์—ฌ ์‹ค๋ฌด์— ๋ฐฐํฌํ•˜๋Š” ๋ชจ๋“  ๋ถ„์•ผ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ’€์ด, ์ฝ”๋”ฉ ๋ณด์กฐ, ๋ณต์žกํ•œ ๋…ผ๋ฆฌ์  ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ๋ชจ๋ธ์ด ์„ฑ๋Šฅ์˜ ๋ฒฝ์— ๋ถ€๋”ชํ˜”์„ ๋•Œ, ์ด ๋ฐฉ์‹์„ ๋„์ž…ํ•˜๋ฉด ์ถ”๊ฐ€์ ์ธ ๋น„์šฉ ์—†์ด ์„ฑ๋Šฅ์„ ํ•œ ๋‹จ๊ณ„ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค ๋ณ„๋„์˜ ํŠน์ˆ˜ํ•œ ํ•˜๋“œ์›จ์–ด๊ฐ€ ํ•„์š”ํ•œ ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ํŒŒ์ธ ํŠœ๋‹ ํ™˜๊ฒฝ์—์„œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๋กœ๋”ฉ ๋ถ€๋ถ„๊ณผ ์†์‹ค ํ•จ์ˆ˜ ๊ณ„์‚ฐ ๋ถ€๋ถ„๋งŒ ์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹๋Œ€๋กœ ์ˆ˜์ •ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๋Œ€์‹  ํ›ˆ๋ จ ์ค‘์— ์•ฝํ•œ ๋ชจ๋ธ(๊ธฐ์กด ์ฒดํฌํฌ์ธํŠธ)์„ ๋ฉ”๋ชจ๋ฆฌ์— ๊ฐ™์ด ์˜ฌ๋ ค๋‘์–ด์•ผ ํ•˜๋ฏ€๋กœ GPU ๋ฉ”๋ชจ๋ฆฌ ์—ฌ์œ ๊ฐ€ ์กฐ๊ธˆ ๋” ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Supervised Fine-Tuning (SFT) ์‚ฌ๋žŒ์ด ์ •๋‹ต์„ ์•Œ๋ ค์ฃผ๋Š” ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์œผ๋กœ, ๋ชจ๋ธ์ด ํŠน์ • ์ž‘์—…์— ๋งž๊ฒŒ ์„ธ๋ฐ€ํ•˜๊ฒŒ ์กฐ์ •๋˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

  • Knowledge Distillation (์ง€์‹ ์ฆ๋ฅ˜) ํฌ๊ณ  ๋˜‘๋˜‘ํ•œ ๋ชจ๋ธ(Teacher)์˜ ์ง€์‹์„ ์ž‘๊ณ  ๊ฐ€๋ฒผ์šด ๋ชจ๋ธ(Student)์—๊ฒŒ ์˜ฎ๊ฒจ์ฃผ๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด์™€ ๋ฐ˜๋Œ€๋กœ ์•ฝํ•œ ๋ชจ๋ธ์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • Logit ๋ชจ๋ธ์ด ๊ฐ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์ „ ์ถœ๋ ฅํ•˜๋Š”, ๋‹จ์–ด๋ณ„ ์ ์ˆ˜ ํ˜น์€ ๊ฐ€์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์›์‹œ ๊ฐ’(Raw Score)์ž…๋‹ˆ๋‹ค.

  • Entropy (์—”ํŠธ๋กœํ”ผ) ๋ถˆํ™•์‹ค์„ฑ์˜ ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„์ž…๋‹ˆ๋‹ค. ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’๋‹ค๋Š” ๊ฒƒ์€ ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ์„ ํƒ์ง€ ์‚ฌ์ด์—์„œ ๊ณ ๋ฏผํ•˜๊ณ  ์žˆ๋‹ค๋Š” ๋œป์ด๋ฉฐ, ๋‚ฎ๋‹ค๋Š” ๊ฒƒ์€ ํŠน์ • ๋‹ต์„ ๋งค์šฐ ํ™•์‹ ํ•œ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

  • Gradient (๊ธฐ์šธ๊ธฐ) ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ข‹๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ํŒŒ๋ผ๋ฏธํ„ฐ(Weight)๋ฅผ ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ์ˆ˜์ •ํ•ด์•ผ ํ• ์ง€๋ฅผ ์•Œ๋ ค์ฃผ๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.

  • Inference Cost (์ถ”๋ก  ๋น„์šฉ) ๋ชจ๋ธ์ด ํ•™์Šต๋œ ํ›„ ์‹ค์ œ๋กœ ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ์— ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•  ๋•Œ ๋“œ๋Š” ์—ฐ์‚ฐ ๋น„์šฉ์ด๋‚˜ ์‹œ๊ฐ„์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

  • Saturation (ํฌํ™”) ํ›ˆ๋ จ์„ ๊ณ„์†ํ•ด๋„ ์„ฑ๋Šฅ์ด ๋” ์ด์ƒ ์˜ค๋ฅด์ง€ ์•Š๊ณ  ์ •์ฒด๋˜๋Š” ์ƒํƒœ๋ฅผ ๋งํ•ฉ๋‹ˆ๋‹ค.


๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡OPUS: Towards Efficient and Principโ€ฆDD-021
๐ŸฅˆWeak-Driven Learning: How Weak Agenโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰TermiGen: High-Fidelity Environmentโ€ฆDD-023
4.Code2World: A GUI World Model via Rโ€ฆDD-024
5.The Devil Behind Moltbook: Anthropiโ€ฆDD-025

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-15 | ๐Ÿค– GLM-4.7 Deep Dive