โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-022 Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
arXiv: 2602.08222 Upvotes: 165 | Comments: 0 ์์: ์ด๋ฒ ์ฃผ Top 2

๋ ผ๋ฌธ ๋ถ์: Weak-Driven Learning
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ฌํ ํ๋ จ(Post-training) ๋ฐฉ์๋ค์ ๋ชจ๋ธ์ด ์ด๋ฏธ ์ ๋ต์ ์ ๋งํ๊ณ ๋์ ์์ ๊ฐ์ ๊ฐ์ง๊ฒ ๋๋ฉด(ํฌํ ์ํ), ๋ ์ด์ ์ฑ๋ฅ์ด ์ค๋ฅด์ง ์๋ ๊ณ ์ง์ ์ธ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ์ง ๋ชปํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ํฌํ ์ํ์ ๋น ์ง ๊ฐํ ๋ชจ๋ธ์ ๋ ๋๋ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด, ์ ๋ต์ ๊ฐ๋ฅด์ณ ์ฃผ๋ โ๋ ๊ฐํ ์ค์นโ ๋์ ๊ณผ๊ฑฐ์ โ์ฝํ ์ํโ๋ฅผ ์ญ์ด์ฉํ๋ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํ์ต๋๋ค. ์ฆ, ํ๋ จ ๊ณผ์ ์์ ๋ฒ๋ ค์ง๋ โ์ฝํจ(Weakness)โ๊ณผ โํผ๋(Confusion)โ์ ํ์ต์ ์ฐ๋ฃ๋ก ์ฌํ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ณ๋ฅผ ๋ซ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ด์๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : ํ ๋์ค ์ฝ์น์ ์ญ์ค์ ๊ฐ๋ฅด์นจ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ฐ๋ ์ โํ ๋์ค ์ฝ์นโ์ ๋น์ ํ ์ ์์ต๋๋ค. ๊ธฐ์กด์ ํ์ต ๋ฐฉ์์ ์ค๋ ฅ์ด ๋๊ณ ์์ ๊ฐ์ด ์๊ธด ํ๋ก ์ ์(๊ฐํ ๋ชจ๋ธ)์๊ฒ ๊ณ์ํด์ ์ฌ์ด ์ฝ์ค๋ฅผ ๊ณต๋ตํ๊ฒ ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ ์๋ ๋๋ฌด ์ฌ์์ ์ง๋ฃจํดํ๊ณ , ์ค๋ ฅ์ ๋ ์ด์ ๋์ง ์์ต๋๋ค(ํฌํ ์ํ). ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์กฐ๊ธ ๋ค๋ฆ ๋๋ค. ์ฝ์น๋ ํ๋ก ์ ์์๊ฒ ์์ ์ โ์ ๋ฌธ์ ์์ ์ค์ ์์(์ฝํ ๋ชจ๋ธ)โ์ ๋ณด์ฌ์ค๋๋ค.
๋น์์๋ ๊ณต์ด ๋คํธ์ ๊ฑธ๋ฆด๊น ๋ด ๋๋ ค์ํ๊ณ , ์ผ์ชฝ์ผ๋ก ๋ ์๊ฐ์ง ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ์ง ํ์ ์ด ์์ง ์์๋ โ๋ถํ์คํ ์ํโ๋ฅผ ๊ธฐ์ตํ๊ฒ ํ๋ ๊ฒ์ ๋๋ค. ์ด ๋ถํ์คํจ์ ๋์๊น์งํ๋ฉด์, ํ๋ก ์ ์๋ ๋จ์ํ โ๊ณต์ ๋๊ธฐ๋ ๊ฒโ์ ๋์ด โ์ ๊ทธ๋ ๊ฒ ์ํ๋ก์ด ์ท์ด ๋์ค๋ฉด ์ ๋๋์งโ๋ฅผ ๋ ๊น์ด ์ดํดํ๊ณ ์์ธ๋ฅผ ๊ต์ ํ๊ฒ ๋ฉ๋๋ค. ์ฆ, ๊ณผ๊ฑฐ์ ์ฝํ ๋ชจ์ต์ด ํ์ฌ์ ๊ฐํ ๋ชจ์ต์ ๋ ๋จ๋จํ๊ฒ ๋ง๋ค์ด์ฃผ๋ ๊ธฐ์ค์ ์ด ๋๋ ๊ฒ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ๋ฐฉ์์ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋จ๊ณ๋ก ๋์ํฉ๋๋ค.
์ฒซ์งธ, ์ฝํ ๋ชจ๋ธ๊ณผ ๊ฐํ ๋ชจ๋ธ ์ค๋นํ๊ธฐ ์ฐ์ ํ๋ จ ์ด๊ธฐ ๋จ๊ณ์ ์ฒดํฌํฌ์ธํธ๋ฅผ โ์ฝํ ๋ชจ๋ธ(Weak Agent)โ๋ก, ์ถฉ๋ถํ ํ๋ จ๋ ํ์ฌ์ ๋ชจ๋ธ์ โ๊ฐํ ๋ชจ๋ธ(Strong Agent)โ๋ก ์ค์ ํฉ๋๋ค. ์ฝํ ๋ชจ๋ธ์ ์ ๋ต์ ๋งํ๋๋ผ๋ ์ฌ๋ฌ ๊ฐ์ง ์ค๋ต์ ๊ณ ๋ฏผํ๋ ๋์จํ ํ๋๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
๋์งธ, ๋ถํ์ค์ฑ(Entropy) ๋ถ์์ ํตํ ๋ฐ์ดํฐ ์ ๋ณ ๊ฐํ ๋ชจ๋ธ์ ์ด๋ฏธ ๋ฌธ์ ๋ฅผ ์ฝ๊ฒ ํ์ด์ ๋ถํ์ค์ฑ์ด ๋ฎ์ต๋๋ค. ํ์ง๋ง ์ฝํ ๋ชจ๋ธ์ ๊ทธ ๋ฌธ์ ๋ฅผ ํ ๋ ๋ง์ด ๊ณ ๋ฏผํ์ ๊ฒ์ ๋๋ค. ์ด๋ ์ฝํ ๋ชจ๋ธ๊ณผ ๊ฐํ ๋ชจ๋ธ ์ฌ์ด์ โ๋ถํ์ค์ฑ ์ฐจ์ด(Entropy Dynamics)โ๋ฅผ ์ธก์ ํฉ๋๋ค. ์ฝํ ๋ชจ๋ธ์ ๊ณ ๋ฏผํ์ง๋ง ๊ฐํ ๋ชจ๋ธ์ ์ฝ๊ฒ ๋์ด๊ฐ๋ ๋ฌธ์ ๋ค์ ์ฐพ์๋ ๋๋ค. ์ด ๋ฌธ์ ๋ค์ด ๋ฐ๋ก โ๊ต์ ํด์ผ ํ ์ ์ฌ์ ํ์ โ์ด ์จ์ด ์๋ ๋ฐ์ดํฐ๋ค์ ๋๋ค.
์ ์งธ, ๋ณด์ ํ์ต(Compensatory Learning) ๊ฐ์ฅ ์ค์ํ ๋จ๊ณ์ ๋๋ค. ๊ฐํ ๋ชจ๋ธ์ ์ด๋ฏธ ์ค๋ต์ ๊ฑฐ์ 0%์ ํ๋ฅ ๋ก ์์ธกํ๊ธฐ ๋๋ฌธ์, ๋ ์ด์ ์ค๋ต์ ํผํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ์ด๋ฃจ์ด์ง์ง ์์ต๋๋ค(๊ธฐ์ธ๊ธฐ๊ฐ ์ฌ๋ผ์ง). ์ด๋ ์ฝํ ๋ชจ๋ธ์ ์์ธก ๊ฐ์ ์ผ๋ถ ์์ด(Logit Mixing), ๊ฐํ ๋ชจ๋ธ์๊ฒ โ์ด ์ค๋ต๋ ์๊ฐํด๋ณผ ๋งํ๋คโ๋ผ๊ณ ์ ์ ๋ฏฟ๊ฒ ๋ง๋ญ๋๋ค. ๊ทธ๋ฌ๋ฉด ๊ฐํ ๋ชจ๋ธ์ ๋ค์ ๊ทธ ์ค๋ต์ ํ์คํ๊ฒ ๋ฐฐ์ ํ๋ ค๊ณ ๋ ธ๋ ฅํ๊ฒ ๋๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ๋ ์นด๋ก์ด ํ๋จ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋ฉ๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
์ด ๊ณผ์ ์ ํต์ฌ์ โ๊ธฐ์ธ๊ธฐ(Gradient)โ์ ์ฑ์ง์ ์์ต๋๋ค. ๋ชจ๋ธ์ด ์ค๋ต($k$)์ ๋ผ ํ๋ฅ ($P$)์ด ๊ฑฐ์ 0์ด๋ผ๋ฉด, ์์ค ํจ์(Loss)๋ฅผ ์ค๋ต ๋ฐฉํฅ์ผ๋ก ๋ฏธ๋ถํ ๊ฐ๋ 0์ ๊ฐ๊น์์ ธ ํ์ต์ด ๋ฉ์ถฅ๋๋ค. ์์์ผ๋ก ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
$$ \left|\frac{\partial \ell}{\partial z_t[k]}\right| = P_{\theta}(k \mid x) $$
์ฌ๊ธฐ์ $P_{\theta}(k \mid x)$๊ฐ ์ค๋ต์ ํ๋ฅ ์ธ๋ฐ, ๊ฐํ ๋ชจ๋ธ์ ์ด ๊ฐ์ด 0์ ๋๋ค. ๊ทธ๋์ ์ฝํ ๋ชจ๋ธ์ ๋ก์ง(Logit)์ ์์ด ์ด ํ๋ฅ ์ ์ธ์์ ์ผ๋ก ๋์ฌ์ค๋๋ค. ๊ทธ๋ฌ๋ฉด ์ปค์ก๋ ํ๋ฅ ์ ๋ค์ ์ค์ด๊ธฐ ์ํด ๋ชจ๋ธ์ด ๊ฐ๋ ฅํ๊ฒ ํ์ตํ๊ฒ ๋๊ณ , ์ด๊ฒ์ด ๋ฐ๋ก โ์ฝํ ๋ชจ๋ธ์ด ๊ฐํ ๋ชจ๋ธ์ ๋ ๊ฐํ๊ฒ ๋ง๋๋โ ๋ฉ์ปค๋์ฆ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์์ ์คํ์ ์ํํ์ต๋๋ค. ํนํ ์ต์ ๋์ด๋์ ์ํ ๋ฌธ์ ์ธ AIME 2025 ๋ฐ์ดํฐ์ ์์ ์ฃผ๋ชฉํ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ฑ๋ฅ ํฅ์ ์์น ๊ธฐ์กด์ ์ง๋ ํ์ต ๋ฐฉ์(SFT)์ผ๋ก๋ ์ฑ๋ฅ์ด ์ ์ฒด๋๋ ์ํฉ์์, ์ด ๋ฐฉ์(WMSS)์ ์ ์ฉํ์ ๋ ์ฑ๋ฅ์ด ๋ ๋ฐฐ ๊ฐ๊น์ด ์์นํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ํ ๋ฌธ์ ํ์ด์์ ๋ชจ๋ธ์ด ๋งํ ์๋ ๋ถ๋ถ์ ๋ซ๊ณ ์ ๋ต๋ฅ ์ ํฌ๊ฒ ๋์์ต๋๋ค.
ํจ์จ์ฑ ๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ์ด๋ฌํ ์ฑ๋ฅ ํฅ์์ด ์ถ๋ก (Inference) ๋น์ฉ ์ฆ๊ฐ ์์ด ์ด๋ฃจ์ด์ก๋ค๋ ๊ฒ์ ๋๋ค. ํ๋ จ ์์๋ง ์ฝํ ๋ชจ๋ธ์ ์ฐธ๊ณ ํ๊ณ , ์ค์ ๋ก ์๋น์ค๋ฅผ ํ ๋๋ ๊ฐํ ๋ชจ๋ธ๋ง ์ฌ์ฉํ๋ฉด ๋๋ฏ๋ก ์ถ๊ฐ์ ์ธ GPU ์์์ด๋ ์๋ ์ ํ๊ฐ ์ ํ ์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ ์ด ๋ฐฉ์์ ํ๋ จ ๊ณผ์ ์์ ๊ณผ๊ฑฐ์ ์ฒดํฌํฌ์ธํธ๋ฅผ ๋ณ๋๋ก ์ ์งํ๊ณ ๊ด๋ฆฌํด์ผ ํ๋ฏ๋ก, ์ ์ฅ ๊ณต๊ฐ์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๋ค์ ์ฆ๊ฐํ ์ ์์ต๋๋ค. ๋ํ, ์ด๋ค ์์ ์ ์ฒดํฌํฌ์ธํธ๋ฅผ โ์ฝํ ๋ชจ๋ธโ๋ก ์ ์ ํ๋๋์ ๋ฐ๋ผ ์ฑ๋ฅ ํธ์ฐจ๊ฐ ์์ ์ ์์ต๋๋ค. ๋๋ฌด ์ฝํ ๋ชจ๋ธ์ ์ฐ๋ฉด ๋ ธ์ด์ฆ๊ฐ ์ฌํ๊ณ , ๋๋ฌด ๊ฐํ ๋ชจ๋ธ์ ์ฐ๋ฉด ํจ๊ณผ๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ฐ์ ๊ฐ๋ฅ์ฑ ํ์ฌ๋ ๋จ์ํ ๊ณผ๊ฑฐ์ ์ฒดํฌํฌ์ธํธ ํ๋๋ฅผ ์ฌ์ฉํ์ง๋ง, ์์ผ๋ก๋ ์ฌ๋ฌ ์์ ์ ์ฝํ ๋ชจ๋ธ๋ค์ ์์๋ธํด์ ๊ฐํ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๋ฐฉ์์ด๋, ๋ชจ๋ธ ์ค์ค๋ก ์์ ์ ์ฝํ ๋ถ๋ถ์ ์ง๋จํ๊ณ ๊ต์ ํ๋ โ์๊ฐ ์งํ(Self-evolution)โ ๊ตฌ์กฐ๋ก ํ์ฅ๋ ์ ์์ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ LLM(Large Language Model)์ ์ฌํ ํ๋ จ(Fine-tuning)ํ์ฌ ์ค๋ฌด์ ๋ฐฐํฌํ๋ ๋ชจ๋ ๋ถ์ผ์ ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ ์ํ ๋ฌธ์ ํ์ด, ์ฝ๋ฉ ๋ณด์กฐ, ๋ณต์กํ ๋ ผ๋ฆฌ์ ์ถ๋ก ์ด ํ์ํ ์์ ์์ ๋ชจ๋ธ์ด ์ฑ๋ฅ์ ๋ฒฝ์ ๋ถ๋ชํ์ ๋, ์ด ๋ฐฉ์์ ๋์ ํ๋ฉด ์ถ๊ฐ์ ์ธ ๋น์ฉ ์์ด ์ฑ๋ฅ์ ํ ๋จ๊ณ ๋์ด์ฌ๋ฆด ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค ๋ณ๋์ ํน์ํ ํ๋์จ์ด๊ฐ ํ์ํ ๊ฒ์ ์๋๋๋ค. ๊ธฐ์กด์ ํ์ธ ํ๋ ํ๊ฒฝ์์ ํ๋ จ ๋ฐ์ดํฐ ๋ก๋ฉ ๋ถ๋ถ๊ณผ ์์ค ํจ์ ๊ณ์ฐ ๋ถ๋ถ๋ง ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์๋๋ก ์์ ํ๋ฉด ๋ฉ๋๋ค. ๋์ ํ๋ จ ์ค์ ์ฝํ ๋ชจ๋ธ(๊ธฐ์กด ์ฒดํฌํฌ์ธํธ)์ ๋ฉ๋ชจ๋ฆฌ์ ๊ฐ์ด ์ฌ๋ ค๋์ด์ผ ํ๋ฏ๋ก GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ ๊ฐ ์กฐ๊ธ ๋ ํ์ํ ์ ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
-
Supervised Fine-Tuning (SFT) ์ฌ๋์ด ์ ๋ต์ ์๋ ค์ฃผ๋ ์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก, ๋ชจ๋ธ์ด ํน์ ์์ ์ ๋ง๊ฒ ์ธ๋ฐํ๊ฒ ์กฐ์ ๋๋ ๊ณผ์ ์ ๋๋ค.
-
Knowledge Distillation (์ง์ ์ฆ๋ฅ) ํฌ๊ณ ๋๋ํ ๋ชจ๋ธ(Teacher)์ ์ง์์ ์๊ณ ๊ฐ๋ฒผ์ด ๋ชจ๋ธ(Student)์๊ฒ ์ฎ๊ฒจ์ฃผ๋ ๊ธฐ์ ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด์ ๋ฐ๋๋ก ์ฝํ ๋ชจ๋ธ์ ํ์ฉํฉ๋๋ค.
-
Logit ๋ชจ๋ธ์ด ๊ฐ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ ์ถ๋ ฅํ๋, ๋จ์ด๋ณ ์ ์ ํน์ ๊ฐ์น๋ฅผ ๋ํ๋ด๋ ์์ ๊ฐ(Raw Score)์ ๋๋ค.
-
Entropy (์ํธ๋กํผ) ๋ถํ์ค์ฑ์ ์ ๋๋ฅผ ๋ํ๋ด๋ ์ฒ๋์ ๋๋ค. ์ํธ๋กํผ๊ฐ ๋๋ค๋ ๊ฒ์ ๋ชจ๋ธ์ด ์ฌ๋ฌ ์ ํ์ง ์ฌ์ด์์ ๊ณ ๋ฏผํ๊ณ ์๋ค๋ ๋ป์ด๋ฉฐ, ๋ฎ๋ค๋ ๊ฒ์ ํน์ ๋ต์ ๋งค์ฐ ํ์ ํ๋ค๋ ๋ป์ ๋๋ค.
-
Gradient (๊ธฐ์ธ๊ธฐ) ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ข๊ฒ ๋ง๋ค๊ธฐ ์ํด ํ๋ผ๋ฏธํฐ(Weight)๋ฅผ ์ด๋ ๋ฐฉํฅ์ผ๋ก ์ผ๋ง๋ ์์ ํด์ผ ํ ์ง๋ฅผ ์๋ ค์ฃผ๋ ์งํ์ ๋๋ค.
-
Inference Cost (์ถ๋ก ๋น์ฉ) ๋ชจ๋ธ์ด ํ์ต๋ ํ ์ค์ ๋ก ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ต๋ณ์ ์์ฑํ ๋ ๋๋ ์ฐ์ฐ ๋น์ฉ์ด๋ ์๊ฐ์ ์๋ฏธํฉ๋๋ค.
-
Saturation (ํฌํ) ํ๋ จ์ ๊ณ์ํด๋ ์ฑ๋ฅ์ด ๋ ์ด์ ์ค๋ฅด์ง ์๊ณ ์ ์ฒด๋๋ ์ํ๋ฅผ ๋งํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | OPUS: Towards Efficient and Principโฆ | DD-021 |
| ๐ฅ | Weak-Driven Learning: How Weak Agenโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | TermiGen: High-Fidelity Environmentโฆ | DD-023 |
| 4. | Code2World: A GUI World Model via Rโฆ | DD-024 |
| 5. | The Devil Behind Moltbook: Anthropiโฆ | DD-025 |
๐ ์์ฑ์ผ: 2026-02-15 | ๐ค GLM-4.7 Deep Dive