โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-033 VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training
arXiv: 2602.10693 ๊ธฐ๊ด: rednote-hilab Upvotes: 215 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 3

1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ฐํ ํ์ต(RL)์ผ๋ก ํ์ตํ ๋ ๋ฐ์ํ๋ โ๋ถ์์ ์ฑโ ๋ฌธ์ ๋ ์ค๋ซ๋์ ๋์ ์์ต๋๋ค. ํนํ, ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ๊ณผ ํ์ตํ๋ ๋ชจ๋ธ์ด ์๋ก ๋ค๋ฅธ ์ํ์ธ โOff-policyโ ์ํฉ(๋น๋๊ธฐ ํ์ต, ๋ฐฐ์น ์ง์ฐ ๋ฑ)์์ ๊ธฐ์กด์ ๋ฐฉ์๋ค์ ํ์ต์ด ๋ถ๊ดดํ๊ฑฐ๋ ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ฌธ์ ๋ฅผ ๊ฒช์์ต๋๋ค. VESPO๋ ์ด๋ฌํ ๋ถํฌ ์ฐจ์ด๋ฅผ ์ํ์ ์ผ๋ก ์ ๋นํ ๋ฐฉ๋ฒ์ผ๋ก ๋ณด์ ํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ๋ชจ๋ธ์ด 64 ์คํ ์ด๋ ๋ฆ์ด์ง ๋ฐ์ดํฐ๋ก๋ ์์ ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ๋ง๋ค์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : ๋ณํํ๋ ๋ ์ํผ์ ์๋ฆฌ์ฌ
์ด ๋ ผ๋ฌธ์ ์ํฉ์ โ๋ ์คํ ๋ ์ฃผ๋ฐฉโ์ ๋น์ ํด ๋ณด๊ฒ ์ต๋๋ค. ๋น์ ์ ํ์ ์ ์ธ ์๋ก์ด ๋ ์ํผ(ํ์ฌ ์ ์ฑ , Target Policy)๋ฅผ ๊ณ์ ๊ฐ์ ํ๊ณ ์๋ ์ ฐํ์ ๋๋ค. ํ์ง๋ง ์ค์ ์๋ฆฌ๋ฅผ ํ๋ ์ฃผ๋ฐฉ์ฅ๋ค์ ๋๋ฌด ๋ฐ๋น ์, ๋น์ ์ด ์ด์ ์์ ํ ๋ ์ํผ๊ฐ ์๋ ์ผ์ฃผ์ผ ์ ๋ ์ํผ(์ค๋๋ ์ ์ฑ , Behavior Policy)๋ฅผ ๋ณด๊ณ ์๋ฆฌ๋ฅผ ํฉ๋๋ค.
์ด ์ํฉ์์ ๋น์ ์ ์์ฑ๋ ์๋ฆฌ๋ฅผ ๋ณด๊ณ โ์ด ๋ ์ํผ๊ฐ ์ข์์ง ๋์์งโ๋ฅผ ํ๋จํด์ผ ํฉ๋๋ค.
- ๋ฌธ์ ์ : ์ฃผ๋ฐฉ์ฅ์ด ์ด ๋ ์ํผ์ ๋น์ ์ด ์ฐ๋ ๋ ์ํผ๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ๋ง์ด ์๋ ์ด์ ๊ฐ โ์ฌ๋ฃ ๋น์จโ ๋๋ฌธ์ธ์ง โ์ฃผ๋ฐฉ์ฅ์ ์ค์โ ๋๋ฌธ์ธ์ง ํท๊ฐ๋ฆฝ๋๋ค. ์ด๋ฅผ ๊ทธ๋๋ก ๋ฐ์ํด ๋ด ๋ ์ํผ๋ฅผ ๊ณ ์น๋ฉด ์คํ๋ ค ๋ง์ ๋ง์น ์ ์์ต๋๋ค.
- ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ: ๊ธฐ์กด ๋ฐฉ์(์: ํ ํฐ ๋จ์ ํด๋ฆฌํ)์ ์๊ธ, ์คํ ๋ฑ ์ฌ๋ฃ ํ๋ํ๋๋ฅผ ๋ฐ๋ก๋ฐ๋ก ๋ณด์ ํ๋ ค ํฉ๋๋ค. ํ์ง๋ง ์๋ฆฌ๋ ์ฌ๋ฃ ๊ฐ์ ์ํธ์์ฉ(๋ฌธ๋งฅ)์ด ์ค์ํ๋ฏ๋ก, ๊ฐ๋ณ ๋ณด์ ์ ์๋ฆฌ์ ๋ง์ ๋ง์น๊ฑฐ๋ ๋ณด์ ํจ๊ณผ๊ฐ ๋ฏธ๋ฏธํ ์ ์์ต๋๋ค.
- VESPO์ ์ ๊ทผ: VESPO๋ ์๋ฆฌ ์ ์ฒด(์ํ์ค ์ ์ฒด)๋ฅผ ํ๋๋ก ๋ณด๊ณ , โ์ฃผ๋ฐฉ์ฅ์ด ์ค์ ๋ก ์ด ๋ ์ํผ์ ๋ด ํ์ฌ ๋ ์ํผ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ๊ณ ๋ คํ ๋, ์ด ์๋ฆฌ๊ฐ ๋ง์น *๊ฐ์์ ์ต์ ๋ ์ํผ(Q)**๋ฅผ ๋ฐ๋ผ ๋ง๋ ๊ฒ์ฒ๋ผ ํด์ํ๋ ค๋ฉด ์ด๋ป๊ฒ ํ๊ฐํด์ผ ํ ๊น?โ๋ฅผ ์ํ์ ์ผ๋ก ๊ณ์ฐํฉ๋๋ค. ์ฆ, ๊ฐ๋ณ ์ฌ๋ฃ๊ฐ ์๋๋ผ ์์ฑ๋ ์๋ฆฌ ์ ์ฒด์ ๊ถค์ ์ ๋ฐ๋ก์ก์, ๋ด ๋ ์ํผ๋ฅผ ์์ ํ๊ณ ํจ๊ณผ์ ์ผ๋ก ์ ๋ฐ์ดํธํฉ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ๊ฐ์ค์น ๊ณ์ฐ (Importance Weight): ๋ชจ๋ธ์ด ํ์ฌ ์ ์ฑ ์ผ๋ก๋ ๋ฌธ์ฅ์ ์์ฑํ ํ๋ฅ ๊ณผ, ๊ณผ๊ฑฐ์ ์ค์ ๋ก ์์ฑํ์ ํ๋ฅ ์ ๋น์จ์ ๊ณ์ฐํฉ๋๋ค. ์ด๊ฒ์ด โ์ผ๋ง๋ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋๊ฐโ๋ฅผ ๋ํ๋ด๋ ์ฒ๋์ ๋๋ค.
- ๋ณ๋ถ์ ์ต์ ํ (Variational Optimization): VESPO๋ ๋จ์ํ ์ด ๋น์จ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, โ์ด ๋น์จ์ ์ด๋ค ํจ์์ ํต๊ณผ์ํค๋ฉด ๋ถ์ฐ(Variance)์ด ๊ฐ์ฅ ์ค์ด๋ค๋ฉด์๋ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ป์ ์ ์์๊น?โ๋ผ๋ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํ๋๋ค. ๋ง์น ๋ฐ์ดํฐ์ ์ก์์ ๊ฑธ๋ฌ๋ด๋ ๊ฐ์ฅ ์ข์ ํํฐ๋ฅผ ์ค๊ณํ๋ ๊ณผ์ ์ ๋๋ค.
- ๊ฐ์ ์ ์ ๋ถํฌ ๋์ถ (Implicit Proposal Q): ์ด ๊ณผ์ ์ ํตํด ๋์ถ๋ ํจ์๋ ์ฌ์ค์ ๋ฐ์ดํฐ๋ฅผ ๋ง์น โ๊ฐ์์ ์ ์ ๋ถํฌ(Q)โ์์ ๋ฝ์ ๊ฒ์ฒ๋ผ ์ทจ๊ธํฉ๋๋ค. ์ด Q๋ ์๋ณธ ๋ฐ์ดํฐ์ ํน์ฑ์ ์ ์งํ๋ฉด์๋ ํ์ฌ ํ์ตํ๋ ค๋ ๋ฐฉํฅ์ผ๋ก ๋ถ๋๋ฝ๊ฒ ์กฐ์ ๋ ์ํ์ ๋๋ค.
- ์ํ์ค ๋จ์ ์ ๋ฐ์ดํธ: ์ด ๋ณด์ ์ด ํ ํฐ ํ๋ํ๋๊ฐ ์๋๋ผ ๋ฌธ์ฅ ์ ์ฒด ์ํ์ค์ ๋ํด ํ ๋ฒ์ ์ด๋ฃจ์ด์ง๋ฏ๋ก, ๋ฌธ๋งฅ์ด ๊นจ์ง์ง ์๊ณ ๊ธธ์ด์ ๋ฐ๋ฅธ ํธํฅ(Bias)๋ ์๊ธฐ์ง ์์ต๋๋ค.
ํต์ฌ ์์ ๋ฐ ์๊ณ ๋ฆฌ์ฆ
๋ ผ๋ฌธ์ ํต์ฌ์ ์ค์๋ ๊ฐ์ค์น $W$๋ฅผ ์ฌํ์ฑํ๋ ํจ์ $\phi(W)$๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ ๋ณ๋ถ ๋ชฉ์ ํจ์์ผ๋ก ์ ์ํํฉ๋๋ค.
$$ \min_Q \left[ \text{KL}(Q || \mu) + \lambda \text{Var}_{Q} [G] \right] $$
์ฌ๊ธฐ์ $\mu$๋ ํ๋ ์ ์ฑ (๊ณผ๊ฑฐ ๋ฐ์ดํฐ), $Q$๋ ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ ํ๋ ๊ฐ์์ ์ ์ ๋ถํฌ, $G$๋ ๋ณด์์ ๋๋ค. ์ด ์์ โQ๊ฐ ์๋ณธ ๋ฐ์ดํฐ ๋ถํฌ $\mu$์์ ๋๋ฌด ๋ฒ์ด๋์ง ์์ผ๋ฉด์($\text{KL}$), ๋ณด์์ ๋ถ์ฐ($\text{Var}$)์ ์ต์ํํ๋ผโ๋ ์๋ฏธ์ ๋๋ค. ์ด ์์ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ๋ซํ ํ์(Closed-form)์ ํด๋ฅผ ์ป์ต๋๋ค.
$$ \phi^*(W) \propto \frac{1}{1 + \alpha W^2} $$
์ด ์ปค๋ ํจ์๋ ๊ฐ์ค์น $W$๊ฐ ๋๋ฌด ์ปค์ง๋ฉด(์ฆ, ํ์ฌ ์ ์ฑ ๊ณผ ๊ณผ๊ฑฐ ์ ์ฑ ์ด ๋๋ฌด ๋ค๋ฅด๋ฉด) ์๋์ผ๋ก ๊ฐ์ ๋ฎ์ถ์ด ํ์ต์ด ๋ถ์์ ํด์ง๋ ๊ฒ์ ๋ง์์ฃผ๋ ์ญํ ์ ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ๋?
์ฐ๊ตฌ์ง์ ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ณ ๋๋ ๋ฒค์น๋งํฌ์ธ AIME 2024/2025, AMC 2023, MATH-500์ ์ฌ์ฉํ์ต๋๋ค. ๋ชจ๋ธ์ Llama-3.2-3B, Qwen3-8B, ๊ทธ๋ฆฌ๊ณ ๋ผ์ฐํ ๋ถ์ผ์น ๋ฌธ์ ๊ฐ ์ฌํ MoE(Mixture of Experts) ์ํคํ ์ฒ์ธ Qwen3-30B-A3B-Base๋ฅผ ํ์ฉํ์ต๋๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ผ๋ง๋ ์ข์์ก๋?
- ์์ ์ฑ: VESPO๋ โStaleness Ratio(๋ฐ์ดํฐ ์ง์ฐ ๋น์จ)โ๊ฐ ์ต๋ 64๋ฐฐ์ ๋ฌํ๋ ๊ทนํ์ ์ํฉ์์๋ ํ์ต์ด ๋ถ๊ดดํ์ง ์๊ณ ์์ ์ ์ผ๋ก ์ฑ๋ฅ์ ์ ์งํ์ต๋๋ค. ๋ฐ๋ฉด ๊ธฐ์กด ๋ฐฉ์๋ค์ ๋ฐ์ดํฐ๊ฐ ์กฐ๊ธ๋ง ์ค๋๋์ด๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ก์ต๋๋ค.
- ์ฑ๋ฅ: ํ๊ท ์ ํ๋(Avg@k)์์ VESPO๋ GRPO๋ SAPO ๊ฐ์ ๊ธฐ์กด ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ๋ณด๋ค ์ผ๊ด๋๊ฒ ๋์ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
- MoE ๋ชจ๋ธ์์์ ๊ฐ์ : ํ์ต๊ณผ ์ถ๋ก ์์ง์ด ๋ฌ๋ผ ์๊ธฐ๋ ๋ถ์ผ์น(Mismatch)๊ฐ ์ฌํ MoE ๋ชจ๋ธ์์, VESPO๋ ์ด๋ฌํ ๋ ธ์ด์ฆ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํก์ํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์๋ฑํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๋จ์ํ ์ฑ๋ฅ ์์น ์์น์ ๋์ด, โ์์ ํ ๋น๋๊ธฐ์ ์ธ ํ์ต ์์คํ โ์ ๊ตฌ์ถํ ์ ์๋ ์ด๋ก ์ /์ค๋ฌด์ ํ ๋๋ฅผ ๋ง๋ จํ๋ค๋ ์ ์ด ๊ฐ์ฅ ํฐ ์ฑ๊ณผ์ ๋๋ค. ์ด๋ ๋๊ท๋ชจ LLM ๊ตฐ์ง(Cluster)์์ ๋ฆฌ์์ค ํจ์จ์ฑ์ ๊ทน๋ํํ๋ ๋ฐ ํต์ฌ์ ์ธ ๊ธฐ์ ์ด ๋ ๊ฒ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
๋ ผ๋ฌธ์ ์ฃผ๋ก ์ํ์ ์ถ๋ก ๊ณผ์ ์ ์ง์ค๋์ด ์์ด, ๋ํ๋ ๋๊ตฌ ์ฌ์ฉ์ด ํ์ํ ๋ณต์กํ โ์์ด์ ํธ(Agent)โ ํ๊ฒฝ์์์ ๊ฒ์ฆ์ด ์ถ๊ฐ๋ก ํ์ํด ๋ณด์ ๋๋ค. ๋ํ, VESPO๊ฐ ๋์ ํ๋ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ์ด ๊ทน๋๋ก ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ์์ ์ด๋ป๊ฒ ์์ฉํ ์ง์ ๋ํ ์ฌ์ธต ๋ถ์์ด ํฅํ ํ์ํ ์ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์ ๋ฐ ํฅํ ๋ฐฉํฅ
์ ์๋ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ๋ ํฐ ๋น๋๊ธฐ ํด๋ฌ์คํฐ๋ก์ ํ์ฅ, ๋ฉํฐ ํด(Multi-turn) ์ํธ์์ฉ ๋ฐ ๋๊ตฌ ์ฌ์ฉ์ด ํฌํจ๋ ์์ด์ ํธ RL ์ค์ ์ผ๋ก์ ํ์ฅ, ๊ทธ๋ฆฌ๊ณ ์คํผ์ ์ฆ๋ฅ(On-policy Distillation)์ ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ๋ ๊ฒ์ ์ ์ํ์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
ํ์ฌ LLM์ ๊ฐํ ํ์ต์ผ๋ก ํ์ธ ํ๋ํ๋ ๋ชจ๋ ๋ถ์ผ์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ํนํ ๋๊ท๋ชจ GPU ๊ตฐ์ฅ์ ์ด์ฉํ๋ฉฐ ๋ฐ์ดํฐ ์์ฑ๊ณผ ํ์ต์ ๋น๋๊ธฐ๋ก ์ฒ๋ฆฌํด์ผ ํ๋ ์ํฉ, ํน์ ํ์ต ์๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ฌ๋ฌ ๋ฏธ๋ ๋ฐฐ์น๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ๋ ํ์ดํ๋ผ์ธ์์ ํ์์ ์ธ ๊ธฐ์ ์ด ๋ ๊ฒ์ ๋๋ค. MoE(Mixture of Experts) ๋ชจ๋ธ์ ํ์ต์ํค๋ ํ๊ฒฝ์์๋ ๊ฑฐ์ ํ์์ ์ผ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค (GPU, ๋ฐ์ดํฐ ๋ฑ)
๋ ผ๋ฌธ์ ์คํ์ 32๊ฐ์ NVIDIA H20 GPU ํ๊ฒฝ์์ ์ํ๋์์ต๋๋ค. vLLM๊ณผ ๊ฐ์ ํจ์จ์ ์ธ ์ถ๋ก ์์ง๊ณผ FSDP์ ๊ฐ์ ๋ถ์ฐ ํ์ต ํ๋ ์์ํฌ๊ฐ ๊ฒฐํฉ๋ ํ๊ฒฝ์ด๋ผ๋ฉด, ๊ธฐ์กด PPO ํ์ต ํ์ดํ๋ผ์ธ์ ๋นํด ํฐ ์ถ๊ฐ ํ๋์จ์ด ๋น์ฉ ์์ด ์๊ณ ๋ฆฌ์ฆ๋ง ๊ต์ฒดํ์ฌ ์์ ์ฑ ์ด๋์ ์ป์ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ์คํํด๋ฆฌ ํ์ต(Off-Policy Learning): ์์ด์ ํธ๊ฐ ํ์ฌ์ ์ ์ฑ ์ด ์๋, ๊ณผ๊ฑฐ์ ํน์ ๋ค๋ฅธ ์ ์ฑ ์ ์ํด ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํ๋ ๊ฐํ ํ์ต ๋ฐฉ์์ ๋๋ค.
- ์ค์๋ ์ํ๋ง(Importance Sampling): ๋ค๋ฅธ ๋ถํฌ์์ ์ป์ ์ํ์ ์ด์ฉํด ํน์ ๋ถํฌ์ ๊ธฐ๋๊ฐ์ ์ถ์ ํ๋ ํต๊ณ์ ๊ธฐ๋ฒ์ผ๋ก, ๋ถํฌ๊ฐ ๋ค๋ฅผ ๋ ๋ฐ์ํ๋ ์ค์ฐจ๋ฅผ ๋ณด์ ํฉ๋๋ค.
- ์ ์ฑ ๊ทธ๋๋์ธํธ(Policy Gradient): ๊ฐํ ํ์ต์์ ์ ์ฑ ์ ์ง์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์์ด๋ฉฐ, PPO(Proximal Policy Optimization)๋ ์ด์ ๋ํ์ ์ธ ์์ ๋๋ค.
- ๋ณ๋ถ ์ถ๋ก (Variational Inference): ํ๋ฅ ๋ถํฌ๋ฅผ ๊ทผ์ฌํ๊ธฐ ์ํด ์ต์ ํ ๋ฌธ์ ๋ฅผ ํธ๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ๋ณต์กํ ๋ถํฌ๋ฅผ ๋ค๋ฃฐ ๋ ์ฌ์ฉ๋ฉ๋๋ค.
- ํผํฉ ์ ๋ฌธ๊ฐ ๋ชจ๋ธ(MoE, Mixture of Experts): ๋ชจ๋ธ์ ๊ฐ ๋ ์ด์ด๊ฐ ์ ์ฒด๊ฐ ์๋ ์ผ๋ถ ์ ๋ฌธ๊ฐ(Expert)๋ง ํ์ฑํ๋์ด ์ฐ์ฐ ํจ์จ์ ๋์ด๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋๋ค.
- ํ๋ จ-์ถ๋ก ๋ถ์ผ์น(Train-Inference Mismatch): ๋ชจ๋ธ์ ํ์ตํ ๋์ ์ฐ์ฐ ๋ฐฉ์๊ณผ ์ค์ ๋ก ์ถ๋ก (์๋น)ํ ๋์ ์ฐ์ฐ ๋ฐฉ์ ์ฐจ์ด๋ก ์ธํด ๋ฐ์ํ๋ ์ฑ๋ฅ ์ ํ๋ ์ค๋ฅ ํ์์ ๋๋ค.
- ๋ถ์ฐ(Variance): ์์ธก๊ฐ์ด ์ค์ ๊ฐ ์ฃผ๋ณ์์ ์ผ๋ง๋ ํฉ๋ฟ๋ ค์ ธ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์ฒ๋๋ก, ๋์ ๋ถ์ฐ์ ํ์ต์ ๋ถ์์ ์ ์ด๋ํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | A Very Big Video Reasoning Suite | DD-031 |
| ๐ฅ | Does Your Reasoning Model Implicitlโฆ | DD-032 |
| ๐ฅ | VESPO: Variational Sequence-Level Sโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | The Trinity of Consistency as a Defโฆ | DD-034 |
| 5. | From Blind Spots to Gains: Diagnostโฆ | DD-035 |
๐ ์์ฑ์ผ: 2026-03-01 | ๐ค GLM-4.7 Deep Dive