โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-012 Your Group-Relative Advantage Is Biased
arXiv: 2601.08521 Upvotes: 147 | Comments: 7 ์์: ์ด๋ฒ ์ฃผ Top 2

๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Your Group-Relative Advantage Is Biased (arXiv: 2601.08521)
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
DeepSeek-R1์ ์ฑ๊ณต ์ดํ, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด **GRPO(Group Relative Policy Optimization)**์ ๊ฐ์ ๊ทธ๋ฃน ๊ธฐ๋ฐ ๊ฐํ ํ์ต(RL) ๋ฐฉ๋ฒ์ด ํ์ค์ฒ๋ผ ์ฐ์ด๊ณ ์์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋ณ๋์ ๋นํ๊ฐ(Critic) ๋ชจ๋ธ ์์ด ๊ทธ๋ฃน ๋ด ํ๊ท ๋ณด์๋ง์ผ๋ก ํ์ตํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ ์ด ์ ๊ทผ๋ฒ์ด **โ์ด๋ ค์ด ๋ฌธ์ ๋ ์ด๋ ท๊ฒ, ์ฌ์ด ๋ฌธ์ ๋ ์ฝ๊ฒโ ํ๋จํ๋ ๊ทผ๋ณธ์ ์ธ ํธํฅ(Bias)**์ ๊ฐ์ง๊ณ ์์์ ์ํ์ ์ผ๋ก ์ฆ๋ช ํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋จ์ํ ์ฑ๋ฅ์ ๋์ด๋ ๊ฒ์ ๋์ด, ํ์ฌ ๊ฐ์ฅ ํซํ LLM ํ์ต ํจ๋ฌ๋ค์(RLVR)์ ์จ๊ฒจ์ง ๊ฒฐํจ์ ํด๋ถํ๊ณ ๊ณผ๊ฑฐ ์ด๋ ฅ์ ํ์ฉํด ์ด ํธํฅ์ ๊ต์ ํ๋ HA-DW๋ผ๋ ๊ฐ๋ ฅํ ํด๊ฒฐ์ฑ ์ ์ ์ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ฏ ์ผ์์ํ ๋น์ : โ๋๊ทธ๋ฌ์ด ๊ต์ฌ๋ vs ์๊ฒฉํ ๊ต์ฌ๋โ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๋ ค๋ฉด **โ์ํ์ ์น๋ฅด๋ ํ์๊ณผ ์ฑ์ ํ๋ ๊ต์ฌโ**์ ์ํฉ์ ์์ํด ๋ณด์ธ์.
-
๊ธฐ์กด ๋ฐฉ์ (GRPO)์ ๋ฌธ์ ์ - โ๊ธฐ์ค์ด ์๋ ๊ต์ฌโ: ๊ต์ฌ๊ฐ ์ํ ๋ฌธ์ ๋ฅผ ๊ทธ๋ฃน๋ณ๋ก ๋ด์ค๋๋ค.
- ์ํฉ A (์ฌ์ด ๋ฌธ์ ): ๊ทธ๋ฃน์ ๋ชจ๋ ํ์์ด 100์ ์ ๋ง์์ต๋๋ค. ๊ต์ฌ๋ โํ๊ท ์ด 100์ ์ด๋๊น, 100์ ๋ง์ ์ ๋ ๊ทธ๋ฅ ๋ณดํต์ด๋ค?โ๋ผ๊ณ ์๊ฐํ๋ฉฐ **๋๋ฌด ๋์ ์ ์(๊ณผ๋ํ๊ฐ)**๋ฅผ ์ค๋๋ค. ํ์๋ค์ ์ฌ์ด ๋ฌธ์ ๋ง ๊ณ์ ํ๋ ค๊ณ ํฉ๋๋ค.
- ์ํฉ B (์ด๋ ค์ด ๋ฌธ์ ): ์๋ฌด๋ ๋ชป ํ๊ณ ํ ํ์๋ง ๊ฒจ์ฐ 10์ ์ ๋ฐ์์ต๋๋ค. ๊ต์ฌ๋ โ์ด ๊ทธ๋ฃน ํ๊ท ์ด 2์ ์ด๋๊น, 10์ ์ ๊ฝค ์ํ๋ค?โ๋ผ๊ณ ์๊ฐํ ์ ์์ง๋ง, ํต๊ณ์ ์ผ๋ก ๊ทธ๋ฃน ๋ด ๋ถ์ฐ์ด ๋ฎ์์ ์ง์ง ์ค๋ ฅ๋ณด๋ค ์ ์๋ฅผ ๊น์(๊ณผ์ํ๊ฐ) ๋ฒ๋ฆฝ๋๋ค. ํ์์ โ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํ์ด๋ ๋ณ ๋ณด์์ด ์๊ตฌ๋โ๋ผ๊ณ ๋๊ปด ํฌ๊ธฐํฉ๋๋ค.
- ๊ฒฐ๊ณผ: ๋ชจ๋ธ์ ์ฌ์ด ๋ฌธ์ ์๋ง ์ง์ฐฉํ๊ณ ์ด๋ ค์ด ๋ฌธ์ ๋ ์ธ๋ฉดํ๊ฒ ๋ฉ๋๋ค.
-
์ ์ ๋ฐฉ์ (HA-DW)์ ํด๊ฒฐ์ฑ - โ์ฑ์ ๋ถ๊ฐ ์๋ ๊ต์ฌโ: ์ด ๊ต์ฌ๋ **์ง๋ ์๋ ๊ฐ์ ํ๊ธ ์ฑ์ (์ด๋ ฅ, History)**์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- Evolutionary Difficulty Anchor (์งํํ๋ ๋์ด๋ ๊ธฐ์ค): ๊ต์ฌ๋ โ์ง๊ธ๊น์ง ์ฐ๋ฆฌ ํ๊ธ ์ค๋ ฅ์ด ๋ณดํต 70์ ์ด์์ดโ๋ผ๋ **๊ธฐ์ค์ (Anchor)**์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- Adaptive Reweighting (์ ์ํ ๊ฐ์ค์น ์กฐ์ ): ์ด๋ฒ ์ํ์์ ๊ฐ์๊ธฐ ๋ฌธ์ ๊ฐ ๋๋ฌด ์ด๋ ค์์ ์ ์๊ฐ 10์ ๋์๋๋ผ๋, **๊ณผ๊ฑฐ ์ด๋ ฅ(70์ ์ค๋ ฅ)**์ ๊ณ ๋ คํด โ์ค๋ ๋ฌธ์ ๊ฐ ์ฌ์ผ์ด์ง ์์ฒญ ์ด๋ ค์ ๊ตฌ๋! 10์ ๋ง์ ์ ๋ ์ฌ์ค ์ค๋ ฅ์ด 100์ ์ด๋ ๋ค๋ฆ์์ด!โ๋ผ๊ณ ํ๋จํ๊ณ ๋ณด์์ ์ฌ๋ ค์ค๋๋ค. ๋ฐ๋๋ก ๋๋ฌด ์ฌ์ด ์ํ์ด๋ฉด ๋ณด์์ ๋ฎ์ถฐ์ค๋๋ค.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ๋ฌธ์ ๋ฐ์ (Bias Identification): ๊ธฐ์กด GRPO ์๊ณ ๋ฆฌ์ฆ์ โ๊ทธ๋ฃน ๋ด ํ๊ท โ์ ๊ธฐ์ค(Baseline)์ผ๋ก ์ผ๋๋ฐ, ์ด๋ ์ํ๋ง ์(G)๊ฐ ์ ์ ๋ ์ด๋ ค์ด ๋ฌธ์ ์์๋ ์ด๋๋ฐดํฐ์ง(์ด๋)๋ฅผ ๊ณผ์ํ๊ฐํ๊ณ ์ฌ์ด ๋ฌธ์ ์์๋ ๊ณผ๋ํ๊ฐํ๋ ํธํฅ์ ๋ง๋ญ๋๋ค.
- ์ด๋ ฅ ๊ธฐ์ค ์ค์ (History-Aware Anchor): ๋ชจ๋ธ์ด ํ์ตํ๋ฉด์ ๊ณผ๊ฑฐ์ ์ผ๋ง๋ ์ ํ์๋์ง๋ฅผ ์ถ์ ํฉ๋๋ค. ๋ง์น ์นผ๋ง ํํฐ(Kalman Filter)์ฒ๋ผ ํ์ฌ ๋ฐฐ์น์ ์ฑ์ ($y_t$)๊ณผ ๊ณผ๊ฑฐ์ ๋ฏฟ์($C_t^-$)์ ์์ด ๋ชจ๋ธ์ ํ์ฌ ์ค๋ ฅ($C_t^+$)์ ์ถ์ ํฉ๋๋ค.
- $$C_t^+ = (1-\eta_t)C_t^- + \eta_t y_t$$
- ($\eta_t$: ๋ฏผ๊ฐ๋ ์กฐ์ ๊ณ์)
- ๋์ด๋ ๋ณด์ ์กฐ์ (Adaptive Difficulty Weighting): ํ์ฌ ์ถ์ ๋ ๋ชจ๋ธ ์ค๋ ฅ($C_t$)๊ณผ ํ์ฌ ๋ฌธ์ ์ ์ฑ๊ณต ํ๋ฅ ์ ๋น๊ตํ์ฌ, ๋ฌธ์ ๊ฐ ์์๋ณด๋ค ์ด๋ ต๋ค๋ฉด ๊ฐ์ค์น๋ฅผ ๋์ฌ์ฃผ๊ณ ์ฝ๋ค๋ฉด ๋ฎ์ถฐ์ค๋๋ค. ์ด๋ก์จ ์๊ณก๋ ์ด๋๋ฐดํฐ์ง๋ฅผ ํธํฅ๋์ง ์์ ์ํ๋ก ๋ณด์ ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ์ํ ์ถ๋ก ๋ฒค์น๋งํฌ์์ Qwen3-4B-Base ๋ชจ๋ธ์ ์ฌ์ฉํด ์ฑ๋ฅ์ ๊ฒ์ฆํ์ต๋๋ค.
- ํ ์คํธ ๋ฒค์น๋งํฌ: MATH500, AIME25 (๋ฏธ๊ตญ ์ํ ์ฌ๋ฆผํผ์๋ ์์ค), AMC23, Minerva, OlympiadBench ๋ฑ ๊ณ ๋๋ ์ํ ๋ฌธ์ ๋ค์ ๋๋ค.
- ์ฃผ์ ์ฑ๊ณผ (๊ตฌ์ฒด์ ์์น ๋ฐ ๋น๊ต):
- ๊ธฐ์กด GRPO ๋๋น ํฅ์: HA-DW๋ฅผ ์ ์ฉํ GRPO๋ ์ผ๋ฐ GRPO ๋๋น ์ ์ฒด์ ์ธ ํ๊ท ์ฑ๋ฅ(AVG)์์ ์ ์๋ฏธํ ํฅ์์ ๋ณด์์ต๋๋ค. ํนํ AIME25์ ๊ฐ์่ถ ้ซ๋๋ ๋ฌธ์ ์์ ์ฑ๋ฅ ์์นํญ์ด ๋๋๋ฌ์ก์ต๋๋ค.
- ๋์ด๋๋ณ ๋ถ์ (Stratified Results): ๋ ผ๋ฌธ์ Figure 1(c)๋ฅผ ๋ณด๋ฉด, HA-DW๋ ํนํ Hard(์ด๋ ค์ด) ๋ ๋ฒจ์ ๋ฌธ์ ์์ ๊ธฐ์กด GRPO๋ณด๋ค ํจ์ฌ ๋์ ์ ๋ต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ์์ ์ค๋ช ํ โ์ด๋ ค์ด ๋ฌธ์ ์ ์ด๋๋ฐดํฐ์ง๋ฅผ ๋ณด์ โํ๋ ๋ฉ์ปค๋์ฆ์ด ์ค์ ๋ก ์๋ํ์์ ์ฆ๋ช ํฉ๋๋ค.
- ์ํ ํจ์จ์ฑ: ์ ์ ์์ ๋กค์์(rollouts, ์์ฑ ์๋)์์๋ ํธํฅ์ ์ค์ฌ์ฃผ์ด, ๊ณ์ฐ ๋น์ฉ์ ๋๋ฆฌ์ง ์๊ณ ๋ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ ์๊ฐ ์ธ๊ธํ ํ๊ณ:
- ์ถ๊ฐ์ ์ธ ํ์ดํผํ๋ผ๋ฏธํฐ(๊ธฐ์ธ๊ธฐ ์กฐ์ , ์ด๋ ฅ ๋ฒํผ ํฌ๊ธฐ ๋ฑ)๊ฐ ํ์ํ์ฌ ํ๋์ด ๋ค์ ๊น๋ค๋ก์ธ ์ ์์ต๋๋ค.
- ์์ ํ ๋นํธํฅ(Unbiased) ์ํ๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด์๋ ์ถฉ๋ถํ ๋กค์์ ์๊ฐ ํ์ํ๋ฉฐ, ๊ทน๋จ์ ์ผ๋ก ์ ์ ์ํ์์๋ ์ฌ์ ํ ๋ถ์์ ํ ์ ์์ต๋๋ค.
- ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ:
- HA-DW๋ฅผ ๋ค๋ฅธ GRPO ๋ณํ ์๊ณ ๋ฆฌ์ฆ(GSPO, DAPO ๋ฑ)๊ณผ ๊ฒฐํฉํ์ฌ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ์ฐ๊ตฌ.
- ์ํ๋ฟ๋ง ์๋๋ผ ์ฝ๋ฉ(Code)์ด๋ ๋ ผ๋ฆฌ์ ์ถ๋ก ์ด ํ์ํ ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ํ์ธ.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
- ์ ์ฉ ๋ถ์ผ:
- LLM ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ: ์ํ, ์ฝ๋ฉ, ๋ณต์กํ ๋ ผ๋ฆฌ ์ง์๋ฅผ ๋ค๋ฃจ๋ LLM์ ์ฌํ ํ์ต(Post-training)์ํค๋ ๋ชจ๋ ๋ถ์ผ์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ํนํ โDeepSeek-R1โ๊ณผ ๊ฐ์ ์ถ๋ก ์ ๋ฌธ ๋ชจ๋ธ์ ํ์ต์ํฌ ๋ ํ์์ ์ธ ๊ธฐ์ ์ด ๋ ๊ฒ์ ๋๋ค.
- ํ์ํ ๋ฆฌ์์ค:
- ์ถ๊ฐ ๋ชจ๋ธ ๋ถํ์: Critic ๋ชจ๋ธ์ ๋ฐ๋ก ๋๋ PPO์ ๋ฌ๋ฆฌ, GRPO ๊ธฐ๋ฐ์ด๋ฏ๋ก ํ์ต์ ํ์ํ GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ์๋์ ์ผ๋ก ์ ์ต๋๋ค.
- ๋ฐ์ดํฐ: RLVR(Verifier Rewards) ํ๋ จ์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ (๋ณด์์ ์ค ์ ์๋ ํ๊ฒฝ ๋๋ ๊ฒ์ฆ ๋ชจ๋ธ)์ด ํ์ํฉ๋๋ค.
- ๊ตฌํ ๋์ด๋: ๊ธฐ์กด GRPO ์ฝ๋์ ๋นํด ์๋์ ์ผ๋ก ๋จ์ํ ์์(๊ฐ์ค์น ์ ๋ฐ์ดํธ)๋ง ์ถ๊ฐํ๋ฉด ๋๋ฏ๋ก, ์์ง๋์ด๋ง ๊ด์ ์์ ๊ตฌํ ๋ถ๋ด์ด ํฌ์ง ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- RLHF (Reinforcement Learning from Human Feedback): ์ธ๊ฐ์ ํผ๋๋ฐฑ์ด๋ ๋ณด์ ์ ํธ๋ฅผ ํตํด LLM์ ์ธ๊ฐ์ด ์ ํธํ๋ ๋ฐฉํฅ์ผ๋ก ํ๋ํ๋ ๊ธฐ๋ฒ.
- PPO (Proximal Policy Optimization): OpenAI๊ฐ ์ฌ์ฉํ ๋ํ์ ์ธ ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ ์ฑ ์ ๋ฐ์ดํธ๊ฐ ๋๋ฌด ํฌ์ง ์๋๋ก ์ ์ฝํ๋ ์์ ์ ์ธ ์๊ณ ๋ฆฌ์ฆ.
- GRPO (Group Relative Policy Optimization): PPO์์ ๋นํ๊ฐ(Critic) ๋ชจ๋ธ์ ์์ ๊ณ , ๊ฐ์ ์ง๋ฌธ์ ๋ํ ์ฌ๋ฌ ๋ต๋ณ(๊ทธ๋ฃน)์ ํ๊ท ๋ณด์์ ๊ธฐ์ค์ผ๋ก ์ผ์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ๊ทน๋ํํ ์ต์ ์๊ณ ๋ฆฌ์ฆ.
- Advantage Estimation (์ด๋๋ฐดํฐ์ง ์ถ์ ): ํน์ ํ๋์ด ๊ธฐ์ค์ (Baseline)๋ณด๋ค ์ผ๋ง๋ ๋ ์ข์๋์ง๋ฅผ ์ธก์ ํ๋ ๊ฐ์ผ๋ก, ๊ฐํ ํ์ต์์ ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉํฅ์ ๊ฒฐ์ ํ๋ ํต์ฌ ์งํ.
- Bias-Variance Tradeoff (ํธํฅ-๋ถ์ฐ ํธ๋ ์ด๋์คํ): ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ๋๋ฌด ๊ณผ์ ํฉ๋๊ฑฐ๋(๋ถ์ฐ), ๋๋ฌด ๋จ์ํด์ ธ์(ํธํฅ) ์ค์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ํ์ ์ฌ์ด์ ๊ท ํ.
- Outcome Reward Model (ORM): ๋ชจ๋ธ์ด ์์ฑํ ์ต์ข ๊ฒฐ๊ณผ(๋ต)๋ง ๋ณด๊ณ ์ ์๋ฅผ ๋งค๊ธฐ๋ ๋ณด์ ๋ชจ๋ธ๋ก, ์ถ๋ก ๊ณผ์ ์ ํ๊ฐํ ๋ ์์ฃผ ์ฐ์.
- Kalman Filter (์นผ๋ง ํํฐ): ์์คํ ์ ์ํ๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ๊ณผ๊ฑฐ์ ๋ฐ์ดํฐ์ ํ์ฌ์ ์ธก์ ๊ฐ์ ๊ฒฐํฉํ์ฌ ์ต์ ์ ์ํ๋ฅผ ์์ธกํ๋ ์๊ณ ๋ฆฌ์ฆ (๋ ผ๋ฌธ์์ ์ด๋ ฅ์ ๊ด๋ฆฌํ๋ ๋ฐ ์ฌ์ฉ๋จ).
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Agentic Reasoning for Large Languagโฆ | DD-011 |
| ๐ฅ | Your Group-Relative Advantage Is Biโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | EvoCUA: Evolving Computer Use Agentโฆ | DD-013 |
| 4. | LLM-in-Sandbox Elicits General Agenโฆ | DD-014 |
| 5. | Being-H0.5: Scaling Human-Centric Rโฆ | DD-015 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive