โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-029 Experiential Reinforcement Learning
arXiv: 2602.13949 ๊ธฐ๊ด: Microsoft Upvotes: 61 | Comments: 5 ์์: ์ด๋ฒ ์ฃผ Top 4

์๋ ํ์ธ์. AI/ML ์ ๋ฌธ๊ฐ๋ก์ ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์ ํ๋ ๊น์ด ์๊ฒ ๋ถ์ํด ๋๋ฆด ๊ธฐํ๋ฅผ ๊ฐ๊ฒ ๋์ด ๊ธฐ์ฉ๋๋ค. ์ด๋ฒ์ ๋ฆฌ๋ทฐํ ๋ ผ๋ฌธ์ ์ต๊ทผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ฐํ ํ์ต(Reinforcement Learning) ํ๋ จ ํจ๋ฌ๋ค์์ ๋ณํ์ํฌ ์ ์ฌ๋ ฅ์ ๊ฐ์ง โExperiential Reinforcement Learning(๊ฒฝํ ๊ธฐ๋ฐ ๊ฐํ ํ์ต)โ์ ๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋จ์ํ ์ํ์ฐฉ์ค๋ฅผ ํตํด ๋ณด์์ ๋ฐ๋ ๊ธฐ์กด ๋ฐฉ์์์ ๋ฒ์ด๋, ์ธ๊ฐ์ฒ๋ผ โ์ฑ์ฐฐ(Reflection)โ ๊ณผ์ ์ ํ์ต ๋ฃจํ์ ์ง์ ๋ น์ฌ๋ด๋ ๊ฒ์ด ์ผ๋ง๋ ํจ๊ณผ์ ์ธ์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ฃผ๋์ด ๊ฐ๋ฐ์๋ถ๋ค๋ ์ง๊ด์ ์ผ๋ก ์ดํดํ์ค ์ ์๋๋ก ๋น์ ์ ์์๋ฅผ ๋ค์ด ์์ธํ ํ์ด๋ณด๊ฒ ์ต๋๋ค.
์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ธ์ด ๋ชจ๋ธ ๊ฐํ ํ์ต(RLVR ๋ฑ) ๋ฐฉ์์ ๋ณด์ ์ ํธ(Reward Signal)๊ฐ ์ฑ๊ณต ์ฌ๋ถ๋ง ์๋ ค์ฃผ๊ณ ์คํจ์ ์์ธ์ ์๋ ค์ฃผ์ง ์๋ ํฌ์ํ(Sparse) ํ๊ฒฝ์์ ๋งค์ฐ ๋นํจ์จ์ ์ด๊ณ ๋ถ์์ ํ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ธ๊ฐ์ ํ์ต ๋ฐฉ์์ ๋ชจ๋ฐฉํ์ฌ, โ๊ฒฝํ-์ฑ์ฐฐ-ํตํฉ(Consolidation)โ์ ๋ฃจํ๋ฅผ RL ๊ณผ์ ์ ๋ช ์์ ์ผ๋ก ํฌํจ์ํด์ผ๋ก์จ ๋ชจ๋ธ์ด ์ค์ค๋ก ์ค์๋ฅผ ๋ถ์ํ๊ณ ํ๋์ ๊ต์ ํ๋๋ก ์ ๋ํ๋ ํ๋ จ ํจ๋ฌ๋ค์์ ์ ์ํ์ต๋๋ค.
ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์๋ฆฌ ์ค๋ ฅ ๋๋ฆฌ๊ธฐโ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๊ธฐ ์ํด ์๋ฆฌ๋ฅผ ๋ฐฐ์ฐ๋ ์ํฉ์ ์์ํด ๋ณด์ธ์.
๊ธฐ์กด์ ๊ฐํ ํ์ต(RL) ๋ฐฉ์์ ๋ง์น ์๋ฆฌ๋ฅผ ํด๋ณด๊ณ ๋ง์์ผ๋ฉด ๊ทธ์ โ0์ โ์ ๋ฐ๊ณ ๋ค์ ์ฒ์๋ถํฐ ๋๋ค์ผ๋ก ์ฌ๋ฃ๋ฅผ ๋ฃ์ด๋ณด๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ์ ๋ง์ด ์๋์ง(์๊ธ์ด ๋ง์๋์ง, ๋ถ์ด ์ฝํ๋์ง) ์ ํ ๋ชจ๋ฅธ ์ฑ ์๋ง ๋ฒ์ ์ํ์ฐฉ์ค๋ฅผ ๊ฒช์ด์ผ ํฉ๋๋ค. ์ด๋ ๋งค์ฐ ๋นํจ์จ์ ์ ๋๋ค.
๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๊ฒฝํ ๊ธฐ๋ฐ ๊ฐํ ํ์ต(ERL)์ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
- ์๋: ์๋ฆฌ๋ฅผ ํด๋ด ๋๋ค.
- ํผ๋๋ฐฑ: ์์์ด ์งญ๋๋ค.
- ์ฑ์ฐฐ(Reflection): โ์, ์๊ธ ๋์ ๊ฐ์ฅ์ ๋ฃ์๋๋ ์งฐ๋ค. ๋ค์์ ๊ฐ์ฅ์ ๋ ๋ฃ์ด์ผ๊ฒ ๋ค.โ๋ผ๊ณ ์์ธ์ ๋ถ์ํ์ฌ ๋ฉ๋ชจ๋ฅผ ํฉ๋๋ค.
- ์ฌ์๋: ์ด ๋ฉ๋ชจ๋ฅผ ๋ณด๊ณ ์๋ฆฌ๋ฅผ ๋ค์ ์๋ํฉ๋๋ค. ์ด๋ฒ์ ๋ง์๊ฒ ๋ฉ๋๋ค.
- ํตํฉ(Consolidation): โ๋ง์๋ ์๋ฆฌ = ๊ฐ์ฅ์ ๋ฐ๋ง ๋ฃ๋ ๊ฒโ์ด๋ผ๋ ์ฌ์ค์ ๋ด ๋(๋ชจ๋ธ)์ ๊น์ด ์๊ฒจ, ๋ค์๋ถํฐ๋ ๋ฉ๋ชจ๋ฅผ ์ ๋ด๋ ๋ง์๊ฒ ์๋ฆฌํ ์ ์๊ฒ ๋ฉ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
ERL์ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง ๋ฃจํ๋ฅผ ํ์ต ๊ณผ์ ์ ํฌํจ์ํต๋๋ค.
- ๊ฒฝํ(Experience) ๋ฐ ์ด๊ธฐ ์๋: ๋ชจ๋ธ์ด ์ฃผ์ด์ง ์์ ์ ๋ํด ์ฒซ ๋ฒ์งธ ๋ต์(Initial Attempt)์ ์์ฑํ๊ณ ํ๊ฒฝ์ผ๋ก๋ถํฐ ํผ๋๋ฐฑ(๋ณด์)์ ๋ฐ์ต๋๋ค. ์ด๋ ๋๋ถ๋ถ ์คํจํ๊ฑฐ๋ ๋ฎ์ ์ ์๋ฅผ ๋ฐ๊ฒ ๋ฉ๋๋ค.
- ์ฑ์ฐฐ(Reflection) ๋ฐ ์์ : ๋ชจ๋ธ์ ์์ ์ ์ฒซ ๋ฒ์งธ ์๋์ ๋ฐ์ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก โ์ด๋ค ์ ์ด ์๋ชป๋์๋์งโ๋ฅผ ๋ถ์ํ๋ ํ ์คํธ(Reflection)๋ฅผ ์์ฑํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ์ฑ์ฐฐ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ๋ ๋ฒ์งธ ๋ต์(Refined Attempt)์ ์์ฑํฉ๋๋ค.
- ํตํฉ(Consolidation): ๋ ๋ฒ์งธ ์๋๊ฐ ์ฒซ ๋ฒ์งธ๋ณด๋ค ๋ซ๋ค๋ฉด, ๊ทธ ์ฑ๊ณต ๊ฒฝํ์ ๋ชจ๋ธ์ ๊ฐ์ค์น์ ์ ๋ฐ์ดํธํฉ๋๋ค. ํต์ฌ์ **์ถ๋ก ์์ (Inference)**์๋ ์ฑ์ฐฐ ๊ณผ์ ์์ด ๋ฐ๋ก ์ ๋ต์ ๋ผ ์ ์๋๋ก, ์ด ์์ ๋ ํ๋ ํจํด์ ๋ชจ๋ธ ์์ฒด์ ๋ด์ฌํ์ํจ๋ค๋ ์ ์ ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ์กด์ RL ๊ณผ์ ์ โReflectionโ๊ณผ โRevisionโ ๋จ๊ณ๋ฅผ ์ฝ์ ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ํตํด ์ ์ฑ (Policy)์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์์ ๋๋ค.
- $\tau_1 \sim \pi_{\theta}(y|s)$ : ์ด๊ธฐ ์ ์ฑ ์ผ๋ก ์ฒซ ๋ฒ์งธ ๊ถค์ (Trajectory) ์์ฑ
- $r_1 = R(\tau_1)$ : ํ๊ฒฝ์ผ๋ก๋ถํฐ ๋ณด์ ํ๋ (๋ณดํต 0, ์คํจ)
- $refl = \pi_{\theta}(\text{reflection} | \tau_1, r_1)$ : ์คํจ ์์ธ ๋ถ์ ๋ฐ ์ฑ์ฐฐ ์์ฑ
- $\tau_2 \sim \pi_{\theta}(y|s, refl)$ : ์ฑ์ฐฐ์ ์กฐ๊ฑด(Condition)์ผ๋ก ํ์ฌ ์์ ๋ ๊ถค์ ์์ฑ
- $r_2 = R(\tau_2)$ : ์์ ๋ ์๋์ ๋ํ ๋ณด์ ํ๋ (๋ณดํต ์ฑ๊ณต)
- Update $\theta$ using $(\tau_1, \tau_2)$ : $\tau_2$์ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ํตํด ์ ์ฑ ์ ๋ฐ์ดํธ (GRPO ๋ฑ ์ฌ์ฉ)
์ฆ, $\tau_1$์ ๋จ์ํ ์คํจ ๋ฐ์ดํฐ๋ก ์น๋ถํ๋ ๊ฒ์ด ์๋๋ผ, $\tau_2$๋ผ๋ ์ข์ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด๋ด๊ธฐ ์ํ โ์จ์โ์ผ๋ก ํ์ฉํ๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค.
์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ์ ํ๋ ๊ท์น ์ ๋ณด๋ง ์ฃผ๊ณ ๋ชจ๋ธ์ด ์ค์ค๋ก ๊ท์น์ ํ์ตํด์ผ ํ๋ ํฌ์ ๋ณด์(Sparse Reward) ํ๊ฒฝ์์ ์คํ์ ์งํํ์ต๋๋ค.
์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ๋?
- Frozen Lake: ์ผ์ํ ์์์ ๊ตฌ๋ฉ์ ํผํด ๋ชฉํ์ง์ ๊น์ง ๊ฐ์ผ ํ๋ ๊ฒ์. ๊ท์น์ ๋ชฐ๋ผ๋ ์ํ์ฐฉ์ค๋ก ๋ฒ์น์ ์ ์ถํด์ผ ํฉ๋๋ค.
- Sokoban: ์ฐฝ๊ณ ์ง๊ธฐ ๊ฒ์. ๋ฐ์ค๋ฅผ ๋ฏธ๋ ์์๊ฐ ์ค์ํ๋ฉฐ, ํ ๋ฒ ์๋ชป ๋ฏธ์ฐ๋ฉด ๋๋๋ฆด ์ ์์ด ๊ธด ๊ณํ์ด ํ์ํฉ๋๋ค.
- HotpotQA: ๋ฉํฐํ(Multi-hop) ์ง์์๋ต. ์ฌ๋ฌ ๋ฌธ์๋ฅผ ์ฐพ์๋ณด๊ณ ์ข ํฉํด ๋ต์ ํด์ผ ํฉ๋๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ผ๋ง๋ ์ข์์ก๋?
ํนํ Sokoban์์ ์๋์ ์ธ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด ๊ฒ์์ ํ ๋ฒ์ ์ค์๊ฐ ๋์ดํฌ ์ ์๋ ์คํจ๋ก ์ด์ด์ง๊ธฐ ๋๋ฌธ์, ์ฑ์ฐฐ ์๋ ํ์ต์ ๊ฑฐ์ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น์ต๋๋ค.
- Qwen3-4B ๋ชจ๋ธ: ๊ธฐ์กด RLVR ๋ฐฉ์์ ์ฑ๊ณต๋ฅ 0.06(์๋ฐฑ ๋ฒ ์ค ํ ๋ฒ ์ฑ๊ณต)์ ๊ทธ์ณค์ผ๋, ERL์ 0.87๋ก ์ฝ 14๋ฐฐ ์ด์ ์์นํ์ต๋๋ค.
- Olmo3-7B ๋ชจ๋ธ: ๊ธฐ์กด RLVR์ 0.04, ERL์ 0.20์ผ๋ก 5๋ฐฐ ์์นํ์ต๋๋ค.
HotpotQA์์๋ F1 ์ ์๊ฐ 0.383(RLVR)์์ 0.393(ERL)์ผ๋ก ์ํญ but ์ ์๋ฏธํ๊ฒ ๊ฐ์ ๋์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
ํ์ต ๊ณก์ (Training Wall-clock time)์ ์ดํด๋ณด๋ฉด ERL์ ๋งค์ฐ ๋น ๋ฅด๊ฒ ์ฑ๋ฅ์ด ์์นํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์ฆ, ๋ฐ์ดํฐ ํจ์จ์ฑ์ด ๋์ ์ ์ ์์ ํ๋ จ์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ผ๋ฉฐ, ์ต์ข ์ฑ๋ฅ(Converged Performance) ๋ํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋์ต๋๋ค.
ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
- ์ถ๋ก ๋น์ฉ(Inference Cost) ์ฆ๊ฐ: ํ์ต ์์๋ ๋ ๋ฒ์ ์๋์ ์ฑ์ฐฐ ๊ณผ์ ์ ๊ฑฐ์น๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํฉ๋๋ค. ๋ค๋ง, ํ์ต๋ ๋ชจ๋ธ์ ๋ฐฐํฌ ์์ ์ถ๊ฐ ๋น์ฉ ์์ด ์๋ํฉ๋๋ค.
- ๋์ ์ฑ์ฐฐ์ ์ํ: ๋ชจ๋ธ์ด ์์ฑํ ์ฑ์ฐฐ(Reflection)์ด ํญ์ ์ ํํ์ง๋ ์์ต๋๋ค. ํ๋ฆฐ ๋ถ์์ ๋ฐํ์ผ๋ก ํ๋์ ์์ ํ๋ฉด ์คํ๋ ค ํ์ต์ด ๋ฐฉํด๋ฐ์ ์ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
- ์ฑ์ฐฐ์ ํ์ง์ ๊ฒ์ฆํ๊ฑฐ๋ ๋ณด์ ํ๋ ๋ฉ์ปค๋์ฆ์ ์ถ๊ฐํ ์ ์์ต๋๋ค.
- ํ์ฌ๋ ํ ์คํธ ๊ธฐ๋ฐ์ ์ฑ์ฐฐ์ ์ฌ์ฉํ์ง๋ง, ์ด๋ฅผ ๋ ๊ตฌ์กฐํ๋ ์ํ ๊ณต๊ฐ(State Space)์ผ๋ก ํํํ์ฌ ํจ์จ์ฑ์ ๋์ด๋ ์ฐ๊ตฌ๊ฐ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
- ์ฝ๋ฉ ์์ด์ ํธ(Coding Agents): ์ฝ๋๋ฅผ ์ง๊ณ ์๋ฌ๊ฐ ๋ฌ์ ๋, ๋จ์ํ ๋ค์ ์ง๋ ๊ฒ์ด ์๋๋ผ โ์ด๋ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ๋๋ฝ๋์๋์งโ ๋ถ์ํ๊ฒ ํ์ฌ ์์ ๋ ์ฝ๋๋ฅผ ํ์ต์ํค๊ธฐ์ ๋งค์ฐ ์ ํฉํฉ๋๋ค.
- ์น ๋ธ๋ผ์ฐ์ง ์์ด์ ํธ: ์น ํ์ด์ง ํ์ ์ค ์คํจํ์ ๋, ํ์ด์ง ๊ตฌ์กฐ๋ฅผ ์ดํด ๋ชป ํด ์คํจํ๋์ง, ๋ฒํผ์ ์๋ชป ๋๋ ๋์ง ์ฑ์ฐฐํ๊ฒ ํ์ฌ ํ์ ๋ฅ๋ ฅ์ ๋์ผ ์ ์์ต๋๋ค.
- ๋ณต์กํ ๊ฒ์ AI: ๊ท์น์ด ๋ถํ์คํ๊ฑฐ๋ ์ฅ๊ธฐ์ ์ธ ๊ณํ์ด ํ์ํ ํ๊ฒฝ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ ๊ฒ์ ๋๋ค.
ํ์ํ ๋ฆฌ์์ค
- GPU: ๊ธฐ์กด RLHF๋ RLVR๊ณผ ์ ์ฌํ ์์ค์ GPU ์์์ด ํ์ํ์ง๋ง, ํ์ต ๋ฐ์ดํฐ ์์ฑ ๊ณผ์ ์์ ํ ํฐ ์์ฑ๋์ด 2๋ฐฐ๋ก ๋์ด๋ ์ ์์ผ๋ฏ๋ก ์ฌ์ ์๋ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ๋ฅ๋ ฅ์ด ์๊ตฌ๋ฉ๋๋ค.
- ๋ฐ์ดํฐ: ๋ณ๋์ ์ธ๋ถ ๋ฐ์ดํฐ์ ์ด ํ์ํ ๊ฒ์ ์๋๋ฉฐ, ํ๊ฒฝ(Environment)๊ณผ ์ํธ์์ฉํ์ฌ ์์ฑ๋ ๊ถค์ (Trajectory) ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ ๋๋ค.
- ํฌ์ ๋ณด์(Sparse Reward): ๋ชฉํ๋ฅผ ๋ฌ์ฑํ์ ๋๋ง ๋ณด์์ ์ฃผ๊ณ , ๊ทธ ๊ณผ์ ์๋ ์๋ฌด๋ฐ ํผ๋๋ฐฑ์ ์ฃผ์ง ์๋ ๋ณด์ ์ฒด๊ณ๋ก ํ์ต์ด ์ด๋ ต์ต๋๋ค.
- ์ธ์ด ๋ชจ๋ธ(Language Model): ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๋๋ก ํ๋ จ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋๋ค.
- ๊ถค์ (Trajectory): ๊ฐํ ํ์ต์์ ์์ด์ ํธ๊ฐ ์ํ(state)์ ํ๋(action)์ ์๊ฐ ์์๋๋ก ๊ฒช์ ๊ฒฝ๋ก์ ๊ธฐ๋ก์ ๋๋ค.
- ์ ์ฑ (Policy): ์์ด์ ํธ๊ฐ ํน์ ์ํ์์ ์ด๋ค ํ๋์ ์ทจํ ์ง ๊ฒฐ์ ํ๋ ์ ๋ต์ด๋ ๋ชจ๋ธ ์์ฒด๋ฅผ ์๋ฏธํฉ๋๋ค.
- ์ถ๋ก (Inference): ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ค์ ํ๊ฒฝ์์ ์์ธก์ ์ํํ๊ฑฐ๋ ๋ต๋ณ์ ์์ฑํ๋ ๊ณผ์ ์ ๋๋ค.
- RLVR (Reinforcement Learning from Verifiable Rewards): ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(์: ์ปดํ์ผ ์ฑ๊ณต ์ฌ๋ถ)์ ํตํด ์ธ์ด ๋ชจ๋ธ์ ๊ฐํ ํ์ต์ํค๋ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Less is Enough: Synthesizing Diversโฆ | DD-026 |
| ๐ฅ | SQuTR: A Robustness Benchmark for Sโฆ | DD-027 |
| ๐ฅ | GLM-5: from Vibe Coding to Agentic โฆ | DD-028 |
| 4. | Experiential Reinforcement Learning | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | MedXIAOHE: A Comprehensive Recipe fโฆ | DD-030 |
๐ ์์ฑ์ผ: 2026-02-22 | ๐ค GLM-4.7 Deep Dive