๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-02-09 ~ 2026-02-14 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | OPUS: Towards Efficient and Principled Dโฆ | 308 | DD-021 |
| ๐ฅ | Weak-Driven Learning: How Weak Agents maโฆ | 251 | DD-022 |
| ๐ฅ | TermiGen: High-Fidelity Environment and โฆ | 195 | DD-023 |
| 4. | Code2World: A GUI World Model via Renderโฆ | 186 | DD-024 |
| 5. | The Devil Behind Moltbook: Anthropic Safโฆ | 182 | DD-025 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ๋ฐ์ดํฐ ํจ์จ์ฑ (Data Efficiency): ๊ณ ํ์ง ๋ฐ์ดํฐ ๋ถ์กฑ(โ๋ฐ์ดํฐ ์โ) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋์ ๋ฐ์ดํฐ ์ ๋ณ ๋ฐ ํฉ์ฑ ํ๊ฒฝ ์์ฑ ๊ธฐ์
- ์์ด์ ํธ ์๋ ๋ชจ๋ธ (World Model): GUI ์์ด์ ํธ์ ์ถ๋ก ๋ ฅ์ ๋์ด๊ธฐ ์ํด ์ฝ๋ ๊ธฐ๋ฐ์ ์๋ฎฌ๋ ์ด์ ๋ ํ๊ฒฝ์ ๊ตฌ์ถํ๋ ์๋
- ์ต์ ํ ์ญํ (Optimization Dynamics): ๋ชจ๋ธ์ ๊ณผ๊ฑฐ ์ํ๋ ์ฝํ ์ํ๋ฅผ ํ์ฉํ์ฌ ํ์ต ํฌํ ํ์์ ๊ทน๋ณตํ๋ ์๋ก์ด ํ์ต ํจ๋ฌ๋ค์
- ์๊ธฐ ์งํ์ ์์ ์ฑ (Self-Evolution Safety): ์์จ์ ์ผ๋ก ์งํํ๋ ๋ฉํฐ ์์ด์ ํธ ์์คํ ๋ด์์ ์์ ์ฑ ์ ๋ ฌ์ด ๋ฌด๋ ฅํ๋๋ ํ์์ ๋ํ ๊ฒฝ๊ณ
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ AI ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ ์ด์ ๋จ์ํ โ๊ท๋ชจ์ ํ์ฅ(Scale-up)โ์ด ์๋ **โ์ ๊ตํ ๋ฐ์ดํฐ ๊ด๋ฆฌ์ ํ์ต ํจ์จํโ**๋ฅผ ํตํด ๋ฌ์ฑํ๋ ค๋ ๊ฒฝํฅ์ ๋ณด์ ๋๋ค. ํนํ ๊ณ ํ์ง ํ์ต ๋ฐ์ดํฐ์ ๊ณ ๊ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ๋์ ์ผ๋ก ์ ๋ณํ๊ฑฐ๋ ํฉ์ฑํ๋ ๊ธฐ์ (OPUS, TermiGen)๊ณผ, ์์ด์ ํธ๊ฐ ํ๊ฒฝ์ ์ดํดํ๊ณ ํ๋ํ ์ ์๋๋ก ๋๋ ์๋ ๋ชจ๋ธ(Code2World)์ด ์ฃผ๋ฅผ ์ด๋ฃน๋๋ค. ๋์์ ๋ชจ๋ธ์ ์ต์ ํ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ญํ์ ํน์ฑ(Weak-Driven, Safety)์ ๊น์ด ์๊ฒ ๋ถ์ํ์ฌ ๋ ๊ฐ๋ ฅํ๊ณ ์์ ํ AI๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ๋ก ์ด ์ ์๋์์ต๋๋ค.
์ฃผ๋ชฉํ ์
โWeak-Driven Learningโ์ ํ์ต์ด ์ ์ฒด๋๋ ์ํฉ์์ ๋ชจ๋ธ์ ๊ณผ๊ฑฐ โ์ฝํ ์ํ(Weak State)โ๋ฅผ ๊ฐ๋ ์ ํธ๋ก ํ์ฉํ์ฌ โ๊ฐํ ์ํโ๋ฅผ ๋ ๊ฐํํ๋ ์ญ์ค์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํด ํฅ๋ฏธ๋กญ์ต๋๋ค. โCode2Worldโ๋ GUI ์์ด์ ํธ๋ฅผ ์ํด ํ ์คํธ๋ ํฝ์ ์ด ์๋ โ๋ ๋๋ง ๊ฐ๋ฅํ ์ฝ๋โ๋ฅผ ํตํด ์๋ ๋ชจ๋ธ์ ๊ตฌ์ถํจ์ผ๋ก์จ, ๋์ ์๊ฐ์ ์ถฉ์ค๋์ ๊ตฌ์กฐ์ ์ ์ด๋ ฅ์ ๋์์ ํ๋ณดํ๋ ค๋ ์๋๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋ํ ์์จ ์งํํ๋ AI ์ฌํ์์ ์์ ์ฅ์น๊ฐ ์คํ๋ ค ๋น ๋ฅด๊ฒ ๋ฌด๋ ฅํ๋๋ค๋ โThe Devil Behind Moltbookโ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ํฅํ AGI ๊ฐ๋ฐ์ ์์ด ์์ ์ฑ ๋ฌธ์ ์ ๋ณต์ก์ฑ์ ๋ค์ ํ๋ฒ ์๊ธฐ์ํต๋๋ค.
์ค๋ฌด ์์ฌ์
LLM ์ฌ์ ํ์ต ๋จ๊ณ์์๋ OPUS์ ๊ฐ์ด ์ตํฐ๋ง์ด์ ์ ํผ๋๋ฐฑ์ ๋ฐ์ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋์ ์ผ๋ก ์ ๋ณํ๋ ๋ฐฉ์์ ๋์ ํ๋ฉด, ํ์ ๋ ๋ฐ์ดํฐ๋ก๋ ํ์ต ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๋์ผ ์ ์์ ๊ฒ์ ๋๋ค. GUI๋ ํฐ๋ฏธ๋ ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐํ ๋๋ ์ค์ ํ๊ฒฝ์ ์์กดํ๊ธฐ๋ณด๋ค TermiGen์ด๋ Code2World์ฒ๋ผ ๋ชจ๋ธ์ด ํ์ต ๊ฐ๋ฅํ ํฉ์ฑ ํ๊ฒฝ์ด๋ ์๋ฎฌ๋ ์ด์ ์ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ์ฌ ๋น์ฉ ์ ๊ฐ๊ณผ ์ฑ๋ฅ ํฅ์์ ๋์์ ๊พํด์ผ ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์๊ธฐ ๊ฐ์ (Self-improvement) ๋ฃจํ๋ฅผ ํฌํจํ๋ ์์คํ ์ ์ค๊ณํ ๋๋ ๋ชจ๋ธ์ ์งํ ๊ณผ์ ์์ ์์ ์ฑ ์ ๋ ฌ์ด ํผ์๋์ง ์๋์ง ์ง์์ ์ผ๋ก ๋ชจ๋ํฐ๋งํ๋ ๋ฉ์ปค๋์ฆ์ ๋ฐ๋์ ํฌํจํด์ผ ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration
arXiv: 2602.05400 | โฌ๏ธ 308 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llmdata-selectionpre-trainingoptimizerefficiencyopusmachine-learning
์ด ๋ ผ๋ฌธ์ ๊ณ ํ์ง ํ ์คํธ ๋ฐ์ดํฐ๊ฐ ๊ณ ๊ฐ๋๋ ๋ฐ์ดํฐ ๋ฒฝ(Data Wall) ์๋์, ๋ชจ๋ธ ํ์ต์ ์ค์ ๋ก ์ฌ์ฉ๋๋ ์ตํฐ๋ง์ด์ (Optimizer)์ ๋์ญํ์ ๋ฐ์ํ์ฌ ํ ํฐ ๋จ์๋ก ๊ฐ์ฅ ํจ์จ์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ ํํ๋ OPUS ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
arXiv: 2602.08222 | โฌ๏ธ 251 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
weak-driven-learningpost-trainingllmoptimizationknowledge-distillationmath-reasoningentropyfine-tuning
์ด ๋ ผ๋ฌธ์ ๊ธฐ์กด ์ง์ ์ฆ๋ฅ(Knowledge Distillation) ๋ ผ๋ฆฌ๋ฅผ ๋ค์ง์ด, ๋ชจ๋ธ ํ์ต ์ด๊ธฐ์ ์ฝํ ์ํ(weak checkpoint)์ ์จ๊ฒจ์ง ๋ถํ์ค์ฑ ์ ํธ๋ฅผ ํ์ฉํด ๊ฐํ ๋ชจ๋ธ์ ํ์ต ํฌํ ์ํ(saturation)๋ฅผ ๊นจ๊ณ ์ฑ๋ฅ์ ๋ ๋์ผ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํ๊ธฐ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
arXiv: 2602.07274 | โฌ๏ธ 195 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
terminal-agentllmdata-synthesiserror-correctiondevopsrobustnessfine-tuninggenerative-ai
์คํ ๊ฐ์ค์น ์ธ์ด ๋ชจ๋ธ์ด ํฐ๋ฏธ๋ ์์ ์ ์ํํ ๋ ๊ฒช๋ ์คํ ๊ฐ๋ฅํ ํ๊ฒฝ ๋ถ์กฑ ๋ฌธ์ ์ ์ค๋ฅ ๋ณต๊ตฌ ๋ฅ๋ ฅ ๋ถ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ, ์์ฉ ํ์ ๋ชจ๋ธ๊ณผ์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ํ๊ธฐ์ ์ผ๋ก ์ค์๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. Code2World: A GUI World Model via Renderable Code Generation
arXiv: 2602.09856 | โฌ๏ธ 186 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
world-modelgui-agentcode-generationsimulationautonomous-agentmultimodal-model
์ด ๋ ผ๋ฌธ์ GUI ์์ด์ ํธ์๊ฒ ์ธ๊ฐ๊ณผ ๊ฐ์ ์์ง ๋ฅ๋ ฅ์ ๋ถ์ฌํ๊ธฐ ์ํด, ํฝ์ ์์ธก ๋์ ๋ ๋๋ง ๊ฐ๋ฅํ ์ฝ๋๋ฅผ ์์ฑํ์ฌ ๋ค์ ํ๋ฉด์ ์๋ฎฌ๋ ์ด์ ํ๋ ์๋ ๋ชจ๋ธ์ ์ ์ํ๊ธฐ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
arXiv: 2602.09877 | โฌ๏ธ 182 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
multi-agent-systemsai-safetyself-evolutioninformation-theoryentropyllmalignmentclosed-loop
๋ค์ค ์์ด์ ํธ ์์คํ (Multi-Agent Systems)์ด ์์ ํ ๊ณ ๋ฆฝ๋ ์ํ์์ ์ค์ค๋ก ์งํํ ๋๋ ์ธ๊ฐ์ ๊ฐ์น์ ์์ ์ฑ์ ์ ์งํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๋ค๋ โ์๊ฐ ์งํ ๋๋ ๋ง(Self-Evolution Trilemma)โ๋ฅผ ์ด๋ก ๊ณผ ์คํ์ ํตํด ์ฆ๋ช ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-02-15 | ๐ค GLM-4.7 Weekly Digest