๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-02-23 ~ 2026-02-28 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | A Very Big Video Reasoning Suite | 491 | DD-031 |
| ๐ฅ | Does Your Reasoning Model Implicitly Knoโฆ | 246 | DD-032 |
| ๐ฅ | VESPO: Variational Sequence-Level Soft Pโฆ | 215 | DD-033 |
| 4. | The Trinity of Consistency as a Definingโฆ | 185 | DD-034 |
| 5. | From Blind Spots to Gains: Diagnostic-Drโฆ | 143 | DD-035 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ๋น๋์ค ์ถ๋ก (Video Reasoning): ์๊ฐ์ ํ์ง์ ๋์ด ๋์์ ์ ์๊ณต๊ฐ์ ๊ตฌ์กฐ์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ดํดํ๋ ค๋ ์ฐ๊ตฌ๊ฐ ๋ถ์ํ์ต๋๋ค.
- ์ถ๋ก ์ต์ ํ (Reasoning Efficiency): ๊ธด ์ฌ๊ณ ์ ์ฌ์ฌ(CoT)์ด ๋นํจ์จ์ ์ด๋ผ๋ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ๋ฉฐ, ๋ชจ๋ธ์ด ์ค์ค๋ก ์ถ๋ก ์ ๋ฉ์ถ๊ฑฐ๋ ์ต์ ํํ๋ ๋ฐฉํฅ์ด ๋ ผ์๋์์ต๋๋ค.
- ํ์ต ์์ ์ฑ (Training Stability): LLM ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๊ฐํํ์ต(RL) ๊ณผ์ ์์ ๋ฐ์ํ๋ ๋ถ์์ ์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ์ ์ง๋ณด๊ฐ ๋๋๋ฌ์ก์ต๋๋ค.
- ์๋ ๋ชจ๋ธ (World Models): ๋ฌผ๋ฆฌ ๋ฒ์น๊ณผ ์๊ณต๊ฐ์ ์ผ๊ด์ฑ์ ์ค์ํ๋ ๋ฒ์ฉ ์๋ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ธฐ ์ํ ์๋ฆฌ์ ์ฒ ํ์ด ์ ์๋์์ต๋๋ค.
- ์ง๋จํ ํ์ต (Diagnostic Training): ์ ์ ์ธ ๋ฐ์ดํฐ๊ฐ ์๋ ๋ชจ๋ธ์ ์ฝ์ (Blind Spots)์ ์ง๋จํ๊ณ ์ด๋ฅผ ๋ณด์ํ๋ ๋์ ์ธ ํ๋ จ ๋ฐฉ์์ด ์ฃผ๋ชฉ๋ฐ์์ต๋๋ค.
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ AI ๋ชจ๋ธ์ด ๋จ์ํ โํฌ๊ธฐโ๋ โ์์ฑ ํ์งโ์ ๋์ด **โ์ผ๋ง๋ ํจ์จ์ ์ด๊ณ ์์ ์ ์ผ๋ก ์ถ๋ก ํ๋๊ฐโ**์ ์ง์คํ๊ณ ์์ต๋๋ค. ํนํ ํ ์คํธ๋ฅผ ๋์ด ๋น๋์ค์ ๊ฐ์ ๋ณต์กํ ํ๊ฒฝ์์์ ๋ฌผ๋ฆฌ์ ์ดํด(์๋ ๋ชจ๋ธ)๋ฅผ ์ถ๊ตฌํ๋ฉฐ, ์ด๋ฅผ ๊ตฌํํ๊ธฐ ์ํ ๊ฐํํ์ต์ ํ๋ จ ์์ ์ฑ๊ณผ ํจ์จ์ฑ์ ๋์ด๋ ๊ธฐ์ ์ ๋ฐฉ๋ฒ๋ค์ด ๊ณตํต์ ์ผ๋ก ๋ค๋ฃจ์ด์ก์ต๋๋ค.
์ฃผ๋ชฉํ ์
๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ ์ **โ์๊ฐ์ ๋ฉ์ถ๋ ๋ฒโ**์ ๋ํ ์ฐ๊ตฌ์ ๋๋ค. ๋ชจ๋ธ์ด ๋ฌด์์ ๊ธธ๊ฒ ์๊ฐํ๋ ๊ฒ๋ณด๋ค ํ์ํ ๋งํผ๋ง ์ถ๋ก ํด ํจ์จ์ฑ์ ๋์ด๋ ๋ฐฉ๋ฒ(2๋ฒ ๋ ผ๋ฌธ)๊ณผ, ์๋ ๋ชจ๋ธ์ ํต์ฌ์ ์๊ณต๊ฐ์ /์ธ๊ณผ์ โ์ผ๊ด์ฑโ์ผ๋ก ์ ์ํ ์๊ฐ(4๋ฒ ๋ ผ๋ฌธ)์ AI๊ฐ ์ธ๊ฐ์ฒ๋ผ ํจ์จ์ ์ด๊ณ ๋ฌผ๋ฆฌ์ ์ธ ์กด์ฌ๊ฐ ๋๋ ค๋ ๋ ธ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, ๋ชจ๋ธ์ ๊ฒฐํจ์ ์ง๋จํด ์ค์๊ฐ์ผ๋ก ๊ต์ ํ๋ ์ง๋จํ ํ๋ จ(5๋ฒ ๋ ผ๋ฌธ)์ ๊ธฐ์กด ์ ์ ํ์ต ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ผ๋ก ๋ณด์ ๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ๋น์ฉ ๊ณผ๋ถํ๋ฅผ ์ ๋ฐํ ์ ์๋ ๊ธด ์ถ๋ก ์ฒด์ธ์ ์ต์ ํํ๋ ๊ธฐ์ ์ ์ฃผ๋ชฉํด์ผ ํฉ๋๋ค. ์ถ๋ก ์๋น์ค์ ์๋์ ๋น์ฉ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํด ๋ชจ๋ธ์ด ์ค์ค๋ก ์ฌ๊ณ ๋ฅผ ์ข ๋ฃํ๊ฒ ํ๊ฑฐ๋ ํ์์ ์ธ ์ถ๋ก ๋ง ์ํํ๋๋ก ์ ๋ํ๋ ๊ธฐ๋ฒ์ด ์ค๋ฌด์ ์ผ๋ก ์ค์ํด์ง ๊ฒ์ ๋๋ค. ๋ํ, ๋ณต์กํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด๋ ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐํ ๋ ํ๋ จ ๊ณผ์ ์ ๋ถ๊ดด(collapse)๋ฅผ ๋ง๋ ์์ ์ ์ธ RL ์๊ณ ๋ฆฌ์ฆ(VESPO ๋ฑ)์ ๋์ ํ์ฌ, ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ์ ๋ขฐ์ฑ์ ๋์์ ํ๋ณดํ๋ ์ ๋ต์ด ํ์ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. A Very Big Video Reasoning Suite
arXiv: 2602.20159 | โฌ๏ธ 491 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
video-reasoninglarge-scale-datasetscaling-lawcognitive-architecturecomputer-visionevaluation-benchmarkai-researchmultimodal
๋น๋์ค ๋ชจ๋ธ์ ์๊ฐ์ ํ์ง ํฅ์์ ์น์ฐ์ณ ์๋ ์ฐ๊ตฌ ํธ๋ ๋๋ฅผ ๊นจ๊ณ , 100๋ง ๊ฐ๊ฐ ๋๋ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๋ ๋๊ท๋ชจ ๋น๋์ค ์ถ๋ก ๋ฐ์ดํฐ์ (VBVR)์ ๊ตฌ์ถํ์ฌ ๋ชจ๋ธ์ ๊ท๋ชจ์ ๋ฐ๋ฅธ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์ฒ์์ผ๋ก ์ ์ฆํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. Does Your Reasoning Model Implicitly Know When to Stop Thinking?
arXiv: 2602.08354 | โฌ๏ธ 246 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
reasoning-modelschain-of-thoughtefficient-inferencesagesampling-paradigmtest-time-scalingllm-efficiency
์ด ๋ ผ๋ฌธ์ ๋ํ ์ถ๋ก ๋ชจ๋ธ(LRM)์ด ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ ๋ถํ์ํ๊ฒ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ๊ฑฐ์น๋ ๋ฌธ์ ๋ฅผ ์ง์ ํ๋ฉฐ, ๋ชจ๋ธ์ด ์ด๋ฏธ โ์ธ์ ์๊ฐ์ ๋ฉ์ถฐ์ผ ํ ์งโ ์๋ฌต์ ์ผ๋ก ์๊ณ ์๋ค๋ ์ ์ ์ฆ๋ช ํ๊ณ ์ด๋ฅผ ํ์ฉํด ํจ์จ์ฑ๊ณผ ์ ํ๋๋ฅผ ๋ชจ๋ ๊ฐ์ ํ ์๋ก์ด ์ํ๋ง ํจ๋ฌ๋ค์์ธ SAGE๋ฅผ ์ ์ํ๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training
arXiv: 2602.10693 | โฌ๏ธ 215 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llmrlhfvespooff-policyreinforcement-learningoptimizationstabilitymath-reasoning
์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ฐํ ํ์ต ๊ณผ์ ์์ ๋ฐ์ดํฐ๊ฐ ์ต์ ๋ชจ๋ธ๊ณผ ๋ง์ง ์๋ ์คํ ํด๋ฆฌ์(Off-Policy) ์ํฉ์ด ๋ฐ์ํด๋ ํ์ต์ด ๋ถ๊ดดํ์ง ์๋๋ก, ์ด๋ก ์ ์ผ๋ก ์๋ฐํ๋ฉด์๋ ํจ์จ์ ์ผ๋ก ๋ถ์ฐ์ ์ค์ด๋ ์๋ก์ด ์ต์ ํ ๋ฐฉ๋ฒ๋ก VESPO๋ฅผ ์ ์ํ๊ธฐ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. The Trinity of Consistency as a Defining Principle for General World Models
arXiv: 2602.23152 | โฌ๏ธ 185 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
world-modelconsistencytrinitymultimodalcausal-inferencephysics-simulationagigenerative-model
์ด ๋ ผ๋ฌธ์ ๊ธฐ์กด ์์ฑ ๋ชจ๋ธ์ด ๊ฒช๋ โ์์งํ ๋ฌผ๋ฆฌํ์โ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ตฌ์กฐ์ , ์๊ฐ์ , ์ธ๊ณผ์ ์ผ๊ด์ฑ์ด๋ผ๋ โ์ผ๊ด์ฑ์ ์ผ์์ผ์ฒด(Trinity of Consistency)โ๋ฅผ ์ด๋ก ์ ํ๋ ์์ํฌ๋ก ์ ์ ํ์ฌ, ๋จ์ํ ํ์ ์์ฑ์ ๋์ด ์ง์ ํ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ดํดํ๋ ์ผ๋ฐ ์ธ๊ณ ๋ชจ๋ธ(General World Model)์ ์ค๊ณ ์๋ฆฌ๋ฅผ ํ๋ฆฝํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models
arXiv: 2602.22859 | โฌ๏ธ 143 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
lmmdiagnostic-drivenself-evolutionreinforcement-learningdata-generationmulti-agentiterative-training
์ด ๋ ผ๋ฌธ์ ์ ํํ๋ ๋ฐ์ดํฐ์ ํด๋ฆฌ์คํฑ(๊ฒฝํ์ ๊ท์น)์ ์์กดํ๋ ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ๋ฅผ ๋์ด, ๋ชจ๋ธ์ ์ฝ์ ์ ์ ๋ฐํ๊ฒ ์ง๋จํ๊ณ ์ด์ ๋ง์ถฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑ ๋ฐ ๊ฐํํ์ตํ๋ ์ํ ๊ตฌ์กฐ๋ฅผ ํตํด ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ๊ณ ๋ํํ๋ ์ง๋จ ๊ธฐ๋ฐ์ ์ ์ง์ ์งํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ธฐ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-03-01 | ๐ค GLM-4.7 Weekly Digest