๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-02-02 ~ 2026-02-07 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | Green-VLA: Staged Vision-Language-Actionโฆ | 236 | DD-017 |
| ๐ฅ | ERNIE 5.0 Technical Report | 236 | DD-016 |
| ๐ฅ | Kimi K2.5: Visual Agentic Intelligence | 206 | DD-018 |
| 4. | Vision-DeepResearch: Incentivizing DeepRโฆ | 147 | DD-019 |
| 5. | PaperBanana: Automating Academic Illustrโฆ | 137 | DD-020 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ๋ฉํฐ๋ชจ๋ฌ ์์ด์ ํธ & VLA (Vision-Language-Action): ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๋ ๊ฒ์ ๋์ด, ์ค์ ํ๊ฒฝ์์ ํ๋(์ก์ )ํ๊ฑฐ๋ ๋ณต์กํ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชฉํ๋ฅผ ์ํํ๋ AI ๋ชจ๋ธ์ ๋ถ์
- ๋ค์ดํฐ๋ธ ํตํฉ ์ํคํ ์ฒ (Native Multimodality): ๊ธฐ์กด ๋ชจ๋ธ์ ์ฐ๊ฒฐํ๋ ๋ฐฉ์์ด ์๋๋ผ, ์ฒ์๋ถํฐ ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค ๋ฑ์ ํต์ผ๋ ๋ชฉ์ ํจ์๋ก ํ์ต์ํค๋ ์๋ก์ด ๋ชจ๋ธ ์ค๊ณ ๊ณ๋ณด (ERNIE 5.0, Kimi K2.5)
- ๋ก๋ด ๊ณตํ์ ์ค์ ๋ฐฐ์น: ์ฐ๊ตฌ์ค ํ๊ฒฝ์ ๋์ด ์ค์ ๋ก๋ด(ํด๋จธ๋ ธ์ด๋ ๋ฑ)์์ ์๋ํ ์ ์๋๋ก ์ต์ ํ๋ ๋จ๊ณ๋ณ ํ์ต ์ปค๋ฆฌํ๋ผ ๋ฐ ์ ์ฑ ๊ฐํ ํ์ต์ ์ ์ฉ
- AI ์ฐ๊ตฌ ์๋ํ (AI for Science): ๋ ผ๋ฌธ ์์ฑ์ ์๊ฐํ ์๋ฃ ์์ฑ๋ถํฐ ์ฌ์ธต์ ์ธ ๋ฆฌ์์น ์ํ๊น์ง, ์ฐ๊ตฌ ๊ณผ์ ์์ฒด๋ฅผ AI ์์ด์ ํธ๊ฐ ์๋ํํ๋ ๋ฉํ ํธ๋ ๋
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ AI๊ฐ ๋จ์ํ โ์ง๋ฅํ ๋น์โ๋ฅผ ๋์ด **โ๋ฅ๋์ ์ธ ํ์์(Agent)โ**๋ก ์งํํ๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค. ํนํ ์๊ฐ ์ ๋ณด(Vision)๋ฅผ ํตํด ์ธ์์ ์ดํดํ๊ณ ์ด๋ฅผ ๋ฌผ๋ฆฌ์ ํ๋(Robotics)์ด๋ ๋ณต์กํ ์ธ์ง์ ์์ (Research)์ผ๋ก ์ฐ๊ฒฐํ๋ Vision-Action ํตํฉ์ด ๊ฐ์ฅ ๋๋๋ฌ์ง ๊ณตํต ์ฃผ์ ์ ๋๋ค. ๋ํ, ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ๊ฒฝ๊ณ๋ฅผ ํ๋ฌด๋ โ๋ค์ดํฐ๋ธ(Native)โ ํ์ต ๋ฐฉ์๊ณผ AI ์์ ์ด ์ฐ๊ตฌ๋ฅผ ๋๋ โ์๋ํโ๊ฐ ๋์์ ๊ณ ๋ํ๋๊ณ ์์ต๋๋ค.
์ฃผ๋ชฉํ ์
Green-VLA์ Kimi K2.5๋ ์๊ฐ๊ณผ ์ธ์ด๋ฅผ ๋จ์ํ ๊ฒฐํฉํ๋ ์์ค์ ๋์ด, ๋ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ์ํธ ๋ณด์ํ๋ฉฐ ๊ฐํ ํ์ต(RL)์ ํตํด ์ต์ ํ๋๋ โJoint Optimizationโ ๊ธฐ๋ฒ์ ์ฃผ๋ชฉํ์ต๋๋ค. ERNIE 5.0์ ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ฒ์๋ถํฐ ํต์ผ๋ ํ ํฐ ์์ธก ๋ชฉ์ ์ผ๋ก ํ์ต์ํค๋ ํ๊ธฐ์ ์ธ โNative Autoregressiveโ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ์ฌ, ๋ณ๋์ ์ธ์ฝ๋ ์์ด๋ ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค๋ฅผ ํตํฉ ์ฒ๋ฆฌํ๋ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค. PaperBanana์ ๊ฐ์ ์ฐ๊ตฌ๋ ์ต์ฒจ๋จ ๋ชจ๋ธ๋ค์ด ์ด์ ์ง์ ์์ฐ์๊ฐ ๋์ด ์ฐ๊ตฌ์์ ๊ฐ์ฅ ๋ ธ๋ intensiveํ ์์ (์: ๋ ผ๋ฌธ ์ฝํ ์ ์)์ ๋์ฒดํ๊ธฐ ์์ํ์์ ์์ฌํฉ๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ์ด์ ๋จ์ผ ๋ชจ๋ฌ๋ฆฌํฐ ๋ชจ๋ธ์ด ์๋, ํ๋ ๊ณํ๊ณผ ๋๊ตฌ ์ฌ์ฉ์ด ๊ฐ๋ฅํ ๋ฉํฐ๋ชจ๋ฌ ์์ด์ ํธ๋ฅผ ์ค๊ณํด์ผ ํ๋ ์์ ์ ์ ์ด๋ค์์ต๋๋ค. ํนํ ๋ก๋ด ์ฐ์ ์ด๋ ์๋ํ ๋ถ์ผ์์๋ VLA(Vision-Language-Action) ๋ชจ๋ธ์ ์ค์ ํ๋์จ์ด์ ์ด๋ป๊ฒ ์ต์ ํํ์ฌ ํ์ฌํ ์ง(R0, R1, R2 ๋จ๊ณ ๋ฑ)์ ๋ํ ์ ๋ต์ด ํ์ํฉ๋๋ค. ๋ํ, ์ฐ๊ตฌ ์์ฐ์ฑ ์ธก๋ฉด์์๋ PaperBanana๋ Vision-DeepResearch์ ๊ฐ์ AI ์์ด์ ํธ ํด์ ์ ๊ทน์ ์ผ๋ก ๋์ ํ์ฌ ๋ฆฌํฐ๋ฌ์น(๋ฌธํ ์กฐ์ฌ)๋ ์ฝํ ์ธ ์ ์ ์์ ์๊ฐ์ ํ๊ธฐ์ ์ผ๋ก ๋จ์ถํ ์ ์๋ ์ค์ฉ์ ์ธ ๋ฐฉ์์ ๋ชจ์ํด์ผ ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
arXiv: 2602.00919 | โฌ๏ธ 236 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
vlaroboticscurriculum-learninggeneralist-robotembodied-aifine-tuningreinforcement-learning
์ด ๋ ผ๋ฌธ์ ์๋ก ๋ค๋ฅธ ๋ก๋ด์ ๋ฐ์ดํฐ ์ด์ง์ฑ๊ณผ ๋ฎ์ ๋ฐ์ดํฐ ํ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 5๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ๊ต์ก ๊ณผ์ (Curriculum)์ ์ ์ํ์ฌ, ์ค์ ๋ก๋ด(Green ๋ก๋ด)์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌ๋จ๊ณผ ๋์์ ๋ค์ํ ํํ์ ๋ก๋ด์ ์ผ๋ฐํ ๊ฐ๋ฅํ VLA ๋ชจ๋ธ์ ๊ตฌํํ๊ธฐ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. ERNIE 5.0 Technical Report
arXiv: 2602.04705 | โฌ๏ธ 236 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
ernie-50multimodalautoregressivemixture-of-expertsfoundation-modeldeep-learningnlpcomputer-vision
ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค๋ฅผ ํ๋์ ํตํฉ๋ ์๊ธฐํ๊ท(Autoregressive) ๋ฐฉ์์ผ๋ก ์ฒ์๋ถํฐ ๋๊น์ง ์ฒ๋ฆฌํ์ฌ, ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ํ๊ณ์๋ ์ดํด(Understanding)์ ์์ฑ(Generation)์ ๋ถ๋ฆฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ง์ ํ ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. Kimi K2.5: Visual Agentic Intelligence
arXiv: 2602.02276 | โฌ๏ธ 206 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
ai-agentmultimodalparallel-processingreinforcement-learningkimi-k25model-architecturestate-of-the-artlatency-reduction
์ด ๋ ผ๋ฌธ์ ํ ์คํธ์ ๋น์ ์ ๊ณต๋์ผ๋ก ์ต์ ํํ๊ณ ์ฌ๋ฌ ์์ด์ ํธ๋ฅผ ๋์์ ์คํํ์ฌ ๋ณต์กํ ์์ ์ ๊ธฐ์กด๋ณด๋ค ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์ฒ๋ฆฌํ๋ ๋ฒ์ฉ ์์ด์ ํธ ์ง๋ฅ์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
arXiv: 2601.22060 | โฌ๏ธ 147 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
multimodal-llmdeep-researchretrieval-augmented-generationcomputer-visionreinforcement-learningreasoningvisual-searchagent
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ LLM์ ๋จ์ํ ๊ฒ์ ๋ฐฉ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ฌ, ์์ญ ๋จ๊ณ์ ์ถ๋ก ๊ณผ์ ๊ณผ ์๋ฐฑ ๋ฒ์ ๊ฒ์ ์์ง ์ํธ์์ฉ์ ํตํด ๋ณต์กํ๊ณ ์ ํํ ์๊ฐ์ ์ ๋ณด๋ฅผ ์ค์ค๋ก ํ์ํด ๋ผ ์ ์๋ โ๋ฅ ๋ฆฌ์์น(Deep Research)โ ์์ด์ ํธ ๋ฅ๋ ฅ์ ์ฒ์์ผ๋ก ๊ท๋ชจ ์๊ฒ ๊ตฌํํ๊ณ ์ฆ๋ช ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. PaperBanana: Automating Academic Illustration for AI Scientists
arXiv: 2601.23265 | โฌ๏ธ 137 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
ai-scientistacademic-illustrationagentic-frameworkpaperbananavisualizationllmvlmmultimodal-ai
AI ์ฐ๊ตฌ์๋ค์ ๊ฐ์ฅ ํฐ ๋ณ๋ชฉ ํ์์ธ โํ์ ์ฉ ์ฝํ ์ ์โ์ 5๊ฐ์ ์ ๋ฌธ ์์ด์ ํธ๊ฐ ํ๋ ฅํ๋ ์๋ํ ํ๋ ์์ํฌ๋ก ํด๊ฒฐํ์ฌ, ์ธ๊ฐ์ ํ๊ท ํ์ง์ ๋ฐ์ด๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-02-08 | ๐ค GLM-4.7 Weekly Digest