๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-01-12 ~ 2026-01-17 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | Watching, Reasoning, and Searching: A Viโฆ | 209 | DD-006 |
| ๐ฅ | BabyVision: Visual Reasoning Beyond Langโฆ | 193 | DD-007 |
| ๐ฅ | STEP3-VL-10B Technical Report | 190 | DD-008 |
| 4. | Thinking with Map: Reinforced Parallel Mโฆ | 165 | DD-009 |
| 5. | Urban Socio-Semantic Segmentation with Vโฆ | 155 | DD-010 |
๐ ์์ฝ
๐ฅ 1. Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
arXiv: 2601.06943 | โฌ๏ธ 209 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
video-reasoningagentic-aiopen-web-searchmultimodal-benchmarkdeep-researchretrieval-augmented-generationfact-verification
์์๋ง์ผ๋ก๋ ๋ต์ ์ป์ ์ ์๋ ๋ณต์กํ ์ง๋ฌธ์ ๋ํด, ์์ ์ ๋จ์๋ฅผ ์ฐพ์ ์น์ ๊ฒ์ํ๊ณ ์ถ๋ก ํ๋ โ์ฌ์ธต ์ฐ๊ตฌ(Deep Research)โ ๋ฅ๋ ฅ์ ๊ฐ์ถ AI ์์ด์ ํธ๋ฅผ ํ๊ฐํ ์ ์๋ ์ต์ด์ ๋ฒค์น๋งํฌ(VideoDR)๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ฅ 2. BabyVision: Visual Reasoning Beyond Language
arXiv: 2601.06521 | โฌ๏ธ 193 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
babyvisionvisual-reasoningmultimodal-llmai-benchmarkcomputer-visioncognitive-sciencemodel-evaluation
์ด ๋ ผ๋ฌธ์ ์ต์ ๋ฉํฐ๋ชจ๋ฌ LLM(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ)๋ค์ด ๋ณต์กํ ์ง์ ๊ธฐ๋ฐ ๋ฌธ์ ๋ ์ ํ๋ฉด์๋, 3์ธ ์์ด๋ ์ฝ๊ฒ ํ๋ ๊ธฐ๋ณธ์ ์ธ ์๊ฐ์ ์ถ๋ก (ํํ ๋ถ๋ณ, ๊ณต๊ฐ ์ง๊ฐ ๋ฑ)์ ์ฌ๊ฐํ ์ทจ์ฝ์ ์ ๋ณด์ธ๋ค๋ ์ฌ์ค์ BabyVision ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๊ฐ๊ด์ ์ผ๋ก ์ ์ฆํ๋ฉฐ, ์ง์ ํ ๋น์ ์ง๋ฅ์ ์ํด์๋ ์ธ์ด ์์กด๋๋ฅผ ๋ฎ์ถฐ์ผ ํจ์ ์์ฌํฉ๋๋ค.
๐ฅ 3. STEP3-VL-10B Technical Report
arXiv: 2601.09668 | โฌ๏ธ 190 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
step3-vlvision-language-modelsefficient-aipacorereinforcement-learningmultimodal-reasoningllmopen-source-model
๋จ 100์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ(10B)๋ก ์๋ฐฑ ๋ฐฐ ํฐ ๋ชจ๋ธ(GPT-5.2, Gemini-3-Pro ๋ฑ)๊ณผ ๊ฒฌ์ค ๋งํ ์ฑ๋ฅ์ ๋ด๋ฉด์๋, **์ถ๋ก ์์ ์ ์ฐ์ฐ(Parallel Coordinated Reasoning)**์ ํ๊ธฐ์ ์ผ๋ก ํ์ฅํ์ฌ ํจ์จ์ฑ๊ณผ ์ง๋ฅ์ trade-off(์์ถฉ ๊ด๊ณ)๋ฅผ ์ฌ์ ๋ฆฝํ ์คํ์์ค ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋๋ค.
4. 4. Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
arXiv: 2601.05432 | โฌ๏ธ 165 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
geolocalizationmap-agentlvlmreinforcement-learningtest-time-scalingreasoningcomputer-vision
[!info] ๋ฌธ์ ์ ์
5. 5. Urban Socio-Semantic Segmentation with Vision-Language Reasoning
arXiv: 2601.10477 | โฌ๏ธ 155 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
urban-aisemantic-segmentationvision-language-modelremote-sensingsocio-semanticszero-shot-generalizationsatellite-imagerymultimodal-learning
์ด ๋ ผ๋ฌธ์ ์์ฑ ์ด๋ฏธ์ง๋ง์ผ๋ก๋ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด โํ๊ตโ, โ๊ณต์โ ๋ฑ ์ฌํ์ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋์ ์์ญ์, ๋์งํธ ์ง๋์ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ ๊ฒฐํฉํ ์ถ๋ก ์ ํตํด ์ ๋ฐํ๊ฒ ๋ถํ ํ๋ ์ต์ด์ ํ๋ ์์ํฌ์ ๋ฐ์ดํฐ์ ์ ์ ์ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Weekly Digest