📚 Weekly AI Paper Digest

기간: 2026-01-12 ~ 2026-01-17 선정: 이번 주 가장 주목받은 논문 Top 5

🏆 이번 주 Top 5

순위	논문	⬆️	Deep Dive
🥇	Watching, Reasoning, and Searching: A Vi…	209	DD-006
🥈	BabyVision: Visual Reasoning Beyond Lang…	193	DD-007
🥉	STEP3-VL-10B Technical Report	190	DD-008
4.	Thinking with Map: Reinforced Parallel M…	165	DD-009
5.	Urban Socio-Semantic Segmentation with V…	155	DD-010

📑 요약

🥇 1. Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

arXiv: 2601.06943 | ⬆️ 209 → Deep Dive 보기 태그: video-reasoning agentic-ai open-web-search multimodal-benchmark deep-research retrieval-augmented-generation fact-verification

영상만으로는 답을 얻을 수 없는 복잡한 질문에 대해, 영상 속 단서를 찾아 웹을 검색하고 추론하는 ‘심층 연구(Deep Research)’ 능력을 갖춘 AI 에이전트를 평가할 수 있는 최초의 벤치마크(VideoDR)를 제안했다는 점에서 매우 중요합니다.

🥈 2. BabyVision: Visual Reasoning Beyond Language

arXiv: 2601.06521 | ⬆️ 193 → Deep Dive 보기 태그: babyvision visual-reasoning multimodal-llm ai-benchmark computer-vision cognitive-science model-evaluation

이 논문은 최신 멀티모달 LLM(대규모 언어 모델)들이 복잡한 지식 기반 문제는 잘 풀면서도, 3세 아이도 쉽게 하는 기본적인 시각적 추론(형태 분별, 공간 지각 등)에 심각한 취약점을 보인다는 사실을 BabyVision 벤치마크를 통해 객관적으로 입증하며, 진정한 비전 지능을 위해서는 언어 의존도를 낮춰야 함을 시사합니다.

🥉 3. STEP3-VL-10B Technical Report

arXiv: 2601.09668 | ⬆️ 190 → Deep Dive 보기 태그: step3-vl vision-language-models efficient-ai pacore reinforcement-learning multimodal-reasoning llm open-source-model

단 100억 개의 파라미터(10B)로 수백 배 큰 모델(GPT-5.2, Gemini-3-Pro 등)과 견줄 만한 성능을 내면서도, **추론 시점의 연산(Parallel Coordinated Reasoning)**을 획기적으로 확장하여 효율성과 지능의 trade-off(상충 관계)를 재정립한 오픈소스 멀티모달 모델입니다.

4. 4. Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

arXiv: 2601.05432 | ⬆️ 165 → Deep Dive 보기 태그: geolocalization map-agent lvlm reinforcement-learning test-time-scaling reasoning computer-vision

[!info] 문제 정의

5. 5. Urban Socio-Semantic Segmentation with Vision-Language Reasoning

arXiv: 2601.10477 | ⬆️ 155 → Deep Dive 보기 태그: urban-ai semantic-segmentation vision-language-model remote-sensing socio-semantics zero-shot-generalization satellite-imagery multimodal-learning

이 논문은 위성 이미지만으로는 구별하기 어려운 ‘학교’, ‘공원’ 등 사회적 의미를 가진 도시 영역을, 디지털 지도와 비전-언어 모델(VLM)을 결합한 추론을 통해 정밀하게 분할하는 최초의 프레임워크와 데이터셋을 제시했다는 점에서 매우 중요합니다.

📅 생성일: 2026-02-02 | 🤖 GLM-4.7 Weekly Digest

Quartz 4

탐색기

Weekly AI Paper Digest (2026-01-12 ~ 2026-01-17)