๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-01-19 ~ 2026-01-24 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | Agentic Reasoning for Large Language Modโฆ | 186 | DD-011 |
| ๐ฅ | Your Group-Relative Advantage Is Biased | 147 | DD-012 |
| ๐ฅ | EvoCUA: Evolving Computer Use Agents viaโฆ | 89 | DD-013 |
| 4. | LLM-in-Sandbox Elicits General Agentic Iโฆ | 82 | DD-014 |
| 5. | Being-H0.5: Scaling Human-Centric Robot โฆ | 75 | DD-015 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- Agentic Reasoning (์์ด์ ํธ์ ์ถ๋ก ): ๋จ์ํ ํ ์คํธ ์์ฑ์ ๋์ด, ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๊ณํํ๊ณ ์คํํ๋ ์์จ์ ์ธ ์ถ๋ก ๋ฅ๋ ฅ์ ์๋ฏธํฉ๋๋ค.
- Environment Interaction (ํ๊ฒฝ ์ํธ์์ฉ): ์ฝ๋ ์๋๋ฐ์ค, ์ปดํจํฐ ์ฌ์ฉ, ๋ก๋ด ๋ฑ ์ค์ ๋๋ ๊ฐ์์ ํ๊ฒฝ์ ์ง์ ์กฐ์ํ๋ฉฐ ํ์ตํ๋ ๋ฐฉ์์ ๋๋ค.
- Synthetic Experience (ํฉ์ฑ ๊ฒฝํ): ์ ์ ๋ฐ์ดํฐ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ค์ค๋ก ์์ฑํ๊ฑฐ๋ ํ์ฅ ๊ฐ๋ฅํ ๊ฐ์์ ๊ฒฝํ ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ฐ์ ์ํค๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Cross-Embodiment (ํฌ๋ก์ค-๋ฐ๋ ์ผ๋ฐํ): ์๋ก ๋ค๋ฅธ ํํ์ ๋ก๋ด์ด๋ ์์ด์ ํธ ํ๋์จ์ด ๊ฐ์๋ ์๋ํ ์ ์๋ ๋ฒ์ฉ์ ์ธ ๋ฌผ๋ฆฌ ์ง๋ฅ์ ๋ปํฉ๋๋ค.
- RLVR (Verifier-based RL): ์ถ๋ก ๊ณผ์ ์ ๊ฒ์ฆ์(V verifier)์ ๋ณด์์ ํตํด ๊ฐํํ์ต์ผ๋ก ๊ฐ์ ํ๋ ํ์ฒ๋ฆฌ(Post-training) ๊ธฐ๋ฒ์ ๋๋ค.
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ์ฐ๊ตฌ๋ค์ **โ์ ์ ์ธ ์ธ์ด ๋ชจ๋ธ์์ ๋์ ์ธ ํ๋ ์์ด์ ํธ๋ก์ ์ ํโ**์ ์ง์คํ๊ณ ์์ต๋๋ค. ๋ ์ด์ LLM์ด ๋ซํ ์ธ๊ณ(closed-world) ์์์ ์ถ๋ก ์ ๊ทธ์น์ง ์๊ณ , ์ฝ๋ ์๋๋ฐ์ค๋ ์ปดํจํฐ, ๋ฌผ๋ฆฌ์ ๋ก๋ด๊ณผ ๊ฐ์ ๊ฐ๋ฐฉํ ํ๊ฒฝ(open-ended environments)๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ค์ค๋ก ํ์ตํ๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ โ์์ด์ ํธโ ํํ๋ก ์งํํ๊ณ ์์ต๋๋ค. ๋ํ, ์ด๋ฅผ ์ํ ํ์ต ๋ฐ์ดํฐ๋ก ์ ์ ๋ฐ์ดํฐ์ ๋์ ์ค์๊ฐ ์ํธ์์ฉ ๊ฒฝํ์ด๋ ์ธ๊ฐ ์ค์ฌ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ์ถ์ธ๊ฐ ๋๋๋ฌ์ง๋๋ค.
์ฃผ๋ชฉํ ์
LLM-in-Sandbox ์ฐ๊ตฌ์์๋ ํฅ๋ฏธ๋กญ๊ฒ๋ ์ฝ๋๋ฅผ ์ํ ์๋๋ฐ์ค ํ๊ฒฝ์ ๋น์ฝ๋(Non-code) ์์ญ์ ์ผ๋ฐ ์ง๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๋๊ตฌ๋ก ํ์ฉํ๋ค๋ ์ ์ด ์ฃผ๋ชฉ๋ฐ์ต๋๋ค. ๋ํ EvoCUA์ Being-H0.5๋ ๊ธฐ์กด ๋ฐ์ดํฐ ํ์ฅ์ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ฐ๊ธฐ โํ์ฅ ๊ฐ๋ฅํ ํฉ์ฑ ๊ฒฝํโ๊ณผ โ์ธ๊ฐ ์ํธ์์ฉ์ ๋ณดํธ ์ธ์ด(์ด๋จธ๋ ์ธ์ด)๋ก ํ์ฉโ์ด๋ผ๋ ์๋ก์ด ๋ฐ์ดํฐ ํจ๋ฌ๋ค์์ ์ ์ํ๋ฉฐ ์์ด์ ํธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ทน๋ํํ๋ ค๋ ์๋๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ง ํค์ฐ๋ ๊ฒ์์ ๋ฒ์ด๋, ์์ด์ ํธ๊ฐ ํ์ํ๊ณ ์คํจํ ์ ์๋ ํ๊ฒฝ(์: ์๋๋ฐ์ค, ์๋ฎฌ๋ ์ดํฐ)์ ๊ตฌ์ถํ๋ ๋ฐ ์ค์ ์ ๋์ด์ผ ํฉ๋๋ค. ํนํ, RLVR๊ณผ ๊ฐ์ ์ถ๋ก ๊ฐํ ๊ธฐ๋ฒ์ ์ ์ฉํ ๋ ๋ฐ์ํ ์ ์๋ ํธํฅ(Bias) ๋ฌธ์ ๋ฅผ ์ดํดํ๊ณ ์ด๋ฅผ ์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต ํ์ดํ๋ผ์ธ์ ์ต์ ํํ๋ ๊ฒ์ด ํ์์ ์ด๋ฉฐ, ๋ฌผ๋ฆฌ์ AI๋ ์๋ํ ๋ถ์ผ์์๋ ํน์ ํ๋์จ์ด์ ์ข ์๋์ง ์๋ **๋ฒ์ฉ์ ์ธ ์ก์ ๋ชจ๋ธ(VLA)**์ ์ค๊ณํ๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ์ผ ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. Agentic Reasoning for Large Language Models
arXiv: 2601.12538 | โฌ๏ธ 186 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
agentic-reasoningllm-agentssurvey-paperautonomous-agentstool-useprompt-engineeringai-planningmachine-learning
์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์๋์ ์ธ ํ ์คํธ ์์ฑ ๋๊ตฌ์์ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ค์ค๋ก ๊ณํํ๊ณ ํ๋ํ๋ ์์จํ ์ง๋ฅ์ฒด(Autonomous Agent)๋ก ์งํ์ํค๋ Agentic Reasoning ํจ๋ฌ๋ค์์ ์ฒด๊ณํํ๊ณ ์ ๋ฆฝํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. Your Group-Relative Advantage Is Biased
arXiv: 2601.08521 | โฌ๏ธ 147 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llmreinforcement-learningrlvrgrporeasoningbias-correctionpost-trainingmathematics
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํด ๋๋ฆฌ ์ฐ์ด๋ ๊ทธ๋ฃน ๊ธฐ๋ฐ ๊ฐํ ํ์ต(GRPO) ์๊ณ ๋ฆฌ์ฆ์ ๊ทผ๋ณธ์ ์ธ ํธํฅ(Bias) ๋ฌธ์ ๋ฅผ ์ต์ด๋ก ์ด๋ก ์ ์ผ๋ก ์ฆ๋ช ํ๊ณ , ๊ณผ๊ฑฐ ํ์ต ์ด๋ ฅ์ ํ์ฉํด ์ด๋ฅผ ๋ณด์ ํ๋ HA-DW ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ์ํ์ ์ถ๋ก ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
arXiv: 2601.15876 | โฌ๏ธ 89 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
computer-use-agentssynthetic-datareinforcement-learningscalable-infrastructureauto-mlrlhfreasoningvirtualization
์ ์ ๋ฐ์ดํฐ(Static Data)์ ์์ง ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ์์ด์ ํธ๊ฐ ์ค์ค๋ก ๊ณผ์ ์ ๊ฒ์ฆ๊ธฐ๋ฅผ ์์ฑํ์ฌ ํ์ตํ๋ ์๊ธฐ ์งํ(Self-Evolving) ๋ฃจํ๋ฅผ ํตํด ์ปดํจํฐ ์ฌ์ฉ ์์ด์ ํธ(CUA)์ ์ฑ๋ฅ๊ณผ ํ์ฅ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. LLM-in-Sandbox Elicits General Agentic Intelligence
arXiv: 2601.16206 | โฌ๏ธ 82 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
llm-agentsandboxreinforcement-learninggeneral-intelligencetool-useemergent-abilitiesllm-reasoningagentic-ai
LLM์ ๊ฐ์ ์ปดํจํฐ ํ๊ฒฝ(Sandbox)์ ์ ๊ณตํ์ฌ ์ฝ๋ฉ์ด ์๋ ์ผ๋ฐ ๊ณผ์ ์์๋ ์ค์ค๋ก ๋๊ตฌ๋ฅผ ํ์ฉํ๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ โ์์ด์ ํธ ์ง๋ฅ(Agentic Intelligence)โ์ ๋ฐํ์ํฌ ์ ์์์ ๋ณด์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
arXiv: 2601.12993 | โฌ๏ธ 75 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
being-h05vlacross-embodimentroboticsuni-hand-20representation-learninghuman-centric-aimultimodal
์ด ๋ ผ๋ฌธ์ ์ธ๊ฐ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ํ์ต์ โ๋ณดํธ ์ธ์ดโ๋ก ํ์ฉํ์ฌ, ์๋ก ๋ค๋ฅธ ํํ์ ๋ก๋ด(Embodiment)๋ค์ด ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ณ ๋ฒ์ฉ์ ์ผ๋ก ์ง๋ฅ์ ์ต๋ํ ์ ์๋ ํ ๋๋ฅผ ๋ง๋ จํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Weekly Digest