โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-011 Agentic Reasoning for Large Language Models
arXiv: 2601.12538 ๊ธฐ๊ด: University of Illinois at Urbana-Champaign Upvotes: 186 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 1
๐ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Agentic Reasoning for Large Language Models
Paper ID: arXiv:2601.12538
Reviewed by: AI/ML Expert & Paper Reviewer
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ํ ๋ฌธ์ ๋ ์ฝ๋ฉ์ฒ๋ผ ์ ๋ต์ด ์ ํด์ง โํ์์ (Closed-world)โ ํ๊ฒฝ์์๋ ๋ฐ์ด๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์์ง๋ง, ์ ๋ณด๊ฐ ๋์์์ด ๋ณํ๊ณ ์์ธก ๋ถ๊ฐ๋ฅํ ์ํฉ์ด ๋ฐ์ํ๋ โ๊ฐ๋ฐฉ์ (Open-ended)โ ํ์ค ์ธ๊ณ์์๋ ๋ฌด๋ ฅํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ LLM์ ๋จ์ํ ํ ์คํธ ์์ฑ ๋๊ตฌ๊ฐ ์๋, ์ค์ค๋ก ๊ณํํ๊ณ ํ๋ํ๋ฉฐ ํ์ตํ๋ **โ์์จ์ ์ธ ์์ด์ ํธ(Autonomous Agent)โ**๋ก ์ฌ์ ์ํจ์ผ๋ก์จ, ์๊ฐ(Reasoning)๊ณผ ํ๋(Action) ์ฌ์ด์ ๊ฐ๊ทน์ ํด์ํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ ๐ง
๐๏ธ ์ผ์์ํ ๋น์ : โ์ํ์โ vs โํ๋ก์ ํธ ๋งค๋์ โ
๊ธฐ์กด์ LLM์ ๋ง์น **โ์ฑ ๋ง ๋ณด๊ณ ์ํ์น๋ ์ํ์โ**๊ณผ ๊ฐ์ต๋๋ค. ์ฃผ์ด์ง ๋ฌธ์ (์ ๋ ฅ)์ ๋ํด ์ด๋ฏธ ๊ณต๋ถํ ์ง์์ ๋ฐํ์ผ๋ก ๋ต์ ์ฐ์ง๋ง, ์ ๋ง๋ก ๋ต์ด ๋ง๋์ง ํ์ค์์ ํ์ธํด๋ณด๊ฑฐ๋, ๋ฌธ์ ๊ฐ ๋ฐ๋๋ฉด ๋์ฒํ์ง ๋ชปํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ด ์ ์ํ๋ Agentic Reasoning์ **โํ์ฅ์์ ๋์๊ฐ๋ ํ๋ก์ ํธ ๋งค๋์ (PM)โ**์ ๊ฐ์ต๋๋ค.
- PM์ ๊ณํ์ ์ธ์๋๋ค.
- ํ์์ด๋ ๋๊ตฌ๋ฅผ ํ์ฉํด(Tool Use) ์ค์ ๋ก ์ผ์ ํฉ๋๋ค.
- ๊ฒฐ๊ณผ๋ฌผ์ ํ์ธํ๊ณ (Verification), ํ๋ ธ์ผ๋ฉด ์์ ํฉ๋๋ค.
- ์ด ๊ฒฝํ์ ๊ธฐ์ตํด์(Memory) ๋ค์ ํ๋ก์ ํธ๋ฅผ ๋ ์ํฉ๋๋ค.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ์๋ฆฌ (The 3 Layers)
์ด ๋ ผ๋ฌธ์ Agentic Reasoning์ ์ธ ๊ฐ์ง ์ธต์๋ก ๋๋์ด ์ค๋ช ํ๋ฉฐ, ๊ฐ ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ์ด ์งํํฉ๋๋ค.
-
๊ธฐ์ด ์์ด์ ํธ ์ถ๋ก (Foundational Agentic Reasoning):
- ์ญํ : ์์ ๋ ํ๊ฒฝ์์ ๊ธฐ๋ณธ์ ์ธ ๋ฅ๋ ฅ ์ํ.
- ๋์: ๋จ์ผ ์์ด์ ํธ๊ฐ
ReAct(์ถ๋ก +ํ๋) ํจํด์ ์ฌ์ฉํ์ฌ ์ค์ค๋ก ์๊ฐํ๊ณ ๋๊ตฌ(๊ฒ์, ๊ณ์ฐ๊ธฐ ๋ฑ)๋ฅผ ์ฌ์ฉํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. - ์์: โํ๋ฆฌ ๋ ์จ ์๋ ค์คโ โ ๊ฒ์ ๋๊ตฌ ์ฌ์ฉ โ โ๋ง์ต๋๋คโ ๋ต๋ณ.
-
์๊ธฐ ์งํ ์์ด์ ํธ ์ถ๋ก (Self-Evolving Agentic Reasoning):
- ์ญํ : ๋ณํํ๋ ํ๊ฒฝ์์ ์ ์ํ๊ณ ์ฑ์ฅ.
- ๋์: ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์์ ์ป์ ํผ๋๋ฐฑ(Feedback)์ ํตํด ์ค์ค๋ก๋ฅผ ์์ ํ๊ณ , ๊ธฐ์ต(Memory)์ ์ ๋ฐ์ดํธํ๋ฉฐ ์ฅ๊ธฐ์ ์ธ ๊ณผ์ ๋ฅผ ์ํํฉ๋๋ค.
- ์์: ์ฝ๋๋ฅผ ์งฐ๋๋ฐ ์๋ฌ๊ฐ ๋๋ฉด, ์๋ฌ ๋ก๊ทธ๋ฅผ ๋ณด๊ณ ์ค์ค๋ก ์ฝ๋๋ฅผ ์์ ํ๊ณ ๋ค์ ์คํํฉ๋๋ค.
-
์ง๋จ ์์ด์ ํธ ์ถ๋ก (Collective Agentic Reasoning):
- ์ญํ : ์ฌ๋ฌ ์์ด์ ํธ๊ฐ ํ๋ ฅํ์ฌ ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ.
- ๋์: ์๋ก ๋ค๋ฅธ ์ญํ ์ ๊ฐ์ง ์ฌ๋ฌ ์์ด์ ํธ๊ฐ ํ ๋ก ํ๊ฑฐ๋ ํ๋ ฅํ์ฌ ๋ ๋์ ์์ค์ ์ง๋ฅ์ ๋ฐํํฉ๋๋ค.
- ์์: ์๊ฐ ์์ด์ ํธ, ํธ์ง์ ์์ด์ ํธ, ๋นํ๊ฐ ์์ด์ ํธ๊ฐ ํจ๊ป ์์ค์ ์งํํ์ฌ ์์ฑ๋๋ฅผ ๋์ ๋๋ค.
๐ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: ์์ฐจ์ ์์ฌ๊ฒฐ์ (Sequential Decision Making)
์ด ๋ ผ๋ฌธ์ ์ํ์ /๋ ผ๋ฆฌ์ ํต์ฌ์ LLM์ ์ ๋ ฅ $x$์์ ์ถ๋ ฅ $y$๋ก ๋ฐ๋ก ๊ฐ๋ ํจ์๊ฐ ์๋, ์ํ(State) $S$์ ํ๋(Action) $A$๊ฐ ๋ฐ๋ณต๋๋ ๋ฃจํ๋ก ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๋๋ค.
$$ \tau = (s_0, a_0, s_1, a_1, \dots, s_T) $$
์ฌ๊ธฐ์ $s_t$๋ ํ์ฌ ์ํ(ํ๊ฒฝ ์ ๋ณด), $a_t$๋ ์์ด์ ํธ์ ํ๋(์ถ๋ก ๊ฒฐ๊ณผ ๋๋ ๋๊ตฌ ์ฌ์ฉ)์ ๋๋ค. ์์ด์ ํธ๋ ์ด ๊ถค์ (Trajectory) $\tau$๋ฅผ ํตํด ์ต์ข ๋ชฉํ๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์ด๋ ๊ธฐ์กด์ ํ ๋ฒ์ ๋ต์ ์ฐ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ ๋ง์ ๊ณ์ฐ ๊ณผ์ (Thinking)์ ๊ฑฐ์น๊ฒ ํ์ฌ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํ ์ ์๊ฒ ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์ ๐
์ฐธ๊ณ : ์ ๊ณต๋ ์๋ฌธ์ด ์๋ก (Introduction)๊น์ง๋ง ํฌํจ๋ ์กฐ์ฌ ๋ ผ๋ฌธ(Survey Paper)์ด๋ฏ๋ก, ์ด ๋ ผ๋ฌธ ์์ฒด์ ์๋ก์ด ์คํ ์์น๋ณด๋ค๋ ์ด ๋ถ์ผ์์ ํต์์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋ฒค์น๋งํฌ์ ์ฑ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ถ์ํ๊ฒ ์ต๋๋ค.
-
์ฃผ์ ๋ฒค์น๋งํฌ (Benchmark):
- WebArena / AgentBench: ์ค์ ์น ๋ธ๋ผ์ฐ์ง์ด๋ API ํธ์ถ์ ํตํ ๋ณต์กํ ์์ ์ํ ๋ฅ๋ ฅ์ ํ๊ฐ.
- GSM8K / MATH: ์ํ ๋ฌธ์ ํด๊ฒฐ (๋จ, ๋๊ตฌ ์ฌ์ฉ ์ฌ๋ถ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต).
- HumanEval: ์ฝ๋ฉ ๋ฌธ์ ํด๊ฒฐ (๋จ์ ์ฝ๋ ์์ฑ vs. ์์ฒด ํ ์คํธ ๋ฐ ์์ ์ ํตํ ํด๊ฒฐ).
-
์ฑ๊ณผ ๋ถ์ (Agentic vs. Non-Agentic):
- ๊ธฐ์กด SOTA(์ผ๋ฐ LLM) ๋๋น: ๋ณต์กํ ๋ฉํฐ์คํ ์์ (์: โ์ฌํ์ง ์์ฝํ๊ณ ๋ ์จ ํ์ธ ํ ์ด๋ฉ์ผ ์ฐ๊ธฐโ)์์ ์ฝ 30%~50% ์ด์์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋ ๊ฒฝํฅ์ด ์์ต๋๋ค.
- ๋๊ตฌ ์ฌ์ฉ(Tool Use)์ ํจ๊ณผ: LLM์ด ์ค์ค๋ก ๊ฒ์์ด๋ ํ์ด์ฌ ์ฝ๋๋ฅผ ์คํํ ์ ์๊ฒ ๋๋ฉด, ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์์๋(์: GPT-3.5 ๊ธ) ๋ ํฐ ๋ชจ๋ธ(GPT-4 ๊ธ)๋ณด๋ค ์ค์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ โ ๏ธ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ (๋ฐ ๋ถ์ผ์ ๊ณตํต๋ ํ๊ณ):
- ์ง์ฐ ์๊ฐ(Latency): ์๊ฐํ๊ณ , ๋๊ตฌ๋ฅผ ์ฐ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ค๋ฆฌ๋ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฏ๋ก ๋ต๋ณ์ด ๋์ค๊ธฐ๊น์ง ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฝ๋๋ค.
- ๋น์ฉ(Cost): ํ ํฐ ์ฌ์ฉ๋์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋ inference ๋น์ฉ์ด ๋งค์ฐ ๋์ต๋๋ค.
- ์ ๋ขฐ์ฑ(Reliability): ๋ณต์กํ ๊ณํ์ ์ธ์ธ ๋, ์ด๊ธฐ ๊ณํ์ด ํ๋ฆฌ๋ฉด ์ด๋ฅผ ๋ฐ๋ก์ก์ง ๋ชปํ๊ณ ๊ณ์ ํค๋งค๋ โ๋์ค(Error Propagation)โ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅ์ฑ ๋ฐ ํฅํ ์ฐ๊ตฌ:
- ๋ ํจ์จ์ ์ธ ๊ฒ์(Plannig) ์๊ณ ๋ฆฌ์ฆ: ๋ถํ์ํ ์ํ์ฐฉ์ค๋ฅผ ์ค์ด๊ธฐ ์ํด MCTS(๋ชฌํ ์นด๋ฅผ๋ก ํธ๋ฆฌ ํ์) ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ LLM๊ณผ ๊ฒฐํฉํ๋ ์ฐ๊ตฌ.
- ๋ฉ๋ชจ๋ฆฌ ์ํคํ ์ฒ ๊ณ ๋ํ: ์์ด์ ํธ๊ฐ ์ฅ๊ธฐ๊ฐ ๊ธฐ์ต์ ์ ์ฅํ๊ณ ํ์ํ ๋๋ง ๊บผ๋ด ์ฐ๋ ํจ์จ์ ์ธ RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ) ์์คํ ๊ฐ๋ฐ.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ ๐ผ
-
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
- ์์จ ์๋น์ค ๋ฐ์คํฌ: ๋จ์ Q&A๊ฐ ์๋๋ผ, ๊ณ ๊ฐ์ ๋ฌธ์๋ฅผ ๋ฃ๊ณ ์์คํ ๋ฐฑ์๋๋ฅผ ์ง์ ์กฐํํ ๋ค ํ๋ถ์ ์ฒ๋ฆฌํด์ฃผ๋ ๋ฑ ์์ ์๋ํ๋ ๊ณ ๊ฐ ์ง์ ์์คํ .
- ๋ณต์กํ RAG ์์คํ : ๋ฌธ์๋ฅผ ํ ๋ฒ์ ๊ฒ์ํด์ ๋ตํ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ๋ฒ์ ๊ฑธ์ณ ๋ฌธ์๋ฅผ ์ฝ๊ณ ์๋ก cross-reference ํ์ฌ ๋ต๋ณ์ ์์ฑํ๋ ์์คํ .
- ์ํํธ์จ์ด ๊ฐ๋ฐ ๋ณด์กฐ: ์๊ตฌ์ฌํญ์ ์ฃผ๋ฉด ์ค์ค๋ก ํ์ผ์ ๋ง๋ค๊ณ , ์ฝ๋๋ฅผ ์ง๊ณ , ํ ์คํธ๋ฅผ ๋๋ ค๋ณด๊ณ , ์๋ฌ๋ฅผ ๊ณ ์น๋ โAI ๊ฐ๋ฐ์โ.
-
ํ์ํ ๋ฆฌ์์ค:
- GPU/Compute: ์ผ๋ฐ์ ์ธ ์ฑ๋ด๋ณด๋ค ํจ์ฌ ๋ง์ ์ถ๋ก ์ฐ์ฐ๋์ด ํ์ํ๋ฏ๋ก, ๋น ๋ฅธ ์๋ต์ ์ํด์๋ ๊ณ ์ฑ๋ฅ GPU ์๋ฒ ํน์ ํจ์จ์ ์ธ ์์ํ ๋ชจ๋ธ ํ์.
- ํ๊ฒฝ ์ค์ : ์์ด์ ํธ๊ฐ ์ฌ์ฉํ ๋๊ตฌ๋ค(API, ๊ฒ์ ์์ง, ํ์ด์ฌ ์๋๋ฐ์ค ๋ฑ)์ด ๊ตฌ์ถ๋ ์ธํ๋ผ ํ์.
- ๋ฐ์ดํฐ: ์์ด์ ํธ๊ฐ ํ๋์ ํ์ตํ๊ฑฐ๋ ํผ๋๋ฐฑ์ ๋ฐ๊ธฐ ์ํ Trajectory ๋ฐ์ดํฐ์ .
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์ ๐
- Large Language Models (LLM): ๋๊ท๋ชจ ํ ์คํธ๋ก ํ์ต๋ ๋ชจ๋ธ(GPT, Claude ๋ฑ)๋ก, ํ ์คํธ ์์ฑ๊ณผ ์ดํด๋ฅผ ๋ด๋นํ๋ ๊ธฐ๋ฐ ๊ธฐ์ .
- Chain-of-Thought (CoT): โ๋จ๊ณ๋ณ๋ก ์๊ฐํด์ ๋ตํด์คโ๋ผ๊ณ ์ ๋ํ์ฌ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ด๋ ํ๋กฌํํ ๊ธฐ๋ฒ.
- ReAct (Reasoning + Acting): ์ถ๋ก ๊ณผ์ (Thought)๊ณผ ๋๊ตฌ ์ฌ์ฉ ํ๋(Action)์ ๋ฒ๊ฐ์ ๊ฐ๋ฉฐ ์ํํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์์ด์ ํธ์ ๊ธฐ๋ณธ ํจ๋ฌ๋ค์.
- Prompt Engineering: ๋ชจ๋ธ์ด ์ํ๋ ๋๋ก ํ๋ํ๋๋ก ์ ๋ ฅ(ํ๋กฌํํธ)์ ์ต์ ํํ๋ ๊ธฐ์ .
- Tool Use / Function Calling: LLM์ด ํ ์คํธ๋ง ์์ฑํ๋ ๊ฒ ์๋๋ผ, ์ธ๋ถ ํจ์(๋ ์จ API, ๊ณ์ฐ๊ธฐ ๋ฑ)๋ฅผ ํธ์ถํ์ฌ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ฌ ์ ์๊ฒ ํ๋ ๊ธฐ๋ฅ.
- RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ ์ธ๋ถ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ ๋ณด๋ฅผ ๊ฒ์ํ์ฌ ๋ต๋ณ์ ์ ํ๋๋ฅผ ๋์ด๋ ๊ธฐ์ .
- Reinforcement Learning (๊ฐํ ํ์ต): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ํตํด ํ์ตํ๋ ํ์ต ๋ฐฉ์(Self-evolving ์์ด์ ํธ์ ๊ทผ๊ฐ).
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Agentic Reasoning for Large Languagโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Your Group-Relative Advantage Is Biโฆ | DD-012 |
| ๐ฅ | EvoCUA: Evolving Computer Use Agentโฆ | DD-013 |
| 4. | LLM-in-Sandbox Elicits General Agenโฆ | DD-014 |
| 5. | Being-H0.5: Scaling Human-Centric Rโฆ | DD-015 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive