โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-011 Agentic Reasoning for Large Language Models

arXiv: 2601.12538 ๊ธฐ๊ด€: University of Illinois at Urbana-Champaign Upvotes: 186 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


๐Ÿ“„ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: Agentic Reasoning for Large Language Models

Paper ID: arXiv:2601.12538
Reviewed by: AI/ML Expert & Paper Reviewer


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ์ˆ˜ํ•™ ๋ฌธ์ œ๋‚˜ ์ฝ”๋”ฉ์ฒ˜๋Ÿผ ์ •๋‹ต์ด ์ •ํ•ด์ง„ โ€˜ํ์‡„์ (Closed-world)โ€™ ํ™˜๊ฒฝ์—์„œ๋Š” ๋›ฐ์–ด๋‚œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ณด์˜€์ง€๋งŒ, ์ •๋ณด๊ฐ€ ๋Š์ž„์—†์ด ๋ณ€ํ•˜๊ณ  ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ์ƒํ™ฉ์ด ๋ฐœ์ƒํ•˜๋Š” โ€˜๊ฐœ๋ฐฉ์ (Open-ended)โ€™ ํ˜„์‹ค ์„ธ๊ณ„์—์„œ๋Š” ๋ฌด๋ ฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ LLM์„ ๋‹จ์ˆœํ•œ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋„๊ตฌ๊ฐ€ ์•„๋‹Œ, ์Šค์Šค๋กœ ๊ณ„ํšํ•˜๊ณ  ํ–‰๋™ํ•˜๋ฉฐ ํ•™์Šตํ•˜๋Š” **โ€˜์ž์œจ์ ์ธ ์—์ด์ „ํŠธ(Autonomous Agent)โ€˜**๋กœ ์žฌ์ •์˜ํ•จ์œผ๋กœ์จ, ์ƒ๊ฐ(Reasoning)๊ณผ ํ–‰๋™(Action) ์‚ฌ์ด์˜ ๊ฐ„๊ทน์„ ํ•ด์†Œํ•˜๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ ๐Ÿง 

๐Ÿ๏ธ ์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ์ˆ˜ํ—˜์ƒโ€ vs โ€œํ”„๋กœ์ ํŠธ ๋งค๋‹ˆ์ €โ€

๊ธฐ์กด์˜ LLM์€ ๋งˆ์น˜ **โ€œ์ฑ…๋งŒ ๋ณด๊ณ  ์‹œํ—˜์น˜๋Š” ์ˆ˜ํ—˜์ƒโ€**๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ๋ฌธ์ œ(์ž…๋ ฅ)์— ๋Œ€ํ•ด ์ด๋ฏธ ๊ณต๋ถ€ํ•œ ์ง€์‹์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ต์„ ์“ฐ์ง€๋งŒ, ์ •๋ง๋กœ ๋‹ต์ด ๋งž๋Š”์ง€ ํ˜„์‹ค์—์„œ ํ™•์ธํ•ด๋ณด๊ฑฐ๋‚˜, ๋ฌธ์ œ๊ฐ€ ๋ฐ”๋€Œ๋ฉด ๋Œ€์ฒ˜ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์ด ์ œ์•ˆํ•˜๋Š” Agentic Reasoning์€ **โ€œํ˜„์žฅ์—์„œ ๋Œ์•„๊ฐ€๋Š” ํ”„๋กœ์ ํŠธ ๋งค๋‹ˆ์ €(PM)โ€œ**์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. PM์€ ๊ณ„ํš์„ ์„ธ์›๋‹ˆ๋‹ค.
  2. ํŒ€์›์ด๋‚˜ ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•ด(Tool Use) ์‹ค์ œ๋กœ ์ผ์„ ํ•ฉ๋‹ˆ๋‹ค.
  3. ๊ฒฐ๊ณผ๋ฌผ์„ ํ™•์ธํ•˜๊ณ (Verification), ํ‹€๋ ธ์œผ๋ฉด ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค.
  4. ์ด ๊ฒฝํ—˜์„ ๊ธฐ์–ตํ•ด์„œ(Memory) ๋‹ค์Œ ํ”„๋กœ์ ํŠธ๋ฅผ ๋” ์ž˜ํ•ฉ๋‹ˆ๋‹ค.

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ (The 3 Layers)

์ด ๋…ผ๋ฌธ์€ Agentic Reasoning์„ ์„ธ ๊ฐ€์ง€ ์ธต์œ„๋กœ ๋‚˜๋ˆ„์–ด ์„ค๋ช…ํ•˜๋ฉฐ, ๊ฐ ๋‹จ๊ณ„๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ง„ํ™”ํ•ฉ๋‹ˆ๋‹ค.

  1. ๊ธฐ์ดˆ ์—์ด์ „ํŠธ ์ถ”๋ก  (Foundational Agentic Reasoning):

    • ์—ญํ• : ์•ˆ์ •๋œ ํ™˜๊ฒฝ์—์„œ ๊ธฐ๋ณธ์ ์ธ ๋Šฅ๋ ฅ ์ˆ˜ํ–‰.
    • ๋™์ž‘: ๋‹จ์ผ ์—์ด์ „ํŠธ๊ฐ€ ReAct(์ถ”๋ก +ํ–‰๋™) ํŒจํ„ด์„ ์‚ฌ์šฉํ•˜์—ฌ ์Šค์Šค๋กœ ์ƒ๊ฐํ•˜๊ณ  ๋„๊ตฌ(๊ฒ€์ƒ‰, ๊ณ„์‚ฐ๊ธฐ ๋“ฑ)๋ฅผ ์‚ฌ์šฉํ•ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
    • ์˜ˆ์‹œ: โ€œํŒŒ๋ฆฌ ๋‚ ์”จ ์•Œ๋ ค์ค˜โ€ โ†’ ๊ฒ€์ƒ‰ ๋„๊ตฌ ์‚ฌ์šฉ โ†’ โ€œ๋ง‘์Šต๋‹ˆ๋‹คโ€ ๋‹ต๋ณ€.
  2. ์ž๊ธฐ ์ง„ํ™” ์—์ด์ „ํŠธ ์ถ”๋ก  (Self-Evolving Agentic Reasoning):

    • ์—ญํ• : ๋ณ€ํ™”ํ•˜๋Š” ํ™˜๊ฒฝ์—์„œ ์ ์‘ํ•˜๊ณ  ์„ฑ์žฅ.
    • ๋™์ž‘: ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์—์„œ ์–ป์€ ํ”ผ๋“œ๋ฐฑ(Feedback)์„ ํ†ตํ•ด ์Šค์Šค๋กœ๋ฅผ ์ˆ˜์ •ํ•˜๊ณ , ๊ธฐ์–ต(Memory)์„ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ ์žฅ๊ธฐ์ ์ธ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
    • ์˜ˆ์‹œ: ์ฝ”๋“œ๋ฅผ ์งฐ๋Š”๋ฐ ์—๋Ÿฌ๊ฐ€ ๋‚˜๋ฉด, ์—๋Ÿฌ ๋กœ๊ทธ๋ฅผ ๋ณด๊ณ  ์Šค์Šค๋กœ ์ฝ”๋“œ๋ฅผ ์ˆ˜์ •ํ•˜๊ณ  ๋‹ค์‹œ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค.
  3. ์ง‘๋‹จ ์—์ด์ „ํŠธ ์ถ”๋ก  (Collective Agentic Reasoning):

    • ์—ญํ• : ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ.
    • ๋™์ž‘: ์„œ๋กœ ๋‹ค๋ฅธ ์—ญํ• ์„ ๊ฐ€์ง„ ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๊ฐ€ ํ† ๋ก ํ•˜๊ฑฐ๋‚˜ ํ˜‘๋ ฅํ•˜์—ฌ ๋” ๋†’์€ ์ˆ˜์ค€์˜ ์ง€๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
    • ์˜ˆ์‹œ: ์ž‘๊ฐ€ ์—์ด์ „ํŠธ, ํŽธ์ง‘์ž ์—์ด์ „ํŠธ, ๋น„ํ‰๊ฐ€ ์—์ด์ „ํŠธ๊ฐ€ ํ•จ๊ป˜ ์†Œ์„ค์„ ์ง‘ํ•„ํ•˜์—ฌ ์™„์„ฑ๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค.

๐Ÿ“ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ • (Sequential Decision Making)

์ด ๋…ผ๋ฌธ์˜ ์ˆ˜ํ•™์ /๋…ผ๋ฆฌ์  ํ•ต์‹ฌ์€ LLM์„ ์ž…๋ ฅ $x$์—์„œ ์ถœ๋ ฅ $y$๋กœ ๋ฐ”๋กœ ๊ฐ€๋Š” ํ•จ์ˆ˜๊ฐ€ ์•„๋‹Œ, ์ƒํƒœ(State) $S$์™€ ํ–‰๋™(Action) $A$๊ฐ€ ๋ฐ˜๋ณต๋˜๋Š” ๋ฃจํ”„๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

$$ \tau = (s_0, a_0, s_1, a_1, \dots, s_T) $$

์—ฌ๊ธฐ์„œ $s_t$๋Š” ํ˜„์žฌ ์ƒํƒœ(ํ™˜๊ฒฝ ์ •๋ณด), $a_t$๋Š” ์—์ด์ „ํŠธ์˜ ํ–‰๋™(์ถ”๋ก  ๊ฒฐ๊ณผ ๋˜๋Š” ๋„๊ตฌ ์‚ฌ์šฉ)์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋Š” ์ด ๊ถค์ (Trajectory) $\tau$๋ฅผ ํ†ตํ•ด ์ตœ์ข… ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ ํ•œ ๋ฒˆ์— ๋‹ต์„ ์“ฐ๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๋งŽ์€ ๊ณ„์‚ฐ ๊ณผ์ •(Thinking)์„ ๊ฑฐ์น˜๊ฒŒ ํ•˜์—ฌ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„ ๐Ÿ“Š

์ฐธ๊ณ : ์ œ๊ณต๋œ ์›๋ฌธ์ด ์„œ๋ก (Introduction)๊นŒ์ง€๋งŒ ํฌํ•จ๋œ ์กฐ์‚ฌ ๋…ผ๋ฌธ(Survey Paper)์ด๋ฏ€๋กœ, ์ด ๋…ผ๋ฌธ ์ž์ฒด์˜ ์ƒˆ๋กœ์šด ์‹คํ—˜ ์ˆ˜์น˜๋ณด๋‹ค๋Š” ์ด ๋ถ„์•ผ์—์„œ ํ†ต์ƒ์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ฒค์น˜๋งˆํฌ์™€ ์„ฑ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ถ„์„ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

  • ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ (Benchmark):

    • WebArena / AgentBench: ์‹ค์ œ ์›น ๋ธŒ๋ผ์šฐ์ง•์ด๋‚˜ API ํ˜ธ์ถœ์„ ํ†ตํ•œ ๋ณต์žกํ•œ ์ž‘์—… ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€.
    • GSM8K / MATH: ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ (๋‹จ, ๋„๊ตฌ ์‚ฌ์šฉ ์—ฌ๋ถ€์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋น„๊ต).
    • HumanEval: ์ฝ”๋”ฉ ๋ฌธ์ œ ํ•ด๊ฒฐ (๋‹จ์ˆœ ์ฝ”๋“œ ์ƒ์„ฑ vs. ์ž์ฒด ํ…Œ์ŠคํŠธ ๋ฐ ์ˆ˜์ •์„ ํ†ตํ•œ ํ•ด๊ฒฐ).
  • ์„ฑ๊ณผ ๋ถ„์„ (Agentic vs. Non-Agentic):

    • ๊ธฐ์กด SOTA(์ผ๋ฐ˜ LLM) ๋Œ€๋น„: ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ์Šคํ… ์ž‘์—…(์˜ˆ: โ€œ์—ฌํ–‰์ง€ ์˜ˆ์•ฝํ•˜๊ณ  ๋‚ ์”จ ํ™•์ธ ํ›„ ์ด๋ฉ”์ผ ์“ฐ๊ธฐโ€)์—์„œ ์•ฝ 30%~50% ์ด์ƒ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋„๊ตฌ ์‚ฌ์šฉ(Tool Use)์˜ ํšจ๊ณผ: LLM์ด ์Šค์Šค๋กœ ๊ฒ€์ƒ‰์ด๋‚˜ ํŒŒ์ด์ฌ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฉด, ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ž‘์•„๋„(์˜ˆ: GPT-3.5 ๊ธ‰) ๋” ํฐ ๋ชจ๋ธ(GPT-4 ๊ธ‰)๋ณด๋‹ค ์‹ค์ œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ โš ๏ธ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„ (๋ฐ ๋ถ„์•ผ์˜ ๊ณตํ†ต๋œ ํ•œ๊ณ„):

  • ์ง€์—ฐ ์‹œ๊ฐ„(Latency): ์ƒ๊ฐํ•˜๊ณ , ๋„๊ตฌ๋ฅผ ์“ฐ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฏ€๋กœ ๋‹ต๋ณ€์ด ๋‚˜์˜ค๊ธฐ๊นŒ์ง€ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฝ๋‹ˆ๋‹ค.
  • ๋น„์šฉ(Cost): ํ† ํฐ ์‚ฌ์šฉ๋Ÿ‰์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚˜ inference ๋น„์šฉ์ด ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค.
  • ์‹ ๋ขฐ์„ฑ(Reliability): ๋ณต์žกํ•œ ๊ณ„ํš์„ ์„ธ์šธ ๋•Œ, ์ดˆ๊ธฐ ๊ณ„ํš์ด ํ‹€๋ฆฌ๋ฉด ์ด๋ฅผ ๋ฐ”๋กœ์žก์ง€ ๋ชปํ•˜๊ณ  ๊ณ„์† ํ—ค๋งค๋Š” โ€œ๋ˆ„์„ค(Error Propagation)โ€ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ:

  • ๋” ํšจ์œจ์ ์ธ ๊ฒ€์ƒ‰(Plannig) ์•Œ๊ณ ๋ฆฌ์ฆ˜: ๋ถˆํ•„์š”ํ•œ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด MCTS(๋ชฌํ…Œ์นด๋ฅผ๋กœ ํŠธ๋ฆฌ ํƒ์ƒ‰) ๊ฐ™์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ LLM๊ณผ ๊ฒฐํ•ฉํ•˜๋Š” ์—ฐ๊ตฌ.
  • ๋ฉ”๋ชจ๋ฆฌ ์•„ํ‚คํ…์ฒ˜ ๊ณ ๋„ํ™”: ์—์ด์ „ํŠธ๊ฐ€ ์žฅ๊ธฐ๊ฐ„ ๊ธฐ์–ต์„ ์ €์žฅํ•˜๊ณ  ํ•„์š”ํ•  ๋•Œ๋งŒ ๊บผ๋‚ด ์“ฐ๋Š” ํšจ์œจ์ ์ธ RAG(๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ) ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ ๐Ÿ’ผ

  • ์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

    • ์ž์œจ ์„œ๋น„์Šค ๋ฐ์Šคํฌ: ๋‹จ์ˆœ Q&A๊ฐ€ ์•„๋‹ˆ๋ผ, ๊ณ ๊ฐ์˜ ๋ฌธ์˜๋ฅผ ๋“ฃ๊ณ  ์‹œ์Šคํ…œ ๋ฐฑ์—”๋“œ๋ฅผ ์ง์ ‘ ์กฐํšŒํ•œ ๋’ค ํ™˜๋ถˆ์„ ์ฒ˜๋ฆฌํ•ด์ฃผ๋Š” ๋“ฑ ์™„์ „ ์ž๋™ํ™”๋œ ๊ณ ๊ฐ ์ง€์› ์‹œ์Šคํ…œ.
    • ๋ณต์žกํ•œ RAG ์‹œ์Šคํ…œ: ๋ฌธ์„œ๋ฅผ ํ•œ ๋ฒˆ์— ๊ฒ€์ƒ‰ํ•ด์„œ ๋‹ตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์—ฌ๋Ÿฌ ๋ฒˆ์— ๊ฑธ์ณ ๋ฌธ์„œ๋ฅผ ์ฝ๊ณ  ์„œ๋กœ cross-reference ํ•˜์—ฌ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ์‹œ์Šคํ…œ.
    • ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ๋ณด์กฐ: ์š”๊ตฌ์‚ฌํ•ญ์„ ์ฃผ๋ฉด ์Šค์Šค๋กœ ํŒŒ์ผ์„ ๋งŒ๋“ค๊ณ , ์ฝ”๋“œ๋ฅผ ์งœ๊ณ , ํ…Œ์ŠคํŠธ๋ฅผ ๋Œ๋ ค๋ณด๊ณ , ์—๋Ÿฌ๋ฅผ ๊ณ ์น˜๋Š” โ€˜AI ๊ฐœ๋ฐœ์žโ€™.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค:

    • GPU/Compute: ์ผ๋ฐ˜์ ์ธ ์ฑ—๋ด‡๋ณด๋‹ค ํ›จ์”ฌ ๋งŽ์€ ์ถ”๋ก  ์—ฐ์‚ฐ๋Ÿ‰์ด ํ•„์š”ํ•˜๋ฏ€๋กœ, ๋น ๋ฅธ ์‘๋‹ต์„ ์œ„ํ•ด์„œ๋Š” ๊ณ ์„ฑ๋Šฅ GPU ์„œ๋ฒ„ ํ˜น์€ ํšจ์œจ์ ์ธ ์–‘์žํ™” ๋ชจ๋ธ ํ•„์š”.
    • ํ™˜๊ฒฝ ์„ค์ •: ์—์ด์ „ํŠธ๊ฐ€ ์‚ฌ์šฉํ•  ๋„๊ตฌ๋“ค(API, ๊ฒ€์ƒ‰ ์—”์ง„, ํŒŒ์ด์ฌ ์ƒŒ๋“œ๋ฐ•์Šค ๋“ฑ)์ด ๊ตฌ์ถ•๋œ ์ธํ”„๋ผ ํ•„์š”.
    • ๋ฐ์ดํ„ฐ: ์—์ด์ „ํŠธ๊ฐ€ ํ–‰๋™์„ ํ•™์Šตํ•˜๊ฑฐ๋‚˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›๊ธฐ ์œ„ํ•œ Trajectory ๋ฐ์ดํ„ฐ์…‹.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹ ๐Ÿ“š

  1. Large Language Models (LLM): ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ(GPT, Claude ๋“ฑ)๋กœ, ํ…์ŠคํŠธ ์ƒ์„ฑ๊ณผ ์ดํ•ด๋ฅผ ๋‹ด๋‹นํ•˜๋Š” ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ .
  2. Chain-of-Thought (CoT): โ€œ๋‹จ๊ณ„๋ณ„๋กœ ์ƒ๊ฐํ•ด์„œ ๋‹ตํ•ด์ค˜โ€๋ผ๊ณ  ์œ ๋„ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š” ํ”„๋กฌํ”„ํŒ… ๊ธฐ๋ฒ•.
  3. ReAct (Reasoning + Acting): ์ถ”๋ก  ๊ณผ์ •(Thought)๊ณผ ๋„๊ตฌ ์‚ฌ์šฉ ํ–‰๋™(Action)์„ ๋ฒˆ๊ฐˆ์•„ ๊ฐ€๋ฉฐ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์—์ด์ „ํŠธ์˜ ๊ธฐ๋ณธ ํŒจ๋Ÿฌ๋‹ค์ž„.
  4. Prompt Engineering: ๋ชจ๋ธ์ด ์›ํ•˜๋Š” ๋Œ€๋กœ ํ–‰๋™ํ•˜๋„๋ก ์ž…๋ ฅ(ํ”„๋กฌํ”„ํŠธ)์„ ์ตœ์ ํ™”ํ•˜๋Š” ๊ธฐ์ˆ .
  5. Tool Use / Function Calling: LLM์ด ํ…์ŠคํŠธ๋งŒ ์ƒ์„ฑํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ์™ธ๋ถ€ ํ•จ์ˆ˜(๋‚ ์”จ API, ๊ณ„์‚ฐ๊ธฐ ๋“ฑ)๋ฅผ ํ˜ธ์ถœํ•˜์—ฌ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ๊ธฐ๋Šฅ.
  6. RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ ์™ธ๋ถ€์˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰ํ•˜์—ฌ ๋‹ต๋ณ€์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๊ธฐ์ˆ .
  7. Reinforcement Learning (๊ฐ•ํ™” ํ•™์Šต): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ํ•™์Šต ๋ฐฉ์‹(Self-evolving ์—์ด์ „ํŠธ์˜ ๊ทผ๊ฐ„).

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Agentic Reasoning for Large Languagโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆYour Group-Relative Advantage Is Biโ€ฆDD-012
๐Ÿฅ‰EvoCUA: Evolving Computer Use Agentโ€ฆDD-013
4.LLM-in-Sandbox Elicits General Agenโ€ฆDD-014
5.Being-H0.5: Scaling Human-Centric Rโ€ฆDD-015

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive