โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-014 LLM-in-Sandbox Elicits General Agentic Intelligence

arXiv: 2601.16206 ๊ธฐ๊ด€: Microsoft Research Upvotes: 82 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4

Figure 1


[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] LLM-in-Sandbox Elicits General Agentic Intelligence

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ LLM(๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ)๋“ค์€ ํ…์ŠคํŠธ ์ž…๋ ฅ๋งŒ์œผ๋กœ ํ•œ๊ณ„์— ๋ถ€๋”ชํ˜”์œผ๋ฉฐ, ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๊ฑฐ๋‚˜ ๋ณต์žกํ•œ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•˜๊ธฐ ์‰ฝ๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ LLM์—๊ฒŒ โ€˜๊ฐ€์ƒ ์ปดํ“จํ„ฐ(์ฝ”๋“œ ์ƒŒ๋“œ๋ฐ•์Šค)โ€˜๋ผ๋Š” ์†๊ณผ ๋ฐœ์„ ๋‹ฌ์•„์ฃผ์–ด, ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด ์ง์ ‘ ๋„๊ตฌ๋ฅผ ์“ฐ๊ณ  ํŒŒ์ผ์„ ๊ด€๋ฆฌํ•˜๋Š” **๋ฒ”์šฉ์ ์ธ ์—์ด์ „ํŠธ(Agent)**๋กœ ๊ฑฐ๋“ญ๋‚˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋น„์ฝ”๋”ฉ ์˜์—ญ(์ˆ˜ํ•™, ๊ณผํ•™ ๋“ฑ)์—์„œ๋„ ์Šค์Šค๋กœ ํƒ์ƒ‰ํ•˜๋ฉฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํš๊ธฐ์ ์œผ๋กœ ๋†’์ด๊ณ , ํŠนํžˆ ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ์—์„œ ํ† ํฐ ์‚ฌ์šฉ๋Ÿ‰์„ ์ตœ๋Œ€ 90%๊นŒ์ง€ ๊ฐ์†Œ์‹œํ‚ค๋Š” ํšจ์œจ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿง  ์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ๋งน์ธ ์ฒœ์žฌ์—๊ฒŒ ์ปดํ“จํ„ฐ ๋‹ฌ์•„์ฃผ๊ธฐโ€

๊ธฐ์กด์˜ LLM์„ **โ€˜๋ˆˆ์ด ๋ฉ€์—ˆ์ง€๋งŒ ๋จธ๋ฆฌ๋Š” ์ข‹์€ ๋„์„œ๊ด€ ์‚ฌ์„œโ€™**๋ผ๊ณ  ์ƒ๊ฐํ•ด ๋ณด์„ธ์š”. ์ด ์‚ฌ์„œ๋Š” ์ฑ… ๋‚ด์šฉ์„ ์ „๋ถ€ ์™ธ์šฐ๋ ค๊ณ  ํ•˜์ง€๋งŒ, ์ฑ…์ด ๋„ˆ๋ฌด ๋‘๊บผ์šฐ๋ฉด(๊ธด ๋ฌธ๋งฅ) ๊ธฐ์–ต์„ ๋ชปํ•˜๊ฑฐ๋‚˜, ๋ณต์žกํ•œ ์ˆ˜์‹์„ ์•”์‚ฐํ•˜๋‹ค ์‹ค์ˆ˜๋ฅผ ํ•ฉ๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์˜ LLM-in-Sandbox๋Š” ์ด ์‚ฌ์„œ์—๊ฒŒ **โ€˜์ปดํ“จํ„ฐ์™€ ์ธํ„ฐ๋„ท์ด ๋‹ฌ๋ฆฐ ์ž‘์—…์‹คโ€™**์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • ์ „: ์‚ฌ์„œ๊ฐ€ ๋จธ๋ฆฟ์†์œผ๋กœ๋งŒ ๊ณ„์‚ฐํ•จ (๋น„ํšจ์œจ์ , ์˜ค๋ฅ˜ ๊ฐ€๋Šฅ์„ฑ ๋†’์Œ)
  • ํ›„: ์‚ฌ์„œ๊ฐ€ ํ•„์š”ํ•  ๋•Œ๋งˆ๋‹ค ์—‘์…€์„ ์ผœ์„œ ๊ณ„์‚ฐํ•˜๊ณ , ์ธํ„ฐ๋„ท์—์„œ ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰ํ•˜๋ฉฐ, ๊ฒฐ๊ณผ๋ฅผ ํŒŒ์ผ๋กœ ์ €์žฅํ•จ (์ •ํ™•ํ•˜๊ณ  ํšจ์œจ์ )

์ด์ œ ์‚ฌ์„œ๋Š” ๋ชจ๋“  ๊ฒƒ์„ ๋จธ๋ฆฌ์— ์™ธ์šฐ์ง€ ์•Š์•„๋„ ๋ฉ๋‹ˆ๋‹ค. โ€œ์ด ๋ฌธ์„œ ์š”์•ฝํ•ด ์ค˜โ€๋ผ๋Š” ์š”์ฒญ์ด ์˜ค๋ฉด, ์ปดํ“จํ„ฐ์— ํŒŒ์ผ๋กœ ์ €์žฅํ•ด๋‘๊ณ  ํ•„์š”ํ•œ ๋ถ€๋ถ„๋งŒ ์—ด์–ด์„œ ์ฝ์œผ๋ฉด ๋˜๋‹ˆ๊นŒ์š”.

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

  1. ์ž…๋ ฅ (Input): ์‚ฌ์šฉ์ž๊ฐ€ ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ์ค๋‹ˆ๋‹ค. (์˜ˆ: โ€œ์ด 100ํŽ˜์ด์ง€ ์งœ๋ฆฌ ๋ณด๊ณ ์„œ์—์„œ ์ƒ๋ฌผํ•™์  ์šฉ์–ด๋งŒ ์ถ”์ถœํ•ด์ค˜.โ€œ)
  2. ํƒ์ƒ‰ (Explore): LLM์€ ์Šค์Šค๋กœ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. โ€œํ…์ŠคํŠธ๋กœ ๋‹ค ์ฒ˜๋ฆฌํ•˜๋ฉด ๊ธฐ์–ต์šฉ๋Ÿ‰(Context Window)์ด ์ดˆ๊ณผ๋˜๊ฒ ๊ตฐ. ํŒŒ์ผ ์‹œ์Šคํ…œ์„ ์“ฐ์ž.โ€
  3. ํ–‰๋™ (Act): ๊ฐ€์ƒ ์ปดํ“จํ„ฐ(Terminal)์— ๋ช…๋ น์–ด๋ฅผ ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค. (์˜ˆ: python extract_terms.py --source report.txt)
  4. ๊ด€์ฐฐ (Observe): ์Šคํฌ๋ฆฝํŠธ ์‹คํ–‰ ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ•˜๊ณ , ํ•„์š”ํ•˜๋ฉด ๋„๊ตฌ(ํŒŒ์ด์ฌ ํŒจํ‚ค์ง€ ๋“ฑ)๋ฅผ ์ถ”๊ฐ€๋กœ ์„ค์น˜ํ•ฉ๋‹ˆ๋‹ค.
  5. ๋ฐ˜๋ณต (Iterate): ๋ชฉํ‘œ๋ฅผ ๋‹ฌ achievementํ•  ๋•Œ๊นŒ์ง€ 2~4๋‹จ๊ณ„๋ฅผ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.
  6. ์ถœ๋ ฅ (Output): ์ตœ์ข… ๊ฒฐ๊ณผ๋ฅผ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿงฉ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: LLM-in-Sandbox RL

๋ชจ๋ธ์ด ์ปดํ“จํ„ฐ๋ฅผ ๋” ์ž˜ ์“ฐ๋„๋ก ํ›ˆ๋ จ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ฐ•ํ™” ํ•™์Šต(RL)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ๋ฐฉ์‹์˜ ๋ฌธ์ œ: ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ›ˆ๋ จํ•˜๋ฉด, ์ฝ”๋”ฉ ์™ธ์˜ ์ผ(๊ณผํ•™, ์ˆ˜ํ•™ ๋“ฑ)์—๋Š” ์ปดํ“จํ„ฐ๋ฅผ ๋ชป ์”๋‹ˆ๋‹ค.
  • ์ด ๋…ผ๋ฌธ์˜ ํ•ด๊ฒฐ์ฑ…: **Context-based Tasks(๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ๊ณผ์ œ)**๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๋ชจ๋ธ์—๊ฒŒ ๊ฑฐ๋Œ€ํ•œ ์ž๋ฃŒ(Document)์™€ ๋ชฉํ‘œ๋ฅผ ์ฃผ๊ณ , โ€œ์ด ์ƒŒ๋“œ๋ฐ•์Šค ์•ˆ์„ ํƒ์ƒ‰ํ•ด์„œ ์ •๋‹ต์„ ์ฐพ์•„๋ผโ€๋ผ๊ณ  ์‹œํ‚ต๋‹ˆ๋‹ค.
    • ๋ชจ๋ธ์ด ํŒŒ์ผ์„ ๋’ค์ง€๊ฑฐ๋‚˜ ์Šคํฌ๋ฆฝํŠธ๋ฅผ ์งœ์„œ ์„ฑ๊ณตํ•˜๋ฉด ๋ณด์ƒ(Reward)์„ ์ค๋‹ˆ๋‹ค.
    • ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํŠน์ • ๋„๊ตฌ ์‚ฌ์šฉ๋ฒ•์„ ์™ธ์šฐ๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, โ€œ์ƒŒ๋“œ๋ฐ•์Šค๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐฉ๋ฒ•โ€ ์ž์ฒด๋ฅผ ๋ฐฐ์šฐ๊ฒŒ ๋˜์–ด ์–ด๋–ค ๋ถ„์•ผ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ ์ง€๋Šฅ์ด ์ƒ๊น๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๐Ÿ“Š ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ

์ด ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์˜ **Non-code tasks(๋น„์ฝ”๋”ฉ ๊ณผ์ œ)**์—์„œ ์„ฑ๋Šฅ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๋ถ„์•ผ: ์ˆ˜ํ•™(Math), ๋ฌผ๋ฆฌํ•™(Physics), ํ™”ํ•™(Chemistry), ์ƒ๋ช…์˜ํ•™(Biomedicine)
  • ๋Šฅ๋ ฅ: ๊ธด ๋ฌธ๋งฅ ์ดํ•ด(Long-context), ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ(Instruction following)

๐Ÿš€ ์„ฑ๋Šฅ ํ–ฅ์ƒ (SOTA ๋Œ€๋น„)

์ƒŒ๋“œ๋ฐ•์Šค ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•œ ๊ฒƒ๋งŒ์œผ๋กœ๋„(์ถ”๊ฐ€ ํ›ˆ๋ จ ์—†์ด๋„), ์ตœ์‹  LLM๋“ค์€ ์ž๋ฐœ์ ์œผ๋กœ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•ด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ RL(๊ฐ•ํ™” ํ•™์Šต)์„ ํ†ตํ•ด ์‚ฌํ›„ ํ›ˆ๋ จ(Post-training)๋œ ๋ชจ๋ธ์€ ๋”์šฑ ๊ฐ•๋ ฅํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ’ฐ ํšจ์œจ์„ฑ ํ˜์‹  (๋น„์šฉ ์ ˆ๊ฐ)

๊ฐ€์žฅ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ๊ฒฐ๊ณผ๋Š” ํ† ํฐ(Computational Cost) ์ ˆ๊ฐ ํšจ๊ณผ์ž…๋‹ˆ๋‹ค. ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ชจ๋ธ์ด ํ•œ ๋ฒˆ์— ๋‹ค ์ฝ์–ด๋“ค์ด๋Š” ๋Œ€์‹ , ํŒŒ์ผ ์‹œ์Šคํ…œ์— ์ €์žฅํ•˜๊ณ  ํ•„์š”ํ•œ ๋ถ€๋ถ„๋งŒ ์ฝ์–ด์„œ ์ฒ˜๋ฆฌํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋ชจ๋ธ (Model)๊ธฐ์กด LLM ๋ฐฉ์‹ ํ† ํฐ ์ˆ˜Sandbox ๋ฐฉ์‹ ํ† ํฐ ์ˆ˜์ ˆ๊ฐ ๋น„์œจ (Ratio)
Qwen (Long Context)102.9K12.9K0.49x (์•ฝ 50% ์ ˆ๊ฐ)
DeepSeek (Long Context)90.3K25.4K์ ˆ๊ฐ ํšจ๊ณผ ํ™•์‹ค
ํ‰๊ท  (์ „์ฒด ๊ณผ์ œ)20.3K ~ 23.8K8.9K ~ 17.0K์•ฝ 50% ์ˆ˜์ค€์˜ ํ† ํฐ ์†Œ๋ชจ
  • ํ•ด์„: ๊ธด ๋ฌธ์„œ ์š”์•ฝ์ด๋‚˜ ๋ถ„์„ ์ž‘์—… ์‹œ, LLM-in-Sandbox๋ฅผ ์“ฐ๋ฉด ๋น„์šฉ์„ ์ ˆ๋ฐ˜ ์ˆ˜์ค€์œผ๋กœ ์ค„์ด๋ฉด์„œ๋„ ๋” ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

โš ๏ธ ํ•œ๊ณ„์  (์ €์ž ์ธ์ • ๋ฐ ๋„์ถœ)

  • ์ธํ”„๋ผ ์˜ค๋ฒ„ํ—ค๋“œ: ๊ฐ€์ƒ ์ปดํ“จํ„ฐ(Sandbox)๋ฅผ ์œ ์ง€ํ•˜๊ณ  ์‹คํ–‰ํ•˜๋Š” ๋ฐ ์žˆ์–ด ์ผ๋ฐ˜์ ์ธ ํ…์ŠคํŠธ ์ƒ์„ฑ๋ณด๋‹ค ๋” ๋งŽ์€ ์‹œ์Šคํ…œ ์ž์›(RAM, CPU)์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ณด์•ˆ ์œ„ํ—˜: LLM์— ํ„ฐ๋ฏธ๋„ ์ ‘๊ทผ ๊ถŒํ•œ์„ ์ฃผ๋Š” ๊ฒƒ์€ ์•…์˜์ ์ธ ๋ช…๋ น์–ด ์‹คํ–‰(Prompt Injection ๋“ฑ)์œผ๋กœ ์ด์–ด์งˆ ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ง€์—ฐ ์‹œ๊ฐ„(Latency): ๋ชจ๋ธ์ด ์ƒ๊ฐํ•˜๊ณ  ์ฝ”๋“œ๋ฅผ ์งœ๊ณ  ์‹คํ–‰ํ•˜๋Š” ๊ณผ์ •์ด ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณต๋˜๋ฏ€๋กœ, ๋‹ต๋ณ€์ด ๋‚˜์˜ค๊ธฐ๊นŒ์ง€ ์‹œ๊ฐ„์ด ๋” ๊ฑธ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”ญ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ๊ธฐ๋ณธ ์ธํ”„๋ผ๋กœ์˜ ์ž๋ฆฌ ์žก๊ธฐ: ์ €์ž๋Š” LLM-in-Sandbox๊ฐ€ ํŠน๋ณ„ํ•œ ๊ธฐ๋Šฅ์ด ์•„๋‹ˆ๋ผ, ํ–ฅํ›„ LLM ์„œ๋น„์Šค์˜ **โ€˜๊ธฐ๋ณธ(Default) ์ธํ”„๋ผโ€™**๊ฐ€ ๋˜์–ด์•ผ ํ•œ๋‹ค๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค. (๊ทธ๋ฆผ ์ƒ์„ฑ, ์•ฑ ๊ฐœ๋ฐœ ๋“ฑ ํ…์ŠคํŠธ๋ฅผ ๋„˜์–ด์„  ์‹ค์ œ ๊ฒฐ๊ณผ๋ฌผ์„ ๋งŒ๋“ค์–ด๋‚ด๊ธฐ ์œ„ํ•ด)
  • ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ: ์ด ํ™˜๊ฒฝ ์ž์ฒด๋ฅผ ๋ชจ๋ธ์˜ ์ง€๋Šฅ์„ ์ธก์ •ํ•˜๋Š” ํ‘œ์ค€ ์‹œํ—˜์žฅ(Benchmark)์œผ๋กœ ํ™œ๋ฐœํžˆ ํ™œ์šฉํ•˜์ž๊ณ  ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๐Ÿ›  ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

  • RAG(๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ) ์‹œ์Šคํ…œ ๊ณ ๋„ํ™”: ๋ฌธ์„œ๋ฅผ ์ž„๋ฒ ๋”ฉํ•ด์„œ ๊ฒ€์ƒ‰๋งŒ ํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ๋กœ์ปฌ ํŒŒ์ผ์— ์ €์žฅํ•˜๊ณ  ์Šคํฌ๋ฆฝํŠธ๋กœ ๋ถ„์„ํ•˜๊ฒŒ ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๋ฆฌํฌํŒ…: ์ˆ˜ GB์˜ CSV ํŒŒ์ผ์ด๋‚˜ ๋กœ๊ทธ๋ฅผ ๋ถ„์„ํ•  ๋•Œ, ๋ชจ๋ธ์—๊ฒŒ ํŒŒ์ผ์„ ์ง์ ‘ ์กฐ์ž‘(๊ฐ€๊ณต, ํ•„ํ„ฐ๋ง)ํ•˜๊ฒŒ ํ•˜์—ฌ ์ •ํ™•ํ•œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ณผํ•™ ๊ธฐ์ˆ  ๊ณ„์‚ฐ: ๋ณต์žกํ•œ ์ˆ˜์‹์ด๋‚˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด ํ•„์š”ํ•œ ์—”์ง€๋‹ˆ์–ด๋ง ์ž‘์—…์—์„œ ํŒŒ์ด์ฌ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•ด ์ •ํ™•ํ•œ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’พ ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • GPU: ๊ธฐ์กด LLM ์ถ”๋ก ์— ํ•„์š”ํ•œ GPU (์˜ˆ: A100, H100)
  • ์ปจํ…Œ์ด๋„ˆ ํ™˜๊ฒฝ: Docker๋‚˜ Kubernetes์™€ ๊ฐ™์ด ๊ฒฉ๋ฆฌ๋œ ๊ฐ€์ƒ ํ™˜๊ฒฝ(Sandbox)์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์„œ๋ฒ„ ์ธํ”„๋ผ ํ•„์ˆ˜.
  • ์—”์ง„: vLLM์ด๋‚˜ SGLang ๊ฐ™์€ ์ตœ์‹  ์ถ”๋ก  ์—”์ง„๊ณผ ์—ฐ๋™ํ•˜์—ฌ ํšจ์œจ์ ์ธ ํ† ํฐ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. LLM (Large Language Model): ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์–ด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ (์˜ˆ: GPT-4, Claude).
  2. Context Window (๋ฌธ๋งฅ ์ฐฝ): ๋ชจ๋ธ์ด ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ๋Œ€ ํ† ํฐ(๊ธ€์ž ๋‹จ์œ„) ์ˆ˜์˜ ํ•œ๊ณ„.
  3. Agent (์—์ด์ „ํŠธ): ์‚ฌ์šฉ์ž์˜ ์š”์ฒญ์„ ์™„์ˆ˜ํ•˜๊ธฐ ์œ„ํ•ด ์Šค์Šค๋กœ ์ƒ๊ฐํ•˜๊ณ  ํ–‰๋™(๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ)ํ•˜๋Š” AI ์‹œ์Šคํ…œ.
  4. Sandbox (์ƒŒ๋“œ๋ฐ•์Šค): ์™ธ๋ถ€ ์‹œ์Šคํ…œ์˜ ๋ณด์•ˆ์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋„๋ก ๊ฒฉ๋ฆฌ๋œ ๊ฐ€์ƒ์˜ ์‹คํ–‰ ํ™˜๊ฒฝ (๋ณดํ†ต ํ„ฐ๋ฏธ๋„, ํŒŒ์ผ ์‹œ์Šคํ…œ ์ ‘๊ทผ ๊ฐ€๋Šฅ).
  5. Reinforcement Learning (๊ฐ•ํ™” ํ•™์Šต): ์—์ด์ „ํŠธ๊ฐ€ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ํ•œ ๋ถ„์•ผ.
  6. Chain-of-Thought (CoT): ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ๋•Œ, ๋‹ต๋งŒ ๋ฐ”๋กœ ๋งํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ์ถ”๋ก  ๊ณผ์ •์„ ๋‹จ๊ณ„๋ณ„๋กœ ์„ค๋ช…ํ•˜๊ฒŒ ํ•˜๋Š” ํ”„๋กฌํ”„ํŒ… ๊ธฐ๋ฒ•.
  7. RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ์ด ์™ธ๋ถ€ ์ง€์‹ ๋ฒ ์ด์Šค์—์„œ ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰ํ•ด ๊ฐ€์ ธ์™€ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ์ˆ .

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Agentic Reasoning for Large Languagโ€ฆDD-011
๐ŸฅˆYour Group-Relative Advantage Is Biโ€ฆDD-012
๐Ÿฅ‰EvoCUA: Evolving Computer Use Agentโ€ฆDD-013
4.LLM-in-Sandbox Elicits General Agenโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.Being-H0.5: Scaling Human-Centric Rโ€ฆDD-015

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive