โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-014 LLM-in-Sandbox Elicits General Agentic Intelligence
arXiv: 2601.16206 ๊ธฐ๊ด: Microsoft Research Upvotes: 82 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 4

[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] LLM-in-Sandbox Elicits General Agentic Intelligence
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ LLM(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ)๋ค์ ํ ์คํธ ์ ๋ ฅ๋ง์ผ๋ก ํ๊ณ์ ๋ถ๋ชํ์ผ๋ฉฐ, ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๊ฑฐ๋ ๋ณต์กํ ๊ณ์ฐ์ ์ํํ ๋ ์ค๋ฅ๊ฐ ๋ฐ์ํ๊ธฐ ์ฝ๊ณ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ LLM์๊ฒ โ๊ฐ์ ์ปดํจํฐ(์ฝ๋ ์๋๋ฐ์ค)โ๋ผ๋ ์๊ณผ ๋ฐ์ ๋ฌ์์ฃผ์ด, ๋จ์ํ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋์ด ์ง์ ๋๊ตฌ๋ฅผ ์ฐ๊ณ ํ์ผ์ ๊ด๋ฆฌํ๋ **๋ฒ์ฉ์ ์ธ ์์ด์ ํธ(Agent)**๋ก ๊ฑฐ๋ญ๋๊ฒ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ๋น์ฝ๋ฉ ์์ญ(์ํ, ๊ณผํ ๋ฑ)์์๋ ์ค์ค๋ก ํ์ํ๋ฉฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฅ๋ ฅ์ ํ๊ธฐ์ ์ผ๋ก ๋์ด๊ณ , ํนํ ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ์์ ํ ํฐ ์ฌ์ฉ๋์ ์ต๋ 90%๊น์ง ๊ฐ์์ํค๋ ํจ์จ์ฑ์ ์ ์ฆํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ง ์ผ์์ํ ๋น์ : โ๋งน์ธ ์ฒ์ฌ์๊ฒ ์ปดํจํฐ ๋ฌ์์ฃผ๊ธฐโ
๊ธฐ์กด์ LLM์ **โ๋์ด ๋ฉ์์ง๋ง ๋จธ๋ฆฌ๋ ์ข์ ๋์๊ด ์ฌ์โ**๋ผ๊ณ ์๊ฐํด ๋ณด์ธ์. ์ด ์ฌ์๋ ์ฑ ๋ด์ฉ์ ์ ๋ถ ์ธ์ฐ๋ ค๊ณ ํ์ง๋ง, ์ฑ ์ด ๋๋ฌด ๋๊บผ์ฐ๋ฉด(๊ธด ๋ฌธ๋งฅ) ๊ธฐ์ต์ ๋ชปํ๊ฑฐ๋, ๋ณต์กํ ์์์ ์์ฐํ๋ค ์ค์๋ฅผ ํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ LLM-in-Sandbox๋ ์ด ์ฌ์์๊ฒ **โ์ปดํจํฐ์ ์ธํฐ๋ท์ด ๋ฌ๋ฆฐ ์์ ์คโ**์ ์ ๊ณตํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
- ์ : ์ฌ์๊ฐ ๋จธ๋ฆฟ์์ผ๋ก๋ง ๊ณ์ฐํจ (๋นํจ์จ์ , ์ค๋ฅ ๊ฐ๋ฅ์ฑ ๋์)
- ํ: ์ฌ์๊ฐ ํ์ํ ๋๋ง๋ค ์์ ์ ์ผ์ ๊ณ์ฐํ๊ณ , ์ธํฐ๋ท์์ ์ ๋ณด๋ฅผ ๊ฒ์ํ๋ฉฐ, ๊ฒฐ๊ณผ๋ฅผ ํ์ผ๋ก ์ ์ฅํจ (์ ํํ๊ณ ํจ์จ์ )
์ด์ ์ฌ์๋ ๋ชจ๋ ๊ฒ์ ๋จธ๋ฆฌ์ ์ธ์ฐ์ง ์์๋ ๋ฉ๋๋ค. โ์ด ๋ฌธ์ ์์ฝํด ์คโ๋ผ๋ ์์ฒญ์ด ์ค๋ฉด, ์ปดํจํฐ์ ํ์ผ๋ก ์ ์ฅํด๋๊ณ ํ์ํ ๋ถ๋ถ๋ง ์ด์ด์ ์ฝ์ผ๋ฉด ๋๋๊น์.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
- ์ ๋ ฅ (Input): ์ฌ์ฉ์๊ฐ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์ค๋๋ค. (์: โ์ด 100ํ์ด์ง ์ง๋ฆฌ ๋ณด๊ณ ์์์ ์๋ฌผํ์ ์ฉ์ด๋ง ์ถ์ถํด์ค.โ)
- ํ์ (Explore): LLM์ ์ค์ค๋ก ์๊ฐํฉ๋๋ค. โํ ์คํธ๋ก ๋ค ์ฒ๋ฆฌํ๋ฉด ๊ธฐ์ต์ฉ๋(Context Window)์ด ์ด๊ณผ๋๊ฒ ๊ตฐ. ํ์ผ ์์คํ ์ ์ฐ์.โ
- ํ๋ (Act): ๊ฐ์ ์ปดํจํฐ(Terminal)์ ๋ช
๋ น์ด๋ฅผ ์
๋ ฅํฉ๋๋ค. (์:
python extract_terms.py --source report.txt) - ๊ด์ฐฐ (Observe): ์คํฌ๋ฆฝํธ ์คํ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๊ณ , ํ์ํ๋ฉด ๋๊ตฌ(ํ์ด์ฌ ํจํค์ง ๋ฑ)๋ฅผ ์ถ๊ฐ๋ก ์ค์นํฉ๋๋ค.
- ๋ฐ๋ณต (Iterate): ๋ชฉํ๋ฅผ ๋ฌ achievementํ ๋๊น์ง 2~4๋จ๊ณ๋ฅผ ๋ฐ๋ณตํฉ๋๋ค.
- ์ถ๋ ฅ (Output): ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ฉ์์๊ฒ ์ ๋ฌํฉ๋๋ค.
๐งฉ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: LLM-in-Sandbox RL
๋ชจ๋ธ์ด ์ปดํจํฐ๋ฅผ ๋ ์ ์ฐ๋๋ก ํ๋ จ์ํค๊ธฐ ์ํด ๊ฐํ ํ์ต(RL)์ ์ฌ์ฉํฉ๋๋ค.
- ๊ธฐ์กด ๋ฐฉ์์ ๋ฌธ์ : ์ฝ๋ฉ ํ ์คํธ ๋ฐ์ดํฐ๋ก๋ง ํ๋ จํ๋ฉด, ์ฝ๋ฉ ์ธ์ ์ผ(๊ณผํ, ์ํ ๋ฑ)์๋ ์ปดํจํฐ๋ฅผ ๋ชป ์๋๋ค.
- ์ด ๋
ผ๋ฌธ์ ํด๊ฒฐ์ฑ
: **Context-based Tasks(๋ฌธ๋งฅ ๊ธฐ๋ฐ ๊ณผ์ )**๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ๋ชจ๋ธ์๊ฒ ๊ฑฐ๋ํ ์๋ฃ(Document)์ ๋ชฉํ๋ฅผ ์ฃผ๊ณ , โ์ด ์๋๋ฐ์ค ์์ ํ์ํด์ ์ ๋ต์ ์ฐพ์๋ผโ๋ผ๊ณ ์ํต๋๋ค.
- ๋ชจ๋ธ์ด ํ์ผ์ ๋ค์ง๊ฑฐ๋ ์คํฌ๋ฆฝํธ๋ฅผ ์ง์ ์ฑ๊ณตํ๋ฉด ๋ณด์(Reward)์ ์ค๋๋ค.
- ์ด๋ ๊ฒ ํ๋ฉด ํน์ ๋๊ตฌ ์ฌ์ฉ๋ฒ์ ์ธ์ฐ๋ ๊ฒ ์๋๋ผ, โ์๋๋ฐ์ค๋ฅผ ํ์ํ๋ ๋ฐฉ๋ฒโ ์์ฒด๋ฅผ ๋ฐฐ์ฐ๊ฒ ๋์ด ์ด๋ค ๋ถ์ผ์๋ ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ ์ง๋ฅ์ด ์๊น๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๐ ํ ์คํธ ๋ฒค์น๋งํฌ
์ด ๋ ผ๋ฌธ์ ๋ค์ํ ๋ถ์ผ์ **Non-code tasks(๋น์ฝ๋ฉ ๊ณผ์ )**์์ ์ฑ๋ฅ์ ์ธก์ ํ์ต๋๋ค.
- ๋ถ์ผ: ์ํ(Math), ๋ฌผ๋ฆฌํ(Physics), ํํ(Chemistry), ์๋ช ์ํ(Biomedicine)
- ๋ฅ๋ ฅ: ๊ธด ๋ฌธ๋งฅ ์ดํด(Long-context), ์ง์ ๋ฐ๋ฅด๊ธฐ(Instruction following)
๐ ์ฑ๋ฅ ํฅ์ (SOTA ๋๋น)
์๋๋ฐ์ค ํ๊ฒฝ์ ์ ๊ณตํ ๊ฒ๋ง์ผ๋ก๋(์ถ๊ฐ ํ๋ จ ์์ด๋), ์ต์ LLM๋ค์ ์๋ฐ์ ์ผ๋ก ๋๊ตฌ๋ฅผ ์ฌ์ฉํด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค. ํนํ RL(๊ฐํ ํ์ต)์ ํตํด ์ฌํ ํ๋ จ(Post-training)๋ ๋ชจ๋ธ์ ๋์ฑ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์์ต๋๋ค.
๐ฐ ํจ์จ์ฑ ํ์ (๋น์ฉ ์ ๊ฐ)
๊ฐ์ฅ ์ฃผ๋ชฉํ ๋งํ ๊ฒฐ๊ณผ๋ ํ ํฐ(Computational Cost) ์ ๊ฐ ํจ๊ณผ์ ๋๋ค. ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ ๋ ๋ชจ๋ธ์ด ํ ๋ฒ์ ๋ค ์ฝ์ด๋ค์ด๋ ๋์ , ํ์ผ ์์คํ ์ ์ ์ฅํ๊ณ ํ์ํ ๋ถ๋ถ๋ง ์ฝ์ด์ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
| ๋ชจ๋ธ (Model) | ๊ธฐ์กด LLM ๋ฐฉ์ ํ ํฐ ์ | Sandbox ๋ฐฉ์ ํ ํฐ ์ | ์ ๊ฐ ๋น์จ (Ratio) |
|---|---|---|---|
| Qwen (Long Context) | 102.9K | 12.9K | 0.49x (์ฝ 50% ์ ๊ฐ) |
| DeepSeek (Long Context) | 90.3K | 25.4K | ์ ๊ฐ ํจ๊ณผ ํ์ค |
| ํ๊ท (์ ์ฒด ๊ณผ์ ) | 20.3K ~ 23.8K | 8.9K ~ 17.0K | ์ฝ 50% ์์ค์ ํ ํฐ ์๋ชจ |
- ํด์: ๊ธด ๋ฌธ์ ์์ฝ์ด๋ ๋ถ์ ์์ ์, LLM-in-Sandbox๋ฅผ ์ฐ๋ฉด ๋น์ฉ์ ์ ๋ฐ ์์ค์ผ๋ก ์ค์ด๋ฉด์๋ ๋ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
โ ๏ธ ํ๊ณ์ (์ ์ ์ธ์ ๋ฐ ๋์ถ)
- ์ธํ๋ผ ์ค๋ฒํค๋: ๊ฐ์ ์ปดํจํฐ(Sandbox)๋ฅผ ์ ์งํ๊ณ ์คํํ๋ ๋ฐ ์์ด ์ผ๋ฐ์ ์ธ ํ ์คํธ ์์ฑ๋ณด๋ค ๋ ๋ง์ ์์คํ ์์(RAM, CPU)์ด ํ์ํฉ๋๋ค.
- ๋ณด์ ์ํ: LLM์ ํฐ๋ฏธ๋ ์ ๊ทผ ๊ถํ์ ์ฃผ๋ ๊ฒ์ ์ ์์ ์ธ ๋ช ๋ น์ด ์คํ(Prompt Injection ๋ฑ)์ผ๋ก ์ด์ด์ง ์ํ์ด ์์ต๋๋ค.
- ์ง์ฐ ์๊ฐ(Latency): ๋ชจ๋ธ์ด ์๊ฐํ๊ณ ์ฝ๋๋ฅผ ์ง๊ณ ์คํํ๋ ๊ณผ์ ์ด ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณต๋๋ฏ๋ก, ๋ต๋ณ์ด ๋์ค๊ธฐ๊น์ง ์๊ฐ์ด ๋ ๊ฑธ๋ฆด ์ ์์ต๋๋ค.
๐ญ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๊ธฐ๋ณธ ์ธํ๋ผ๋ก์ ์๋ฆฌ ์ก๊ธฐ: ์ ์๋ LLM-in-Sandbox๊ฐ ํน๋ณํ ๊ธฐ๋ฅ์ด ์๋๋ผ, ํฅํ LLM ์๋น์ค์ **โ๊ธฐ๋ณธ(Default) ์ธํ๋ผโ**๊ฐ ๋์ด์ผ ํ๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. (๊ทธ๋ฆผ ์์ฑ, ์ฑ ๊ฐ๋ฐ ๋ฑ ํ ์คํธ๋ฅผ ๋์ด์ ์ค์ ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์ด๋ด๊ธฐ ์ํด)
- ์์ด์ ํธ ๋ฒค์น๋งํฌ: ์ด ํ๊ฒฝ ์์ฒด๋ฅผ ๋ชจ๋ธ์ ์ง๋ฅ์ ์ธก์ ํ๋ ํ์ค ์ํ์ฅ(Benchmark)์ผ๋ก ํ๋ฐํ ํ์ฉํ์๊ณ ์ ์ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๐ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
- RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ) ์์คํ ๊ณ ๋ํ: ๋ฌธ์๋ฅผ ์๋ฒ ๋ฉํด์ ๊ฒ์๋ง ํ๋ ๊ฒ ์๋๋ผ, ๋ก์ปฌ ํ์ผ์ ์ ์ฅํ๊ณ ์คํฌ๋ฆฝํธ๋ก ๋ถ์ํ๊ฒ ํ์ฌ ์ฑ๋ฅ์ ๋์ผ ์ ์์ต๋๋ค.
- ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ๋ฆฌํฌํ : ์ GB์ CSV ํ์ผ์ด๋ ๋ก๊ทธ๋ฅผ ๋ถ์ํ ๋, ๋ชจ๋ธ์๊ฒ ํ์ผ์ ์ง์ ์กฐ์(๊ฐ๊ณต, ํํฐ๋ง)ํ๊ฒ ํ์ฌ ์ ํํ ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ๊ฒ ํฉ๋๋ค.
- ๊ณผํ ๊ธฐ์ ๊ณ์ฐ: ๋ณต์กํ ์์์ด๋ ์๋ฎฌ๋ ์ด์ ์ด ํ์ํ ์์ง๋์ด๋ง ์์ ์์ ํ์ด์ฌ ์ฝ๋๋ฅผ ์คํํด ์ ํํ ๊ณ์ฐ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๐พ ํ์ํ ๋ฆฌ์์ค
- GPU: ๊ธฐ์กด LLM ์ถ๋ก ์ ํ์ํ GPU (์: A100, H100)
- ์ปจํ ์ด๋ ํ๊ฒฝ: Docker๋ Kubernetes์ ๊ฐ์ด ๊ฒฉ๋ฆฌ๋ ๊ฐ์ ํ๊ฒฝ(Sandbox)์ ์คํํ ์ ์๋ ์๋ฒ ์ธํ๋ผ ํ์.
- ์์ง: vLLM์ด๋ SGLang ๊ฐ์ ์ต์ ์ถ๋ก ์์ง๊ณผ ์ฐ๋ํ์ฌ ํจ์จ์ ์ธ ํ ํฐ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- LLM (Large Language Model): ๋๊ท๋ชจ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์ด ํ ์คํธ๋ฅผ ์์ฑํ๊ณ ์ดํดํ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ (์: GPT-4, Claude).
- Context Window (๋ฌธ๋งฅ ์ฐฝ): ๋ชจ๋ธ์ด ํ ๋ฒ์ ์ฒ๋ฆฌํ ์ ์๋ ์ต๋ ํ ํฐ(๊ธ์ ๋จ์) ์์ ํ๊ณ.
- Agent (์์ด์ ํธ): ์ฌ์ฉ์์ ์์ฒญ์ ์์ํ๊ธฐ ์ํด ์ค์ค๋ก ์๊ฐํ๊ณ ํ๋(๋๊ตฌ ์ฌ์ฉ ๋ฑ)ํ๋ AI ์์คํ .
- Sandbox (์๋๋ฐ์ค): ์ธ๋ถ ์์คํ ์ ๋ณด์์ ์ํฅ์ ์ฃผ์ง ์๋๋ก ๊ฒฉ๋ฆฌ๋ ๊ฐ์์ ์คํ ํ๊ฒฝ (๋ณดํต ํฐ๋ฏธ๋, ํ์ผ ์์คํ ์ ๊ทผ ๊ฐ๋ฅ).
- Reinforcement Learning (๊ฐํ ํ์ต): ์์ด์ ํธ๊ฐ ์ํ์ฐฉ์ค๋ฅผ ํตํด ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋ ํ ๋ถ์ผ.
- Chain-of-Thought (CoT): ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋, ๋ต๋ง ๋ฐ๋ก ๋งํ๋ ๊ฒ ์๋๋ผ ์ถ๋ก ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ์ค๋ช ํ๊ฒ ํ๋ ํ๋กฌํํ ๊ธฐ๋ฒ.
- RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ์ด ์ธ๋ถ ์ง์ ๋ฒ ์ด์ค์์ ์ ๋ณด๋ฅผ ๊ฒ์ํด ๊ฐ์ ธ์ ๋ต๋ณ์ ์์ฑํ๋ ๊ธฐ์ .
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Agentic Reasoning for Large Languagโฆ | DD-011 |
| ๐ฅ | Your Group-Relative Advantage Is Biโฆ | DD-012 |
| ๐ฅ | EvoCUA: Evolving Computer Use Agentโฆ | DD-013 |
| 4. | LLM-in-Sandbox Elicits General Agenโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | Being-H0.5: Scaling Human-Centric Rโฆ | DD-015 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive