โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-023 TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

arXiv: 2602.07274 ๊ธฐ๊ด€: UC Santa Barbara NLP Group Upvotes: 195 | Comments: 2 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3

Figure 1


TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ํ„ฐ๋ฏธ๋„ ์—์ด์ „ํŠธ ์—ฐ๊ตฌ๋Š” ์‹ค์ œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ํ™˜๊ฒฝ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•˜์—ฌ ๋ชจ๋ธ์ด ํ™˜์ƒ์„ ์ผ์œผํ‚ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๊ณ , ์™„๋ฒฝํ•œ ์ „๋ฌธ๊ฐ€์˜ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šต์‹œํ‚ค๋ฉด ์‹ค์ˆ˜ ํ–ˆ์„ ๋•Œ ๋ณต๊ตฌํ•  ๋Šฅ๋ ฅ์ด ์—†์–ด๋‹ค๋Š” ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ์ง€๋‹ˆ๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์‹ค์ œ Docker ํ™˜๊ฒฝ์—์„œ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์ž‘์—…์„ ์ƒ์„ฑํ•˜๊ณ , ์˜๋„์ ์œผ๋กœ ์‹ค์ˆ˜๋ฅผ ์œ ๋ฐœํ•˜์—ฌ ๋ณต๊ตฌํ•˜๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ์ข…๋‹จ ๊ฐ„ ํŒŒ์ดํ”„๋ผ์ธ์ธ TermiGen์„ ์ œ์‹œํ•˜์—ฌ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ž‘์€ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ๋„ ๊ฑฐ๋Œ€ ๋…์  ๋ชจ๋ธ์— ํ•„์ ํ•˜๋Š” ํ„ฐ๋ฏธ๋„ ์ œ์–ด ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์š”๋ฆฌ ํ•™๊ต ๋น„์œ ๋กœ ๋ณด๋Š” TermiGen

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๋ ค๋ฉด โ€˜์š”๋ฆฌ ํ•™๊ตโ€™์— ๋น„์œ ํ•˜๋ฉด ๊ฐ€์žฅ ์‰ฝ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ์…ฐํ”„๊ฐ€ ์™„๋ฒฝํ•˜๊ฒŒ ์š”๋ฆฌํ•˜๋Š” ๊ณผ์ •์„ ํ•™์ƒ์—๊ฒŒ ๋ณด์—ฌ์ฃผ๋Š” ์˜์ƒ(์™„๋ฒฝํ•œ ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ)๋งŒ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ํ•™์ƒ์€ ์š”๋ฆฌ์‚ฌ๊ฐ€ ์นผ์„ ์†์งˆํ•˜๋‹ค ๋ฒ ์ด๊ฑฐ๋‚˜, ๋ถˆ์„ ๋„ˆ๋ฌด ์„ธ๊ฒŒ ํ•ด์„œ ํƒœ์šฐ๋Š” ๋“ฑ์˜ ์‹ค์ˆ˜๊ฐ€ ๋ฐœ์ƒํ–ˆ์„ ๋•Œ ์–ด๋–ป๊ฒŒ ๋Œ€์ฒ˜ํ•ด์•ผ ํ• ์ง€ ์ „ํ˜€ ๋ชจ๋ฆ…๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ฐ€์ƒ์˜ ๊ณต๊ฐ„์—์„œ ์š”๋ฆฌ๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๋‹ค ๋ณด๋‹ˆ ์‹ค์ œ ์žฌ๋ฃŒ์˜ ๋ฌด๊ฒŒ๊ฐ์ด๋‚˜ ๋ƒ„๋น„์˜ ๋œจ๊ฑฐ์›€์„ ๋А๋ผ์ง€ ๋ชปํ•ด(ํ™˜๊ฒฝ์˜ ๋ถ€์ •ํ™•์„ฑ), ๋ง›์žˆ๋Š” ์š”๋ฆฌ๋ฅผ ๋งŒ๋“œ๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

1๋‹จ๊ณ„: ์‹ค์ œ ์ฃผ๋ฐฉ ๋งŒ๋“ค๊ธฐ (Verifiable Environments)

TermiGen์˜ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ์‹ค์ œ๋กœ ์ž‘๋™ํ•˜๋Š” โ€˜์ฃผ๋ฐฉโ€™(Docker ํ™˜๊ฒฝ)์„ ์ž๋™์œผ๋กœ ์ง“๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋งˆ์น˜ ์š”๋ฆฌ ํ•™๊ต์—์„œ ์‹ค์Šต์šฉ ์ฃผ๋ฐฉ์„ ์„ค๊ณ„ํ•˜๊ณ , ๊ฑฐ๊ธฐ์— ๋ƒ‰์žฅ๊ณ , ๊ฐ€์Šค๋ ˆ์ธ์ง€, ํ•„์š”ํ•œ ์žฌ๋ฃŒ๋“ค์„ ๋ฐฐ์น˜ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์—ฌ๋Ÿฌ AI ์—์ด์ „ํŠธ๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ๋ฆฌ๋ˆ…์Šค ํ„ฐ๋ฏธ๋„ ๋ช…๋ น์–ด๋ฅผ ๋‹ค๋ฃจ๋Š” ์‹ค์Šต ํ™˜๊ฒฝ์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€ ์ด ํ™˜๊ฒฝ์ด ๊ฐ€์งœ๊ฐ€ ์•„๋‹ˆ๋ผ ์‹ค์ œ๋กœ ์ฝ”๋“œ๋ฅผ ์ž…๋ ฅํ–ˆ์„ ๋•Œ ์ž‘๋™ํ•ด์•ผ ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์‹ค์ œ Docker ์ปจํ…Œ์ด๋„ˆ๋ฅผ ๋„์›Œ๋‘๊ณ , ์ƒ์„ฑ๋œ ๋ฌธ์ œ๊ฐ€ ์‹ค์ œ๋กœ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•œ์ง€ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€˜ํŒŒ์ผ ์‚ญ์ œํ•˜๊ธฐโ€™ ๋ฏธ์…˜์„ ์ฃผ๋ ค๋ฉด ์‹ค์ œ๋กœ ํŒŒ์ผ์ด ์กด์žฌํ•˜๋Š” ๋””๋ ‰ํ„ฐ๋ฆฌ๋ฅผ ๋จผ์ € ๋งŒ๋“ค์–ด ๋‘๋Š” ์‹์ž…๋‹ˆ๋‹ค.

2๋‹จ๊ณ„: ์‹ค์ˆ˜์™€ ๋ณต๊ตฌ๋ฅผ ๋ฐฐ์šฐ๋Š” ๋ ˆ์‹œํ”ผ (Error Injection)

๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ํ•™์ƒ๋“ค์ด ์‹ค์ˆ˜๋ฅผ ํ•ด๋„ ๋Œ€์ฒ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก โ€˜์‹ค์ˆ˜ ํฌํ•จ ๋ ˆ์‹œํ”ผโ€™๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐ์ดํ„ฐ๋Š” โ€œ๊น€์น˜์ฐŒ๊ฐœ ๋ง›์žˆ๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฒ•โ€์ฒ˜๋Ÿผ ์„ฑ๊ณตํ•˜๋Š” ๊ฒฝ์šฐ๋งŒ ์žˆ์—ˆ์ง€๋งŒ, TermiGen์€ โ€œ์†Œ๊ธˆ์„ ๋„ˆ๋ฌด ๋งŽ์ด ๋„ฃ์—ˆ์„ ๋•Œ ๋ฌผ์„ ๋” ๋ถ“๋Š” ๋ฒ•โ€๊ณผ ๊ฐ™์€ ์ƒํ™ฉ์„ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ํฌํ•จ์‹œํ‚ต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ Generator(์ƒ์„ฑ์ž) ๋ชจ๋ธ์ด ๋ฌธ์ œ๋ฅผ ํ’€๋‹ค๊ฐ€ ์ผ๋ถ€๋Ÿฌ Critic(๋น„ํ‰๊ฐ€) ๋ชจ๋ธ์ด ์˜คํƒ€๋ฅผ ์ž…๋ ฅํ•˜๊ฑฐ๋‚˜, ๊ถŒํ•œ์ด ์—†๋Š” ๋ช…๋ น์–ด๋ฅผ ์“ฐ๊ฒŒ ํ•˜๋Š” ๋“ฑ์˜ ์‹ค์ˆ˜๋ฅผ ์ฃผ์ž…ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„ ๋ชจ๋ธ์ด ๋ฐœ์ƒํ•œ ์—๋Ÿฌ๋ฅผ ๋ณด๊ณ  ์Šค์Šค๋กœ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ณผ์ •์„ ๋ฐ์ดํ„ฐ๋กœ ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์ผ๋ถ€๋Ÿฌ ์—๋Ÿฌ๊ฐ€ ์„ž์ธ ๊ถค์ (Trajectory)์„ ํฌํ•จ์‹œ์ผœ ๋ชจ๋ธ์ด ์‹คํŒจ ์ƒํ™ฉ์—์„œ๋„ ๋‹ค์‹œ ์ •์ƒ ๊ถค๋„๋กœ ๋Œ์•„์˜ฌ ์ˆ˜ ์žˆ๋„๋ก ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

3. ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: Multi-agent Refinement & Generator-Critic

์ด ๊ณผ์ •์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๊ตฌํ˜„๋ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ํ™˜๊ฒฝ ์ƒ์„ฑ์„ ์œ„ํ•ด โ€˜๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์ •์ œ ๋ฃจํ”„โ€™๋ฅผ ๋•๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ AI ์—์ด์ „ํŠธ๊ฐ€ ์„œ๋กœ์˜ ์ž‘์—…์„ ๊ฒ€ํ† ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋ฉฐ, ์‹ค์ œ Docker ์ปจํ…Œ์ด๋„ˆ์—์„œ ํ…Œ์ŠคํŠธํ•ด ๋ณด๊ณ  ์„ฑ๊ณตํ•  ๋•Œ๊นŒ์ง€ ์ฃผ๋ฐฉ ํ™˜๊ฒฝ์„ ๋‹ค์‹œ ์งญ๋‹ˆ๋‹ค. ๋‘˜์งธ, โ€˜Generator-Critic ํ”„๋กœํ† ์ฝœโ€™์„ ํ†ตํ•ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ์ž๊ฐ€ ๋ช…๋ น์–ด๋ฅผ ๋‚ด๋ฆฌ๋ฉด ๋น„ํ‰๊ฐ€๊ฐ€ ์ด๋ฅผ ๊ฒ€ํ† ํ•˜๊ฑฐ๋‚˜ ์ผ๋ถ€๋Ÿฌ ๋ฐฉํ•ด๋ฅผ ํ•˜๋ฉฐ, ์—๋Ÿฌ ์ƒํ™ฉ๊ณผ ๊ทธ ๋ณต๊ตฌ ๊ณผ์ •์„ ํฌํ•จํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์€ ํ„ฐ๋ฏธ๋„ ์ž‘์—…์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์ธ TerminalBench์™€ ๊ฐ™์€ ํ™˜๊ฒฝ์—์„œ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฒค์น˜๋งˆํฌ๋Š” ํฌ๊ฒŒ ์ฝ”๋“œ ๋””๋ฒ„๊น…, ์‹œ์Šคํ…œ ๊ด€๋ฆฌ, ๋ณด์•ˆ ํฌ๋ Œ์‹ ๋“ฑ ๋‹ค์–‘ํ•œ ์˜์—ญ์„ ์•„์šฐ๋ฆ…๋‹ˆ๋‹ค.

๊ธฐ์กด ์ตœ์‹  ์„ฑ๋Šฅ(SOTA) ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, TermiGen์œผ๋กœ ํŠœ๋‹ํ•œ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ(Qwen-2.5/3 32B)์€ ์ƒ๋‹นํžˆ ์ธ์ƒ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ฑฐ๋Œ€ ๋…์  ๋ชจ๋ธ์ธ GPT-5๋‚˜ Claude 4.5 Sonnet, ๊ทธ๋ฆฌ๊ณ  o4-mini ๊ฐ™์€ ์ตœ์ƒ์œ„ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ํฌ๊ฒŒ ์ค„์˜€๊ฑฐ๋‚˜ ๊ฑฐ์˜ ๋Œ€๋“ฑํ•œ ์ˆ˜์ค€์— ๋„๋‹ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ธฐ์กด์˜ ์ผ๋ฐ˜์ ์ธ ์˜คํ”ˆ ๊ฐ€์ค‘์น˜ ๋ชจ๋ธ์ด๋‚˜ ํ„ฐ๋ฏธ๋„์— ํŠนํ™”๋œ ๋ชจ๋ธ๋“ค์ด ํ„ฐ๋ฏธ๋„ ์ž‘์—…์—์„œ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ ๋ฐ˜๋ฉด, TermiGen์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ๋ณต์žกํ•œ ๋ช…๋ น์–ด ์ฒ˜๋ฆฌ์™€ ์—๋Ÿฌ ๋ณต๊ตฌ ๊ณผ์ •์—์„œ ํ›จ์”ฌ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ๋Š” โ€˜RQ2: Error-Correction vs. Standard Trajectoryโ€™ ์‹คํ—˜ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์—๋Ÿฌ ์ฃผ์ž… ์ „๋žต์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•œ ๋ชจ๋ธ์€, ์™„๋ฒฝํ•œ ์ •๋‹ต ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์— ๋น„ํ•ด ๋Ÿฐํƒ€์ž„ ์—๋Ÿฌ๊ฐ€ ๋ฐœ์ƒํ–ˆ์„ ๋•Œ ์ด๋ฅผ ๋ณต๊ตฌํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ›จ์”ฌ ๋›ฐ์–ด๋‚ฌ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์„ฑ๊ณต๋ฅ ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ์ƒ์Šนํ–ˆ์œผ๋ฉฐ, ๋ชจ๋ธ์ด ์ฒ˜์Œ ๋ณด๋Š” ์—๋Ÿฌ ๋ฉ”์‹œ์ง€๋‚˜ ์ƒํ™ฉ์—์„œ๋„ ๋‹นํ™ฉํ•˜์ง€ ์•Š๊ณ  ๋Œ€์ฒ˜ํ•˜๋Š” โ€˜๊ฐ•์ธ์„ฑ(Resilience)โ€˜์„ ํš๋“ํ–ˆ์Œ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ์ด ๋…ผ๋ฌธ์ด ๊ฐ€์ง„ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ํ•œ๊ณ„์ ์„ ๋ช…์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, ํ˜„์žฌ ํ•™์Šต ๋ฐฉ์‹์€ ์ง€๋„ ํ•™์Šต(SFT, Supervised Fine-Tuning)์—๋งŒ ์˜์กดํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ž๋™ํ™”๋œ ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•ด ํ™•์‹คํ•œ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ์ด๋ฏ€๋กœ, ๊ฐ•ํ™” ํ•™์Šต(RL, Reinforcement Learning)์„ ์ ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๊ฑฐ์น˜๋ฉฐ ๋” ์ฐฝ์˜์ ์ธ ํ•ด๊ฒฐ์ฑ…์„ ์ฐพ๋„๋ก ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ด ์ž์—ฐ์Šค๋Ÿฌ์šด ๋‹ค์Œ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

๋‘˜์งธ, ํ˜„์žฌ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋Šฅ์ด ์—†๋Š” ๋‹จ์ˆœํ•œ ์—์ด์ „ํŠธ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ƒ์„ฑ๋œ ํ™˜๊ฒฝ๊ณผ ๊ถค์ ์˜ ํšจ๊ณผ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ์˜๋„์ ์ธ ์„ ํƒ์ด์—ˆ์ง€๋งŒ, ์‹ค์ œ ๋ณต์žกํ•œ ์ž‘์—…์—์„œ๋Š” ๊ณผ๊ฑฐ์˜ ๋ช…๋ น์–ด๋‚˜ ์ƒํƒœ๋ฅผ ๊ธฐ์–ตํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์žฅ๊ธฐ ๊ธฐ์–ต์„ ํ™œ์šฉํ•˜๋Š” ๋” ์ •๊ตํ•œ ์—์ด์ „ํŠธ๋ฅผ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

์…‹์งธ, ํ™˜๊ฒฝ ๋ถ„๋ฅ˜(Taxonomy)๊ฐ€ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์— ๊ฑธ์ณ ์žˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์•„์ง ๋ชจ๋“  ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์ปค๋ฒ„ํ•˜์ง€๋Š” ๋ชปํ•ฉ๋‹ˆ๋‹ค. ๋” ๊ด‘๋ฒ”์œ„ํ•˜๊ณ  ํฌ๊ท€ํ•œ ์‹œ์Šคํ…œ ๊ด€๋ฆฌ ์‹œ๋‚˜๋ฆฌ์˜ค๋‚˜ ๋ณด์•ˆ ์œ„ํ˜‘ ์ƒํ™ฉ ๋“ฑ์„ ๋ฐ์ดํ„ฐ์— ํฌํ•จํ•˜์—ฌ ๊ฒฌ๊ณ ์„ฑ์„ ๋”์šฑ ๋†’์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๋…ผ๋ฌธ์˜ ๊ธฐ์ˆ ์€ ๋ฐ”๋กœ DevOps ์ž๋™ํ™” ๋ฐ ์‹œ์Šคํ…œ ์šด์˜ ๋ถ„์•ผ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์„œ๋ฒ„ ์„ค์ •, ๋กœ๊ทธ ๋ถ„์„, ๊ฐ„๋‹จํ•œ ์žฅ์•  ์กฐ์น˜ ๋“ฑ์„ ์‚ฌ๋žŒ ๊ฐœ๋ฐœ์ž๊ฐ€ ์ง์ ‘ ํ„ฐ๋ฏธ๋„์— ์ ‘์†ํ•˜์ง€ ์•Š๊ณ ๋„ AI ์—์ด์ „ํŠธ๊ฐ€ ์ž์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ต์œก์šฉ ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ ํ”Œ๋žซํผ์ด๋‚˜ ๊ฐœ๋ฐœ์ž ๋„๊ตฌ์— ๋‚ด์žฅ๋˜์–ด, ์‚ฌ์šฉ์ž๊ฐ€ ํ„ฐ๋ฏธ๋„ ๋ช…๋ น์–ด๋ฅผ ์ž…๋ ฅํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์‹ค์ˆ˜๋ฅผ ๊ต์ •ํ•ด ์ฃผ๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ๋Œ€์•ˆ์„ ์ œ์•ˆํ•˜๋Š” ๋น„์„œ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ ์šฉ์— ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค๋Š” ๋ชจ๋ธ์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋‹ค๋ฅด์ง€๋งŒ, 32B ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋ ค๋ฉด A100์ด๋‚˜ H100๊ณผ ๊ฐ™์€ ๊ณ ์„ฑ๋Šฅ GPU๊ฐ€ ์ตœ์†Œ 4~8๋Œ€ ์ •๋„ ํ•„์š”ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์ถ”๋ก ๋งŒ ํ•˜๋Š” ๋‹จ๊ณ„๋ผ๋ฉด ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ ๋ฆฌ์†Œ์Šค๋กœ๋„ ํ„ฐ๋ฏธ๋„ ์ž๋™ํ™” ์—์ด์ „ํŠธ๋ฅผ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‹ค์ œ ํ™˜๊ฒฝ์„ Docker๋กœ ๋„์›Œ์•ผ ํ•˜๋ฏ€๋กœ ์ปจํ…Œ์ด๋„ˆ ๊ด€๋ฆฌ๋ฅผ ์œ„ํ•œ ์ธํ”„๋ผ๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. LLM(Large Language Model): ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜์—ฌ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์ž์—ฐ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๊ฑฐ๋Œ€ ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  2. Agent(์—์ด์ „ํŠธ): ์‚ฌ์šฉ์ž์˜ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์Šค์Šค๋กœ ์ƒ๊ฐํ•˜๊ณ , ๋„๊ตฌ(Tool)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
  3. Docker: ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์ปจํ…Œ์ด๋„ˆ๋ผ๋Š” ๊ฒฉ๋ฆฌ๋œ ํ™˜๊ฒฝ์—์„œ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” ๊ธฐ์ˆ ๋กœ, ์–ด๋””์„œ๋“  ๋™์ผํ•˜๊ฒŒ ์‹คํ–‰๋˜๋Š” ํ™˜๊ฒฝ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.
  4. Terminal(ํ„ฐ๋ฏธ๋„): ์‚ฌ์šฉ์ž๊ฐ€ ํ…์ŠคํŠธ ๋ช…๋ น์–ด๋ฅผ ์ž…๋ ฅํ•˜์—ฌ ์ปดํ“จํ„ฐ ์šด์˜์ฒด์ œ์™€ ์ง์ ‘ ์†Œํ†ตํ•˜๋Š” ์ธํ„ฐํŽ˜์ด์Šค์ž…๋‹ˆ๋‹ค.
  5. Instruction Tuning(๋ช…๋ น์–ด ํŠœ๋‹): ๋ชจ๋ธ์ด ์‚ฌ์šฉ์ž์˜ ์ง€์‹œ๋‚˜ ์š”์ฒญ์„ ์ž˜ ๋”ฐ๋ฅด๋„๋ก, ์ง€์‹œ์™€ ๊ทธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€ ์Œ์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ํ•™์Šต ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  6. Hallucination(ํ™˜๊ฐ): AI๊ฐ€ ์‚ฌ์‹ค๊ณผ ๋‹ค๋ฅด๊ฑฐ๋‚˜ ๋…ผ๋ฆฌ์ ์œผ๋กœ ๋งž์ง€ ์•Š๋Š” ๋‚ด์šฉ์„ ๋งˆ์น˜ ์ง„์‹ค์ธ ๊ฒƒ์ฒ˜๋Ÿผ ๊ทธ๋Ÿด์‹ธํ•˜๊ฒŒ ์ƒ์„ฑํ•˜๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค.
  7. Trajectory(๊ถค์ ): ์—์ด์ „ํŠธ๊ฐ€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ณผ์ •์—์„œ์˜ ์ƒํƒœ, ํ–‰๋™, ๊ด€์ฐฐ ๋“ฑ์˜ ์‹œ๊ฐ„ ์ˆœ์„œ๋ณ„ ๊ธฐ๋ก์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡OPUS: Towards Efficient and Principโ€ฆDD-021
๐ŸฅˆWeak-Driven Learning: How Weak Agenโ€ฆDD-022
๐Ÿฅ‰TermiGen: High-Fidelity Environmentโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.Code2World: A GUI World Model via Rโ€ฆDD-024
5.The Devil Behind Moltbook: Anthropiโ€ฆDD-025

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-15 | ๐Ÿค– GLM-4.7 Deep Dive