โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-023 TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
arXiv: 2602.07274 ๊ธฐ๊ด: UC Santa Barbara NLP Group Upvotes: 195 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 3

TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ํฐ๋ฏธ๋ ์์ด์ ํธ ์ฐ๊ตฌ๋ ์ค์ ์คํ ๊ฐ๋ฅํ ํ๊ฒฝ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ์ฌ ๋ชจ๋ธ์ด ํ์์ ์ผ์ผํค๋ ๋ฌธ์ ๊ฐ ์์๊ณ , ์๋ฒฝํ ์ ๋ฌธ๊ฐ์ ๋ฐ์ดํฐ๋ก๋ง ํ์ต์ํค๋ฉด ์ค์ ํ์ ๋ ๋ณต๊ตฌํ ๋ฅ๋ ฅ์ด ์์ด๋ค๋ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ์ง๋๊ณ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ค์ Docker ํ๊ฒฝ์์ ๊ฒ์ฆ ๊ฐ๋ฅํ ์์ ์ ์์ฑํ๊ณ , ์๋์ ์ผ๋ก ์ค์๋ฅผ ์ ๋ฐํ์ฌ ๋ณต๊ตฌํ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ์ข ๋จ ๊ฐ ํ์ดํ๋ผ์ธ์ธ TermiGen์ ์ ์ํ์ฌ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด ์์ ์คํ ์์ค ๋ชจ๋ธ๋ ๊ฑฐ๋ ๋ ์ ๋ชจ๋ธ์ ํ์ ํ๋ ํฐ๋ฏธ๋ ์ ์ด ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ๋ง๋ค์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์๋ฆฌ ํ๊ต ๋น์ ๋ก ๋ณด๋ TermiGen
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๋ ค๋ฉด โ์๋ฆฌ ํ๊ตโ์ ๋น์ ํ๋ฉด ๊ฐ์ฅ ์ฝ์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ์ ฐํ๊ฐ ์๋ฒฝํ๊ฒ ์๋ฆฌํ๋ ๊ณผ์ ์ ํ์์๊ฒ ๋ณด์ฌ์ฃผ๋ ์์(์๋ฒฝํ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ)๋ง ๋ณด์ฌ์ฃผ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ด ๊ฒฝ์ฐ ํ์์ ์๋ฆฌ์ฌ๊ฐ ์นผ์ ์์งํ๋ค ๋ฒ ์ด๊ฑฐ๋, ๋ถ์ ๋๋ฌด ์ธ๊ฒ ํด์ ํ์ฐ๋ ๋ฑ์ ์ค์๊ฐ ๋ฐ์ํ์ ๋ ์ด๋ป๊ฒ ๋์ฒํด์ผ ํ ์ง ์ ํ ๋ชจ๋ฆ ๋๋ค. ๋ํ, ๊ฐ์์ ๊ณต๊ฐ์์ ์๋ฆฌ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๋ค ๋ณด๋ ์ค์ ์ฌ๋ฃ์ ๋ฌด๊ฒ๊ฐ์ด๋ ๋๋น์ ๋จ๊ฑฐ์์ ๋๋ผ์ง ๋ชปํด(ํ๊ฒฝ์ ๋ถ์ ํ์ฑ), ๋ง์๋ ์๋ฆฌ๋ฅผ ๋ง๋๋ ๋ฐ ํ๊ณ๊ฐ ์์์ต๋๋ค.
1๋จ๊ณ: ์ค์ ์ฃผ๋ฐฉ ๋ง๋ค๊ธฐ (Verifiable Environments)
TermiGen์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ์ค์ ๋ก ์๋ํ๋ โ์ฃผ๋ฐฉโ(Docker ํ๊ฒฝ)์ ์๋์ผ๋ก ์ง๋ ๊ฒ์ ๋๋ค. ๋ง์น ์๋ฆฌ ํ๊ต์์ ์ค์ต์ฉ ์ฃผ๋ฐฉ์ ์ค๊ณํ๊ณ , ๊ฑฐ๊ธฐ์ ๋์ฅ๊ณ , ๊ฐ์ค๋ ์ธ์ง, ํ์ํ ์ฌ๋ฃ๋ค์ ๋ฐฐ์นํ๋ ๊ณผ์ ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ AI ์์ด์ ํธ๊ฐ ํ๋ ฅํ์ฌ ๋ฆฌ๋ ์ค ํฐ๋ฏธ๋ ๋ช ๋ น์ด๋ฅผ ๋ค๋ฃจ๋ ์ค์ต ํ๊ฒฝ์ ์๋์ผ๋ก ์์ฑํฉ๋๋ค. ์ค์ํ ์ ์ ์ด ํ๊ฒฝ์ด ๊ฐ์ง๊ฐ ์๋๋ผ ์ค์ ๋ก ์ฝ๋๋ฅผ ์ ๋ ฅํ์ ๋ ์๋ํด์ผ ํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ฅผ ์ํด ์ค์ Docker ์ปจํ ์ด๋๋ฅผ ๋์๋๊ณ , ์์ฑ๋ ๋ฌธ์ ๊ฐ ์ค์ ๋ก ํด๊ฒฐ ๊ฐ๋ฅํ์ง ๊ฒ์ฆํฉ๋๋ค. ์๋ฅผ ๋ค์ด, โํ์ผ ์ญ์ ํ๊ธฐโ ๋ฏธ์ ์ ์ฃผ๋ ค๋ฉด ์ค์ ๋ก ํ์ผ์ด ์กด์ฌํ๋ ๋๋ ํฐ๋ฆฌ๋ฅผ ๋จผ์ ๋ง๋ค์ด ๋๋ ์์ ๋๋ค.
2๋จ๊ณ: ์ค์์ ๋ณต๊ตฌ๋ฅผ ๋ฐฐ์ฐ๋ ๋ ์ํผ (Error Injection)
๋ ๋ฒ์งธ ๋จ๊ณ๋ ํ์๋ค์ด ์ค์๋ฅผ ํด๋ ๋์ฒํ ์ ์๋๋ก โ์ค์ ํฌํจ ๋ ์ํผโ๋ฅผ ๋ง๋๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด ๋ฐ์ดํฐ๋ โ๊น์น์ฐ๊ฐ ๋ง์๊ฒ ๋ง๋๋ ๋ฒโ์ฒ๋ผ ์ฑ๊ณตํ๋ ๊ฒฝ์ฐ๋ง ์์์ง๋ง, TermiGen์ โ์๊ธ์ ๋๋ฌด ๋ง์ด ๋ฃ์์ ๋ ๋ฌผ์ ๋ ๋ถ๋ ๋ฒโ๊ณผ ๊ฐ์ ์ํฉ์ ํ์ต ๋ฐ์ดํฐ์ ํฌํจ์ํต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก Generator(์์ฑ์) ๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ ํ๋ค๊ฐ ์ผ๋ถ๋ฌ Critic(๋นํ๊ฐ) ๋ชจ๋ธ์ด ์คํ๋ฅผ ์ ๋ ฅํ๊ฑฐ๋, ๊ถํ์ด ์๋ ๋ช ๋ น์ด๋ฅผ ์ฐ๊ฒ ํ๋ ๋ฑ์ ์ค์๋ฅผ ์ฃผ์ ํฉ๋๋ค. ๊ทธ ํ ๋ชจ๋ธ์ด ๋ฐ์ํ ์๋ฌ๋ฅผ ๋ณด๊ณ ์ค์ค๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ณผ์ ์ ๋ฐ์ดํฐ๋ก ์ ์ฅํฉ๋๋ค. ์ฆ, ํ๋ จ ๋ฐ์ดํฐ์ ์ผ๋ถ๋ฌ ์๋ฌ๊ฐ ์์ธ ๊ถค์ (Trajectory)์ ํฌํจ์์ผ ๋ชจ๋ธ์ด ์คํจ ์ํฉ์์๋ ๋ค์ ์ ์ ๊ถค๋๋ก ๋์์ฌ ์ ์๋๋ก ํ๋ จ์ํค๋ ๊ฒ์ ๋๋ค.
3. ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: Multi-agent Refinement & Generator-Critic
์ด ๊ณผ์ ์ ๋ ๊ฐ์ง ์ฃผ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ตฌํ๋ฉ๋๋ค. ์ฒซ์งธ, ํ๊ฒฝ ์์ฑ์ ์ํด โ๋ฉํฐ ์์ด์ ํธ ์ ์ ๋ฃจํโ๋ฅผ ๋๋๋ค. ์ฌ๋ฌ AI ์์ด์ ํธ๊ฐ ์๋ก์ ์์ ์ ๊ฒํ ํ๊ณ ์์ ํ๋ฉฐ, ์ค์ Docker ์ปจํ ์ด๋์์ ํ ์คํธํด ๋ณด๊ณ ์ฑ๊ณตํ ๋๊น์ง ์ฃผ๋ฐฉ ํ๊ฒฝ์ ๋ค์ ์งญ๋๋ค. ๋์งธ, โGenerator-Critic ํ๋กํ ์ฝโ์ ํตํด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. ์์ฑ์๊ฐ ๋ช ๋ น์ด๋ฅผ ๋ด๋ฆฌ๋ฉด ๋นํ๊ฐ๊ฐ ์ด๋ฅผ ๊ฒํ ํ๊ฑฐ๋ ์ผ๋ถ๋ฌ ๋ฐฉํด๋ฅผ ํ๋ฉฐ, ์๋ฌ ์ํฉ๊ณผ ๊ทธ ๋ณต๊ตฌ ๊ณผ์ ์ ํฌํจํ ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ํฐ๋ฏธ๋ ์์ ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ธ TerminalBench์ ๊ฐ์ ํ๊ฒฝ์์ ์ฑ๋ฅ์ ๊ฒ์ฆํ์ต๋๋ค. ๋ฒค์น๋งํฌ๋ ํฌ๊ฒ ์ฝ๋ ๋๋ฒ๊น , ์์คํ ๊ด๋ฆฌ, ๋ณด์ ํฌ๋ ์ ๋ฑ ๋ค์ํ ์์ญ์ ์์ฐ๋ฆ ๋๋ค.
๊ธฐ์กด ์ต์ ์ฑ๋ฅ(SOTA) ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋, TermiGen์ผ๋ก ํ๋ํ ์คํ ์์ค ๋ชจ๋ธ(Qwen-2.5/3 32B)์ ์๋นํ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ ๊ฑฐ๋ ๋ ์ ๋ชจ๋ธ์ธ GPT-5๋ Claude 4.5 Sonnet, ๊ทธ๋ฆฌ๊ณ o4-mini ๊ฐ์ ์ต์์ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋, ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ํฌ๊ฒ ์ค์๊ฑฐ๋ ๊ฑฐ์ ๋๋ฑํ ์์ค์ ๋๋ฌํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธฐ์กด์ ์ผ๋ฐ์ ์ธ ์คํ ๊ฐ์ค์น ๋ชจ๋ธ์ด๋ ํฐ๋ฏธ๋์ ํนํ๋ ๋ชจ๋ธ๋ค์ด ํฐ๋ฏธ๋ ์์ ์์ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ธ ๋ฐ๋ฉด, TermiGen์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ๋ณต์กํ ๋ช ๋ น์ด ์ฒ๋ฆฌ์ ์๋ฌ ๋ณต๊ตฌ ๊ณผ์ ์์ ํจ์ฌ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค.
ํนํ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ๋ โRQ2: Error-Correction vs. Standard Trajectoryโ ์คํ ๊ฒฐ๊ณผ์ ๋๋ค. ์๋ฌ ์ฃผ์ ์ ๋ต์ ์ฌ์ฉํ์ฌ ํ์ตํ ๋ชจ๋ธ์, ์๋ฒฝํ ์ ๋ต ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ ๋นํด ๋ฐํ์ ์๋ฌ๊ฐ ๋ฐ์ํ์ ๋ ์ด๋ฅผ ๋ณต๊ตฌํ๋ ๋ฅ๋ ฅ์ด ํจ์ฌ ๋ฐ์ด๋ฌ์ต๋๋ค. ์ค์ ๋ก ์ฑ๊ณต๋ฅ ์ด ์ ์๋ฏธํ๊ฒ ์์นํ์ผ๋ฉฐ, ๋ชจ๋ธ์ด ์ฒ์ ๋ณด๋ ์๋ฌ ๋ฉ์์ง๋ ์ํฉ์์๋ ๋นํฉํ์ง ์๊ณ ๋์ฒํ๋ โ๊ฐ์ธ์ฑ(Resilience)โ์ ํ๋ํ์์ด ์ ์ฆ๋์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ์ด ๋ ผ๋ฌธ์ด ๊ฐ์ง ์ธ ๊ฐ์ง ์ฃผ์ ํ๊ณ์ ์ ๋ช ์ํ์ต๋๋ค. ์ฒซ์งธ, ํ์ฌ ํ์ต ๋ฐฉ์์ ์ง๋ ํ์ต(SFT, Supervised Fine-Tuning)์๋ง ์์กดํ๊ณ ์์ต๋๋ค. ์๋ํ๋ ํ ์คํธ๋ฅผ ํตํด ํ์คํ ๋ณด์ ์ ํธ๋ฅผ ์ป์ ์ ์๋ ํ๊ฒฝ์ด๋ฏ๋ก, ๊ฐํ ํ์ต(RL, Reinforcement Learning)์ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ด ์ค์ค๋ก ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์น๋ฉฐ ๋ ์ฐฝ์์ ์ธ ํด๊ฒฐ์ฑ ์ ์ฐพ๋๋ก ํ์ฅํ๋ ๊ฒ์ด ์์ฐ์ค๋ฌ์ด ๋ค์ ๋จ๊ณ์ ๋๋ค.
๋์งธ, ํ์ฌ ์ฐ๊ตฌ์์๋ ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฅ์ด ์๋ ๋จ์ํ ์์ด์ ํธ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ์์ฑ๋ ํ๊ฒฝ๊ณผ ๊ถค์ ์ ํจ๊ณผ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํ ์๋์ ์ธ ์ ํ์ด์์ง๋ง, ์ค์ ๋ณต์กํ ์์ ์์๋ ๊ณผ๊ฑฐ์ ๋ช ๋ น์ด๋ ์ํ๋ฅผ ๊ธฐ์ตํ๋ ๋ฅ๋ ฅ์ด ํ์์ ์ ๋๋ค. ๋ฐ๋ผ์ ์ฅ๊ธฐ ๊ธฐ์ต์ ํ์ฉํ๋ ๋ ์ ๊ตํ ์์ด์ ํธ๋ฅผ ์ค๊ณํ๋ ๊ฒ์ด ํ์ํฉ๋๋ค.
์ ์งธ, ํ๊ฒฝ ๋ถ๋ฅ(Taxonomy)๊ฐ ๋ค์ํ ๋๋ฉ์ธ์ ๊ฑธ์ณ ์์์๋ ๋ถ๊ตฌํ๊ณ , ์์ง ๋ชจ๋ ์ค์ ์๋๋ฆฌ์ค๋ฅผ ์๋ฒฝํ๊ฒ ์ปค๋ฒํ์ง๋ ๋ชปํฉ๋๋ค. ๋ ๊ด๋ฒ์ํ๊ณ ํฌ๊ทํ ์์คํ ๊ด๋ฆฌ ์๋๋ฆฌ์ค๋ ๋ณด์ ์ํ ์ํฉ ๋ฑ์ ๋ฐ์ดํฐ์ ํฌํจํ์ฌ ๊ฒฌ๊ณ ์ฑ์ ๋์ฑ ๋์ฌ์ผ ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๋ ผ๋ฌธ์ ๊ธฐ์ ์ ๋ฐ๋ก DevOps ์๋ํ ๋ฐ ์์คํ ์ด์ ๋ถ์ผ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฒ ์ค์ , ๋ก๊ทธ ๋ถ์, ๊ฐ๋จํ ์ฅ์ ์กฐ์น ๋ฑ์ ์ฌ๋ ๊ฐ๋ฐ์๊ฐ ์ง์ ํฐ๋ฏธ๋์ ์ ์ํ์ง ์๊ณ ๋ AI ์์ด์ ํธ๊ฐ ์์จ์ ์ผ๋ก ์ํํ๊ฒ ํ ์ ์์ต๋๋ค. ๋ํ, ๊ต์ก์ฉ ์ฝ๋ฉ ํ ์คํธ ํ๋ซํผ์ด๋ ๊ฐ๋ฐ์ ๋๊ตฌ์ ๋ด์ฅ๋์ด, ์ฌ์ฉ์๊ฐ ํฐ๋ฏธ๋ ๋ช ๋ น์ด๋ฅผ ์ ๋ ฅํ ๋ ๋ฐ์ํ๋ ์ค์๋ฅผ ๊ต์ ํด ์ฃผ๊ฑฐ๋ ๋ ๋์ ๋์์ ์ ์ํ๋ ๋น์๋ก ํ์ฉ๋ ์ ์์ต๋๋ค.
์ ์ฉ์ ํ์ํ ๋ฆฌ์์ค๋ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ค๋ฅด์ง๋ง, 32B ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ํ์ต์ํค๋ ค๋ฉด A100์ด๋ H100๊ณผ ๊ฐ์ ๊ณ ์ฑ๋ฅ GPU๊ฐ ์ต์ 4~8๋ ์ ๋ ํ์ํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. ํ์ง๋ง ์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ์ ์ถ๋ก ๋ง ํ๋ ๋จ๊ณ๋ผ๋ฉด ์๋์ ์ผ๋ก ์ ์ ๋ฆฌ์์ค๋ก๋ ํฐ๋ฏธ๋ ์๋ํ ์์ด์ ํธ๋ฅผ ๊ตฌ์ถํ ์ ์์ต๋๋ค. ๋ํ, ์ค์ ํ๊ฒฝ์ Docker๋ก ๋์์ผ ํ๋ฏ๋ก ์ปจํ ์ด๋ ๊ด๋ฆฌ๋ฅผ ์ํ ์ธํ๋ผ๊ฐ ํ์์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- LLM(Large Language Model): ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ์ฌ๋์ฒ๋ผ ์์ฐ์ด๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ๊ฑฐ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค.
- Agent(์์ด์ ํธ): ์ฌ์ฉ์์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ค์ค๋ก ์๊ฐํ๊ณ , ๋๊ตฌ(Tool)๋ฅผ ์ฌ์ฉํ์ฌ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ ์์คํ ์ ๋๋ค.
- Docker: ์ ํ๋ฆฌ์ผ์ด์ ์ ์ปจํ ์ด๋๋ผ๋ ๊ฒฉ๋ฆฌ๋ ํ๊ฒฝ์์ ์คํํ ์ ์๊ฒ ํด์ฃผ๋ ๊ธฐ์ ๋ก, ์ด๋์๋ ๋์ผํ๊ฒ ์คํ๋๋ ํ๊ฒฝ์ ๋ณด์ฅํฉ๋๋ค.
- Terminal(ํฐ๋ฏธ๋): ์ฌ์ฉ์๊ฐ ํ ์คํธ ๋ช ๋ น์ด๋ฅผ ์ ๋ ฅํ์ฌ ์ปดํจํฐ ์ด์์ฒด์ ์ ์ง์ ์ํตํ๋ ์ธํฐํ์ด์ค์ ๋๋ค.
- Instruction Tuning(๋ช ๋ น์ด ํ๋): ๋ชจ๋ธ์ด ์ฌ์ฉ์์ ์ง์๋ ์์ฒญ์ ์ ๋ฐ๋ฅด๋๋ก, ์ง์์ ๊ทธ์ ๋ํ ๋ต๋ณ ์์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค.
- Hallucination(ํ๊ฐ): AI๊ฐ ์ฌ์ค๊ณผ ๋ค๋ฅด๊ฑฐ๋ ๋ ผ๋ฆฌ์ ์ผ๋ก ๋ง์ง ์๋ ๋ด์ฉ์ ๋ง์น ์ง์ค์ธ ๊ฒ์ฒ๋ผ ๊ทธ๋ด์ธํ๊ฒ ์์ฑํ๋ ํ์์ ๋๋ค.
- Trajectory(๊ถค์ ): ์์ด์ ํธ๊ฐ ์์ ์ ์ํํ๋ ๊ณผ์ ์์์ ์ํ, ํ๋, ๊ด์ฐฐ ๋ฑ์ ์๊ฐ ์์๋ณ ๊ธฐ๋ก์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | OPUS: Towards Efficient and Principโฆ | DD-021 |
| ๐ฅ | Weak-Driven Learning: How Weak Agenโฆ | DD-022 |
| ๐ฅ | TermiGen: High-Fidelity Environmentโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | Code2World: A GUI World Model via Rโฆ | DD-024 |
| 5. | The Devil Behind Moltbook: Anthropiโฆ | DD-025 |
๐ ์์ฑ์ผ: 2026-02-15 | ๐ค GLM-4.7 Deep Dive