โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-028 GLM-5: from Vibe Coding to Agentic Engineering

arXiv: 2602.15763 Upvotes: 71 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3

Figure 1


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: GLM-5 - From Vibe Coding to Agentic Engineering

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ์‚ฌ๋žŒ์ด ๊ตฌ์ฒด์ ์ธ ์ง€์‹œ๋ฅผ ๋‚ด๋ ค์•ผ๋งŒ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๋Š” ์ˆ˜๋™์ ์ธ โ€˜๋ฐ”์ด๋ธŒ ์ฝ”๋”ฉ(Vibe Coding)โ€™ ๋ฐฉ์‹์— ์˜์กดํ–ˆ์œผ๋ฉฐ, ๋ณต์žกํ•œ ์‹ค๋ฌด ํ™˜๊ฒฝ์—์„œ์˜ ๋น„์šฉ ํšจ์œจ์„ฑ๊ณผ ์ž์œจ์„ฑ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ AI๊ฐ€ ์Šค์Šค๋กœ ๊ณ„ํš์„ ์„ธ์šฐ๊ณ  ์ฝ”๋“œ๋ฅผ ๊ตฌํ˜„ ๋ฐ ์ˆ˜์ •ํ•˜๋Š” โ€˜์—์ด์ „ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง(Agentic Engineering)โ€˜์œผ๋กœ์˜ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์„ ์ œ์‹œํ•˜๋ฉฐ, ๋น„๋™๊ธฐ ๊ฐ•ํ™” ํ•™์Šต(Asynchronous RL)์„ ํ†ตํ•ด ํ•™์Šต ๋ฐ ์ถ”๋ก  ๋น„์šฉ์„ ํš๊ธฐ์ ์œผ๋กœ ์ ˆ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค. GLM-5๋Š” ๋‹จ์ˆœํ•œ ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๋ฅผ ๋„˜์–ด, ์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ์—…๋ฌด๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ž์œจ์„ฑ์„ ์ฆ๋ช…ํ•˜์—ฌ ์˜คํ”ˆ ์›จ์ดํŠธ ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ํ™•๋ฆฝํ–ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ์†์˜ โ€˜์ธํ…Œ๋ฆฌ์–ด ๊ณต์‚ฌโ€™๋ฅผ ๋น„์œ ๋กœ ๋“ค์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ AI ๋ชจ๋ธ์€ โ€œ์—ฌ๊ธฐ ๋ฒฝ์— ๋ชป ์ข€ ๋ฐ•์•„์ค˜โ€๋ผ๊ณ  ์ฃผ์ธ์ด ์ผ์ผ์ด ์ง€์‹œํ•ด์•ผ๋งŒ ์›€์ง์ด๋Š” ์กฐ์ˆ˜์˜€์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ GLM-5๋Š” โ€œ๊ฑฐ์‹ค์„ ํ˜„๋Œ€์ ์œผ๋กœ ๋ฐ”๊ฟ”์ค˜โ€๋ผ๋Š” ๋ชฉํ‘œ๋งŒ ์ฃผ๋ฉด, ์Šค์Šค๋กœ ๋””์ž์ธ์„ ๊ณ„ํšํ•˜๊ณ , ์ž์žฌ๋ฅผ ์‚ฌ๊ณ , ์‹œ๊ณตํ•˜๋ฉฐ, ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธฐ๋ฉด ์Šค์Šค๋กœ ์ˆ˜์ •ํ•˜๋Š” โ€˜์‹œ๊ณต ์ฑ…์ž„์žโ€™์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ž์œจ์„ฑ์„ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด GLM-5๋Š” ํ•™์Šต ๋ฐฉ์‹์„ ์™„์ „ํžˆ ๋ฐ”๊ฟจ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” AI๊ฐ€ ํ•œ ํ–‰๋™์„ ํ•˜๊ณ  ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ๋Š” ๋™์•ˆ ํ•™์Šต ์žฅ๋น„(GPU)๊ฐ€ ๋†€๊ฒŒ ๋˜๋Š” ๋™๊ธฐ์‹ ํ•™์Šต์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์š”๋ฆฌ์‚ฌ๊ฐ€ ์†๋‹˜์ด ์‹์‚ฌ๋ฅผ ๋‹ค ๋งˆ์น  ๋•Œ๊นŒ์ง€ ์ฃผ๋ฐฉ์—์„œ ์•„๋ฌด๊ฒƒ๋„ ํ•˜์ง€ ์•Š๊ณ  ๊ธฐ๋‹ค๋ฆฌ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. GLM-5๋Š” โ€˜๋น„๋™๊ธฐ ๊ฐ•ํ™” ํ•™์Šต(Asynchronous RL)โ€˜์„ ๋„์ž…ํ•˜์—ฌ, AI๊ฐ€ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ํ™˜๊ฒฝ๊ณผ ํ•™์Šต ๊ณผ์ •์„ ๋ถ„๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์š”๋ฆฌ์‚ฌ๋Š” ์†๋‹˜๋“ค์ด ์‹์‚ฌํ•˜๋Š” ๋™์•ˆ์—๋„ ๋ฉˆ์ถ”์ง€ ์•Š๊ณ  ๊ณ„์† ์š”๋ฆฌ๋ฅผ ํ•˜๊ณ , ์†๋‹˜๋“ค์˜ ํ‰๊ฐ€(ํ”ผ๋“œ๋ฐฑ)๊ฐ€ ๋“ค์–ด์˜ค๋ฉด ๊ทธ๋•Œ๋งˆ๋‹ค ๋ ˆ์‹œํ”ผ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ด ๊ณผ์ •์—์„œ GLM-5๋Š” ํŠน๋ณ„ํ•œ ๋ชฉ์  ํ•จ์ˆ˜(Objective Function)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

$L(\theta) = \mathbb{E}{x\sim\mathcal{D}}!\left[\frac{1}{K}\sum{i=1}^{K}\left(r(x,y_{i})-\bar{r}(x)\right)\right]$

์ด ์ˆ˜์‹์€ ๋‹จ์ˆœํžˆ ์ ์ˆ˜๋ฅผ ๋†’์ด๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์—ฌ๋Ÿฌ ์‹œ๋„(K) ์ค‘์—์„œ ํ‰๊ท  ์ ์ˆ˜($\bar{r}(x)$)๋ณด๋‹ค ์–ผ๋งˆ๋‚˜ ๋” ์ž˜ํ–ˆ๋Š”์ง€๋ฅผ ์ค‘์ ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ฒ ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ์ฆ‰, โ€œ๋ณดํ†ต ์ˆ˜์ค€โ€์˜ ๋‹ต์•ˆ๋ณด๋‹ค ๋” ๋‚˜์€ ๋‹ต์•ˆ์„ ๋‚ด๋†“์•˜์„ ๋•Œ๋งŒ ๊ทธ ํŒจํ„ด์„ ๊ฐ•ํ™”ํ•ด์„œ ํ•™์Šตํ•˜๊ฒ ๋‹ค๋Š” ์ „๋žต์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด GLM-5๋Š” ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ๋Œ์–ด์˜ฌ๋ฆฝ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

GLM-5๋Š” ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์••๋„์ ์ธ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ๋Š” ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธํ…”๋ฆฌ์ „์Šค ํ‰๊ฐ€์ธ โ€˜์ธํ…”๋ฆฌ์ „์Šค ์ธ๋ฑ์Šค v4.0(Intelligence Index v4.0)โ€˜์„ ํฌํ•จํ•˜์—ฌ, ์ฝ”๋“œ ์ˆ˜์ • ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” โ€˜SWE-bench Verified/Multilingualโ€™, ํ„ฐ๋ฏธ๋„ ํ™˜๊ฒฝ์—์„œ์˜ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๋ณด๋Š” โ€˜Terminal-Bench 2.0โ€™, ๊ทธ๋ฆฌ๊ณ  ๊ฒ€์ƒ‰ ๋ฐ ๋„๊ตฌ ์‚ฌ์šฉ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” โ€˜BrowseCompโ€™์™€ โ€˜MCP-Atlasโ€™ ๋“ฑ 8๊ฐœ์˜ ์ฃผ์š” ์—์ด์ „ํŠธ, ์ถ”๋ก , ์ฝ”๋”ฉ ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ GLM-5๋Š” ์ด์ „ ๋ฒ„์ „์ธ GLM-4.7 ๋Œ€๋น„ ํ‰๊ท  ์•ฝ 20%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ์ธํ…”๋ฆฌ์ „์Šค ์ธ๋ฑ์Šค ์ ์ˆ˜๋Š” 42์ ์—์„œ 50์ ์œผ๋กœ 8์  ์ƒ์Šนํ•˜์—ฌ ์˜คํ”ˆ ์›จ์ดํŠธ ๋ชจ๋ธ ์ค‘ ์ƒˆ๋กœ์šด 1์œ„๋ฅผ ์ฐจ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, Claude Opus 4.5 ๋ฐ GPT-5.2์™€ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ Gemini 3 Pro๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฌด์—‡๋ณด๋‹ค ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ๋Š” ์ •์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„˜์–ด์„  ์‹ค์ œ ์ฝ”๋”ฉ ์—…๋ฌด ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค. GLM-5๋Š” ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง์˜ ์ „์ฒด ๊ณผ์ •์„ ์ž์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค์„ ์ƒํšŒํ•จ์œผ๋กœ์จ, ๋‹จ์ˆœํžˆ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด ์‹ค์ œ ์—”์ง€๋‹ˆ์–ด ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ GLM-5๊ฐ€ ์˜คํ”ˆ ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์— ํฐ ๊ธฐ์—ฌ๋ฅผ ํ•˜์ง€๋งŒ, ์•„์ง์€ ์ •์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„˜์–ด์„  ๋ณต์žกํ•œ ์‹ค์ œ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ์˜ ์™„๋ฒฝ์„ฑ์„ ์ž…์ฆํ•˜๋Š” ๊ฒƒ์ด ์‹œ์ž‘ ๋‹จ๊ณ„์— ๋ถˆ๊ณผํ•˜๋‹ค๊ณ  ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, GLM-5๊ฐ€ ๋ณด์—ฌ์ค€ โ€˜์—์ด์ „ํŠธ ์—”์ง€๋‹ˆ์–ด๋งโ€™์˜ ํšจ์œจ์„ฑ์„ ๋” ๋‹ค์–‘ํ•œ ๋ถ„์•ผ๋กœ ํ™•์žฅํ•˜๊ณ , ๋” ๊ธด ํ˜ธ๋ผ์ด์ฆŒ(Long-horizon)์˜ ์ž‘์—…์—์„œ์˜ ์•ˆ์ •์„ฑ์„ ๋†’์ด๋Š” ๊ฒƒ์ด ํ–ฅํ›„ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ, ๋น„๋™๊ธฐ ๊ฐ•ํ™” ํ•™์Šต(Asynchronous RL) ์ธํ”„๋ผ์˜ ๊ตฌ์ถ•์ด ํ•„์ˆ˜์ ์ด๋ฏ€๋กœ, ๊ฐœ๋ฐœ ํ™˜๊ฒฝ์„ ์„ธํŒ…ํ•˜๋Š” ๋ฐ ์žˆ์–ด ์ƒ๋‹นํ•œ ๊ธฐ์ˆ ์  ๋‚œ์ด๋„์™€ ๋ฆฌ์†Œ์Šค๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ณต์žกํ•œ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์„ ๋” ๊ฒฝ๋Ÿ‰ํ™”ํ•˜๊ณ , ์‹ค์ œ ์‚ฐ์—… ํ˜„์žฅ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ์—์ง€ ์ผ€์ด์Šค(Edge Case)๋“ค์„ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ• ์ง€์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์ด์–ด์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

GLM-5๋Š” ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ๋ถ„์•ผ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ์ฝ”๋“œ ์ž๋™ ์™„์„ฑ์„ ๋„˜์–ด, ๊ฐœ๋ฐœ์ž๊ฐ€ ์š”๊ตฌํ•œ ๊ธฐ๋Šฅ์„ ์Šค์Šค๋กœ ์ดํ•ดํ•˜๊ณ  ๊ณ„ํšํ•˜๋ฉฐ, ๊ด€๋ จ๋œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ณ  ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•œ ๋’ค ํ…Œ์ŠคํŠธ๊นŒ์ง€ ์ˆ˜ํ–‰ํ•˜๋Š” ์ž๋™ํ™”๋œ ์ฝ”๋”ฉ ์—์ด์ „ํŠธ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„์ด๋‚˜ ๋ฆฌ์„œ์น˜ ์—…๋ฌด ๋“ฑ์—์„œ๋„ ๊ธด ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๊ณ  ์—ฌ๋Ÿฌ ๋„๊ตฌ๋ฅผ ๋น„๋™๊ธฐ์ ์œผ๋กœ ํ˜ธ์ถœํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ธํ…”๋ฆฌ์ „ํŠธ ์—์ด์ „ํŠธ๋กœ ์‚ฌ์šฉ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์ด๋ฅผ ์‹ค๋ฌด์— ๋„์ž…ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ณ ์‚ฌ์–‘ GPU ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ ๋น„๋™๊ธฐ ๊ฐ•ํ™” ํ•™์Šต ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•˜๋ ค๋ฉด ๋‹จ์ผ GPU๊ฐ€ ์•„๋‹Œ ๋Œ€๊ทœ๋ชจ ์—ฐ์‚ฐ ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, GLM-5๊ฐ€ ํ•™์Šต๋œ 10,000๊ฐœ ์ด์ƒ์˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ์œ ์‚ฌํ•œ ํ˜•ํƒœ์˜ ์‹ค๋ฌด ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜์—ฌ ํŒŒ์ธ ํŠœ๋‹ํ•˜๊ฑฐ๋‚˜ ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•ด์•ผ ์ตœ์ƒ์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ๋ฐ”์ด๋ธŒ ์ฝ”๋”ฉ(Vibe Coding): ์‚ฌ์šฉ์ž๊ฐ€ ๊ตฌ์ฒด์ ์ธ ๋ช…๋ น์–ด ๋Œ€์‹  ๋А๋‚Œ์ด๋‚˜ ๋Œ€๋žต์ ์ธ ์˜๋„๋ฅผ ์ „๋‹ฌํ•˜๋ฉด AI๊ฐ€ ์ด๋ฅผ ํ•ด์„ํ•˜์—ฌ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๋Š” ์ตœ์‹  ์ฝ”๋”ฉ ํŠธ๋ Œ๋“œ๋กœ, GLM-5๋Š” ์ด๋ฅผ ๋„˜์–ด์„  ๋‹จ๊ณ„๋ฅผ ์ง€ํ–ฅํ•ฉ๋‹ˆ๋‹ค.
  2. ์—์ด์ „ํŠธ(Agent): ๋‹จ์ˆœํžˆ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์Šค์Šค๋กœ ๋ชฉํ‘œ๋ฅผ ์„ค์ •ํ•˜๊ณ  ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ž์œจ์ ์ธ AI ์‹œ์Šคํ…œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  3. ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): AI๊ฐ€ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๊ธฐ๊ณ„ ํ•™์Šต์˜ ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ, ์—์ด์ „ํŠธ์˜ ์ž์œจ์„ฑ์„ ํ‚ค์šฐ๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
  4. ๋น„๋™๊ธฐ ํ•™์Šต(Asynchronous Learning): ํ•™์Šต ๊ณผ์ •๊ณผ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ(ํ˜น์€ ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ) ๊ณผ์ •์„ ๋ถ„๋ฆฌํ•˜์—ฌ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•จ์œผ๋กœ์จ, ๋Œ€๊ธฐ ์‹œ๊ฐ„์„ ์ค„์ด๊ณ  ํ•™์Šต ์†๋„๋ฅผ ๋†’์ด๋Š” ํšจ์œจ์ ์ธ ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  5. ๋ชจ๋ธ ์˜ค๋ธŒ ์—‘์ŠคํผํŠธ(Mixture of Experts, MoE): ๊ฑฐ๋Œ€ํ•œ ์‹ ๊ฒฝ๋ง ํ•˜๋‚˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹  ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ „๋ฌธ๊ฐ€ ๋ชจ๋ธ์„ ๋‘๊ณ  ์ƒํ™ฉ์— ๋งž๋Š” ๋ชจ๋ธ๋งŒ ํ™œ์„ฑํ™”ํ•˜์—ฌ ์—ฐ์‚ฐ ํšจ์œจ์„ ๋†’์ด๋Š” ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค.
  6. ๋กค์•„์›ƒ(Rollout): ๊ฐ•ํ™” ํ•™์Šต์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ํ˜„์žฌ ์ƒํƒœ์—์„œ ์ •์ฑ…์— ๋”ฐ๋ผ ์ผ๋ จ์˜ ํ–‰๋™์„ ์ทจํ•˜๊ณ  ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›๋Š” ๊ณผ์ •์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  7. SFT(Supervised Fine-Tuning): ์‚ฌ๋žŒ์ด ์ž‘์„ฑํ•œ ์ •๋‹ต์ด ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ์ถ”๊ฐ€๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์œผ๋กœ, ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ์ ์ธ ์—ญ๋Ÿ‰์„ ๋‹ค๋“ฌ๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Less is Enough: Synthesizing Diversโ€ฆDD-026
๐ŸฅˆSQuTR: A Robustness Benchmark for Sโ€ฆDD-027
๐Ÿฅ‰GLM-5: from Vibe Coding to Agentic โ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.Experiential Reinforcement LearningDD-029
5.MedXIAOHE: A Comprehensive Recipe fโ€ฆDD-030

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-22 | ๐Ÿค– GLM-4.7 Deep Dive