โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-024 Code2World: A GUI World Model via Renderable Code Generation

arXiv: 2602.09856 ๊ธฐ๊ด€: AMAP-ML Upvotes: 186 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4

Figure 1


Code2World: A GUI World Model via Renderable Code Generation ๋ฆฌ๋ทฐ

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ GUI ์—์ด์ „ํŠธ๋“ค์€ ํ–‰๋™์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฏธ๋ฆฌ ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•ด ๋งˆ์น˜ ๋ˆˆ์„ ๊ฐ๊ณ  ๊ธธ์„ ๊ฑท๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ์˜ค๋ฅ˜ ์ˆ˜์ •์ด ์–ด๋ ต๋‹ค๋Š” ์น˜๋ช…์ ์ธ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋‹ค์Œ ํ™”๋ฉด์„ ํ”ฝ์…€ ๋‹จ์œ„๊ฐ€ ์•„๋‹Œ ๋ Œ๋”๋ง ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ(HTML)๋กœ ์ƒ์„ฑํ•˜์—ฌ, ๋†’์€ ์‹œ๊ฐ์  ํ€„๋ฆฌํ‹ฐ์™€ ์ •๊ตํ•œ ๊ตฌ์กฐ ์ œ์–ด๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ ์ตœ์ดˆ์˜ GUI ์›”๋“œ ๋ชจ๋ธ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด AI๊ฐ€ ์ธ๊ฐ„์ฒ˜๋Ÿผ โ€˜๊ฐ€์ƒ ๋ชจ๋ž˜์ƒ์žโ€™์—์„œ ๋ฏธ๋ฆฌ ์—ฐ์Šตํ•ด ๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ, ๊ฒฐ์ œ ํ™•์ธ์ด๋‚˜ ๋ฐ์ดํ„ฐ ์‚ญ์ œ์ฒ˜๋Ÿผ ๋˜๋Œ๋ฆด ์ˆ˜ ์—†๋Š” ์œ„ํ—˜ํ•œ ์ž‘์—…์—์„œ์˜ ์‹ค์ˆ˜๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์š”๋ฆฌ์‚ฌ์™€ ์š”๋ฆฌ๋ฒ•์˜ ๋น„์œ 

๊ธฐ์กด AI๊ฐ€ ํ™”๋ฉด์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์€ ํ™”๊ฐ€๊ฐ€ ์บ”๋ฒ„์Šค์— ์ง์ ‘ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๋Š” ๊ฒƒ(ํ”ฝ์…€ ์ƒ์„ฑ)๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ์ „์ฒด์ ์ธ ๋ถ„์œ„๊ธฐ๋Š” ๋น„์Šทํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์–ด๋„, โ€˜๋ฒ„ํŠผ์˜ ํ…์ŠคํŠธ๊ฐ€ ์ •ํ™•ํžˆ ๋ฌด์—‡์ธ๊ฐ€โ€™๋‚˜ โ€˜๋ฒ„ํŠผ์ด ์ •ํ™•ํžˆ ์–ด๋””์— ์œ„์น˜ํ•ด์•ผ ํ•˜๋Š”๊ฐ€โ€™ ๊ฐ™์€ ๋””ํ…Œ์ผ์„ ๋งž์ถ”๊ธฐ ๋งค์šฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. Code2World๋Š” ๋‹ฌ๋ฆฌ ์š”๋ฆฌ์‚ฌ(Browser)๊ฐ€ ์™„๋ฒฝํ•˜๊ฒŒ ์š”๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์ •๊ตํ•œ โ€˜์š”๋ฆฌ๋ฒ•(HTML ์ฝ”๋“œ)โ€˜์„ ์ž‘์„ฑํ•ด์ฃผ๋Š” ์…ฐํ”„ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์š”๋ฆฌ์‚ฌ๋Š” ์š”๋ฆฌ๋ฒ•์„ ์ž…๋ ฅ๋ฐ›๊ธฐ๋งŒ ํ•˜๋ฉด ๋Š˜ ๋˜‘๊ฐ™์€ ๋ชจ์–‘์˜ ์š”๋ฆฌ(ํ™”๋ฉด)๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๊ธฐ ๋•Œ๋ฌธ์— ๊ตฌ์กฐ๊ฐ€ ์ •ํ™•ํ•˜๊ฒŒ ์œ ์ง€๋˜๋Š” ๊ฒƒ์ด์ฃ .

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

์ด ๋ชจ๋ธ์€ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, AI๋Š” ํ˜„์žฌ ํ™”๋ฉด ์Šคํฌ๋ฆฐ์ƒท๊ณผ ์‚ฌ์šฉ์ž์˜ ํ–‰๋™(์˜ˆ: โ€˜๋กœ๊ทธ์ธ ๋ฒ„ํŠผ ํด๋ฆญโ€™)์„ ๋ณด๊ณ , ๋‹ค์Œ ํ™”๋ฉด์ด ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑ๋˜์–ด์•ผ ํ• ์ง€ HTML ์ฝ”๋“œ๋กœ ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋‹จ์ˆœํžˆ ๋น„์Šทํ•˜๊ฒŒ ๋ณด์ด๋Š” ์ฝ”๋“œ๋ฅผ ์งœ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์‹ค์ œ ๋ธŒ๋ผ์šฐ์ €์—์„œ ๋ฌธ์ œ์—†์ด ์‹คํ–‰๋˜๋„๋ก ์—„๊ฒฉํ•œ ๋ฌธ๋ฒ•์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. ๋‘˜์งธ, ์ž‘์„ฑ๋œ ์ฝ”๋“œ๋Š” ๋ธŒ๋ผ์šฐ์ €๋ผ๋Š” ๋ Œ๋”๋ง ์—”์ง„์„ ํ†ตํ•ด ์‹ค์ œ ์ด๋ฏธ์ง€๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ํ”ฝ์…€์„ ์ง์ ‘ ์ฐ์–ด๋‚ด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๊ตฌ์กฐ์ ์ธ ์ฝ”๋“œ๋ฅผ ์งœ๊ณ  ์ด๋ฅผ ๊ทธ๋ฆผ์œผ๋กœ ๋ฐ”๊พธ๊ธฐ ๋•Œ๋ฌธ์— ๊ธ€์ž๊ฐ€ ๊นจ์ง€๊ฑฐ๋‚˜ ๋ฒ„ํŠผ์ด ์‚๋šค์–ด์ง€๋Š” ์ผ์ด ๊ฑฐ์˜ ์—†์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ์ˆ˜์‹

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ์ƒํƒœ ์ „์ด๋ฅผ ์ฝ”๋“œ ์ƒ์„ฑ๊ณผ ๋ Œ๋”๋ง์˜ ๊ฒฐํ•ฉ์œผ๋กœ ์ •์˜ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

$$ \hat{C}{t+1} = \mathcal{M}{\theta}(I_t, a_t, \mathcal{G}), \quad \hat{I}{t+1} = \mathcal{R}(\hat{C}{t+1}) $$

์—ฌ๊ธฐ์„œ $\mathcal{M}{\theta}$๋Š” AI ๋ชจ๋ธ์ด๊ณ , $I_t$๋Š” ํ˜„์žฌ ํ™”๋ฉด, $a_t$๋Š” ํ–‰๋™, $\mathcal{G}$๋Š” ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ์ƒํƒœ์˜ ์ฝ”๋“œ $\hat{C}{t+1}$์„ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. ์ดํ›„ ๋ Œ๋”๋ง ์—”์ง„ $\mathcal{R}$์ด ์ด ์ฝ”๋“œ๋ฅผ ๋ฐ›์•„ ์ตœ์ข…์ ์œผ๋กœ ์šฐ๋ฆฌ ๋ˆˆ์— ๋ณด์ด๋Š” ๋‹ค์Œ ํ™”๋ฉด ์ด๋ฏธ์ง€ $\hat{I}_{t+1}$์„ ํ™•์ •์ ์œผ๋กœ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์—ฐ๊ตฌ์ง„์€ ์‹ค์ œ ์•ˆ๋“œ๋กœ์ด๋“œ ๊ธฐ๊ธฐ ๋ฐ์ดํ„ฐ์…‹์ธ Android Control(In-Distribution)๊ณผ ํ•™์Šตํ•˜์ง€ ์•Š์€ ์•ฑ๊ณผ ๊ธฐ๊ธฐ์—์„œ์˜ ์„ฑ๋Šฅ์„ ํ…Œ์ŠคํŠธํ•˜๋Š” GUI Odyssey(Out-of-Distribution) ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๊ฐ•๋ ฅํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ(์˜ˆ: FLUX, SDXL)์ด๋‚˜ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, Code2World๋Š” ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ์••๋„์ ์ธ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ ๋ณด๋ฉด, Android Control ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ธฐ๋Šฅ์  ๋…ผ๋ฆฌ ์ •ํ™•๋„(Action Adherence) ๊ด€๋ จ ์ง€ํ‘œ์—์„œ ์•ฝ 95% ์ด์ƒ์˜ ๋งค์šฐ ๋†’์€ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ํ™”๋ฉด์ด ์‚ฌ์šฉ์ž์˜ ํ–‰๋™์— ๋”ฐ๋ผ ๋…ผ๋ฆฌ์ ์œผ๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ๋ฐ˜์‘ํ–ˆ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ์‹œ๊ฐ์  ํ’ˆ์งˆ ์ธก๋ฉด์—์„œ๋„ ๊ธฐ์กด ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์ด ํ”ํžˆ ์ €์ง€๋ฅด๋Š” โ€˜ํ…์ŠคํŠธ ๊นจ์งโ€™ ํ˜„์ƒ ์—†์ด, ๋ ˆ์ด์•„์›ƒ ์œ ์‚ฌ๋„(Layout Similarity)์™€ ์š”์†Œ ์œ ์‚ฌ๋„(Element Similarity) ๋ฉด์—์„œ ํฐ ์šฐ์œ„๋ฅผ ์ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๋ถ€๋ถ„์€ GUI Odyssey(OOD) ํ…Œ์ŠคํŠธ์—์„œ, ํ•™์Šตํ•œ ์  ์—†๋Š” ์ƒˆ๋กœ์šด ์•ฑ ํ™˜๊ฒฝ์—์„œ๋„ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ(SOTA) ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•ด ์›”๋“ฑํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๊ฐ€์žฅ ํฐ ํ•œ๊ณ„๋Š” ์†๋„์ž…๋‹ˆ๋‹ค. HTML ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ์‹ค์ œ ๋ธŒ๋ผ์šฐ์ € ์—”์ง„์„ ํ†ตํ•ด ๋ Œ๋”๋งํ•˜๋Š” ๊ณผ์ •์ด ์ถ”๊ฐ€๋˜๊ธฐ ๋•Œ๋ฌธ์—, ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ๋ณด๋‹ค๋Š” ์˜ˆ์ธก ์‹œ๊ฐ„์ด ๋” ์˜ค๋ž˜ ๊ฑธ๋ฆฝ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ฆ‰๊ฐ์ ์ธ ๋ฐ˜์‘์ด ํ•„์š”ํ•œ ํ™˜๊ฒฝ์—์„œ๋Š” ์ง€์—ฐ ์‹œ๊ฐ„(Latency)์ด ๋ณ‘๋ชฉ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, ํ˜„์žฌ๋Š” ์ฃผ๋กœ ์ •์ ์ธ ํ™”๋ฉด ์ „์ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ํŠนํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ์• ๋‹ˆ๋ฉ”์ด์…˜์ด๋‚˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ™”๋ฉด ์ „ํ™˜ ํšจ๊ณผ, ๋™์˜์ƒ ์žฌ์ƒ๊ณผ ๊ฐ™์€ ๋™์  ์š”์†Œ๊ฐ€ ๋งŽ์€ ์•ฑ์—์„œ๋Š” ์ฝ”๋“œ๋งŒ์œผ๋กœ ์™„๋ฒฝํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ Œ๋”๋ง ์†๋„๋ฅผ ์ตœ์ ํ™”ํ•˜๊ณ , ๋” ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ์š”์†Œ๋ฅผ ์ฝ”๋“œ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์„ ๊ฐœ์„ ํ•ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๊ธฐ์ˆ ์€ ์ž์œจ์ฃผํ–‰ ์ž๋™์ฐจ๊ฐ€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•˜๋“ฏ, ์†Œํ”„ํŠธ์›จ์–ด ํ…Œ์ŠคํŠธ ์ž๋™ํ™” ๋ถ„์•ผ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์•ฑ์„ ๋ฐฐํฌํ•˜๊ธฐ ์ „์— AI๊ฐ€ ์ˆ˜์ฒœ ๊ฐ€์ง€ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ฝ”๋“œ ๋ ˆ๋ฒจ์—์„œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜์—ฌ ์น˜๋ช…์ ์ธ ๋ฒ„๊ทธ๋ฅผ ์ฐพ์•„๋‚ด๋Š” โ€˜์˜คํ† ๋งˆ์ด์ €(Auto-patcher)โ€™ ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ AI ๋น„์„œ๋‚˜ ์ฑ—๋ด‡ ๊ฐœ๋ฐœ ์‹œ, ์‚ฌ์šฉ์ž์˜ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์ „์— ๋ฏธ๋ฆฌ ๊ฒฐ๊ณผ ํ™”๋ฉด์„ ๊ทธ๋ ค๋ณด๊ณ  ๋ฌธ์ œ๊ฐ€ ์—†๋Š”์ง€ ํ™•์ธํ•˜๋Š” ์‚ฌ์ „ ๊ฒ€์ฆ ์‹œ์Šคํ…œ์œผ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋„์ž…ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ณ ์„ฑ๋Šฅ GPU๊ฐ€ ํƒ‘์žฌ๋œ ์„œ๋ฒ„ ํ™˜๊ฒฝ์ด ํ•„์š”ํ•˜๋ฉฐ, ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ํ™œ์šฉํ• ้ซ˜่ดจ้‡็š„ GUI ๊ถค์  ๋ฐ์ดํ„ฐ๊ฐ€ ํ™•๋ณด๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ (Vision-Language Model, VLM): ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” AI ๋ชจ๋ธ์˜ ํ•œ ์ข…๋ฅ˜์ž…๋‹ˆ๋‹ค.
  • GUI ์—์ด์ „ํŠธ (GUI Agent): ํ™”๋ฉด์„ ๋ณด๊ณ  ์ธ๊ฐ„์ฒ˜๋Ÿผ ํด๋ฆญํ•˜๊ฑฐ๋‚˜ ์Šคํฌ๋กค ๋“ฑ์˜ ํ–‰๋™์„ ํ†ตํ•ด ์•ฑ์„ ์กฐ์ž‘ํ•˜๋Š” ์ž๋™ํ™” ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
  • ์›”๋“œ ๋ชจ๋ธ (World Model): ํ˜„์žฌ ์ƒํƒœ์™€ ํ–‰๋™์„ ์ž…๋ ฅ๋ฐ›์•„ ๋ฏธ๋ž˜์˜ ์ƒํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํ™˜๊ฒฝ ๋ชจ๋ธ๋กœ, AI๊ฐ€ ๋ฏธ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ†ตํ•ด ๊ณ„ํš์„ ์„ธ์šธ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • HTML/DOM (Document Object Model): ์›นํŽ˜์ด์ง€๋‚˜ ์•ฑ ํ™”๋ฉด์˜ ๊ตฌ์กฐ์™€ ๋‚ด์šฉ์„ ์ฝ”๋“œ๋กœ ํ‘œํ˜„ํ•œ ํ‘œ์ค€์ž…๋‹ˆ๋‹ค.
  • ๊ฐ•ํ™” ํ•™์Šต (Reinforcement Learning, RL): ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ์ง€๋„ ํ•™์Šต ๋ฏธ์„ธ ์กฐ์ • (Supervised Fine-Tuning, SFT): ์ด๋ฏธ ํ•™์Šต๋œ ํฐ ๋ชจ๋ธ์„ ํŠน์ • ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ด ์ถ”๊ฐ€๋กœ ํ•™์Šต์‹œ์ผœ ์›ํ•˜๋Š” ์ž‘์—…์— ํŠนํ™”์‹œํ‚ค๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  • ์•„์›ƒ-์˜ค๋ธŒ-๋””์ŠคํŠธ๋ฆฌ๋ทฐ์…˜ (Out-of-Distribution, OOD): ํ•™์Šต์— ์‚ฌ์šฉ๋˜์ง€ ์•Š์•˜๋˜ ์ƒˆ๋กœ์šด ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ์—์„œ๋„ ๋ชจ๋ธ์ด ์ž˜ ์ž‘๋™ํ•˜๋Š”์ง€๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡OPUS: Towards Efficient and Principโ€ฆDD-021
๐ŸฅˆWeak-Driven Learning: How Weak Agenโ€ฆDD-022
๐Ÿฅ‰TermiGen: High-Fidelity Environmentโ€ฆDD-023
4.Code2World: A GUI World Model via Rโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.The Devil Behind Moltbook: Anthropiโ€ฆDD-025

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-15 | ๐Ÿค– GLM-4.7 Deep Dive