โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-024 Code2World: A GUI World Model via Renderable Code Generation
arXiv: 2602.09856 ๊ธฐ๊ด: AMAP-ML Upvotes: 186 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 4

Code2World: A GUI World Model via Renderable Code Generation ๋ฆฌ๋ทฐ
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ GUI ์์ด์ ํธ๋ค์ ํ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ฏธ๋ฆฌ ์์ธกํ์ง ๋ชปํด ๋ง์น ๋์ ๊ฐ๊ณ ๊ธธ์ ๊ฑท๋ ๊ฒ์ฒ๋ผ ์ค๋ฅ ์์ ์ด ์ด๋ ต๋ค๋ ์น๋ช ์ ์ธ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ค์ ํ๋ฉด์ ํฝ์ ๋จ์๊ฐ ์๋ ๋ ๋๋ง ๊ฐ๋ฅํ ์ฝ๋(HTML)๋ก ์์ฑํ์ฌ, ๋์ ์๊ฐ์ ํ๋ฆฌํฐ์ ์ ๊ตํ ๊ตฌ์กฐ ์ ์ด๋ฅผ ๋์์ ๋ฌ์ฑํ ์ต์ด์ GUI ์๋ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด AI๊ฐ ์ธ๊ฐ์ฒ๋ผ โ๊ฐ์ ๋ชจ๋์์โ์์ ๋ฏธ๋ฆฌ ์ฐ์ตํด ๋ณผ ์ ์๊ฒ ํ์ฌ, ๊ฒฐ์ ํ์ธ์ด๋ ๋ฐ์ดํฐ ์ญ์ ์ฒ๋ผ ๋๋๋ฆด ์ ์๋ ์ํํ ์์ ์์์ ์ค์๋ฅผ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์๋ฆฌ์ฌ์ ์๋ฆฌ๋ฒ์ ๋น์
๊ธฐ์กด AI๊ฐ ํ๋ฉด์ ์์ธกํ๋ ๋ฐฉ์์ ํ๊ฐ๊ฐ ์บ๋ฒ์ค์ ์ง์ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ ๊ฒ(ํฝ์ ์์ฑ)๊ณผ ๊ฐ์ต๋๋ค. ์ด ๋ฐฉ์์ ์ ์ฒด์ ์ธ ๋ถ์๊ธฐ๋ ๋น์ทํ๊ฒ ๋ง๋ค ์ ์์ด๋, โ๋ฒํผ์ ํ ์คํธ๊ฐ ์ ํํ ๋ฌด์์ธ๊ฐโ๋ โ๋ฒํผ์ด ์ ํํ ์ด๋์ ์์นํด์ผ ํ๋๊ฐโ ๊ฐ์ ๋ํ ์ผ์ ๋ง์ถ๊ธฐ ๋งค์ฐ ์ด๋ ต์ต๋๋ค. Code2World๋ ๋ฌ๋ฆฌ ์๋ฆฌ์ฌ(Browser)๊ฐ ์๋ฒฝํ๊ฒ ์๋ฆฌํ ์ ์๋๋ก ์ ๊ตํ โ์๋ฆฌ๋ฒ(HTML ์ฝ๋)โ์ ์์ฑํด์ฃผ๋ ์ ฐํ ์ญํ ์ ํฉ๋๋ค. ์๋ฆฌ์ฌ๋ ์๋ฆฌ๋ฒ์ ์ ๋ ฅ๋ฐ๊ธฐ๋ง ํ๋ฉด ๋ ๋๊ฐ์ ๋ชจ์์ ์๋ฆฌ(ํ๋ฉด)๋ฅผ ๋ง๋ค์ด๋ด๊ธฐ ๋๋ฌธ์ ๊ตฌ์กฐ๊ฐ ์ ํํ๊ฒ ์ ์ง๋๋ ๊ฒ์ด์ฃ .
๋จ๊ณ๋ณ ๋์ ๊ณผ์
์ด ๋ชจ๋ธ์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๋๋ฉ๋๋ค. ์ฒซ์งธ, AI๋ ํ์ฌ ํ๋ฉด ์คํฌ๋ฆฐ์ท๊ณผ ์ฌ์ฉ์์ ํ๋(์: โ๋ก๊ทธ์ธ ๋ฒํผ ํด๋ฆญโ)์ ๋ณด๊ณ , ๋ค์ ํ๋ฉด์ด ์ด๋ป๊ฒ ๊ตฌ์ฑ๋์ด์ผ ํ ์ง HTML ์ฝ๋๋ก ์์ฑํฉ๋๋ค. ์ด๋ ๋จ์ํ ๋น์ทํ๊ฒ ๋ณด์ด๋ ์ฝ๋๋ฅผ ์ง๋ ๊ฒ์ด ์๋๋ผ, ์ค์ ๋ธ๋ผ์ฐ์ ์์ ๋ฌธ์ ์์ด ์คํ๋๋๋ก ์๊ฒฉํ ๋ฌธ๋ฒ์ ๋ฐ๋ฆ ๋๋ค. ๋์งธ, ์์ฑ๋ ์ฝ๋๋ ๋ธ๋ผ์ฐ์ ๋ผ๋ ๋ ๋๋ง ์์ง์ ํตํด ์ค์ ์ด๋ฏธ์ง๋ก ๋ณํ๋ฉ๋๋ค. ํฝ์ ์ ์ง์ ์ฐ์ด๋ด๋ ๊ฒ์ด ์๋๋ผ ๊ตฌ์กฐ์ ์ธ ์ฝ๋๋ฅผ ์ง๊ณ ์ด๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ๋ฐ๊พธ๊ธฐ ๋๋ฌธ์ ๊ธ์๊ฐ ๊นจ์ง๊ฑฐ๋ ๋ฒํผ์ด ์๋ค์ด์ง๋ ์ผ์ด ๊ฑฐ์ ์์ต๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์์
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ํ ์ ์ด๋ฅผ ์ฝ๋ ์์ฑ๊ณผ ๋ ๋๋ง์ ๊ฒฐํฉ์ผ๋ก ์ ์ํ๋ค๋ ์ ์ ๋๋ค. ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
$$ \hat{C}{t+1} = \mathcal{M}{\theta}(I_t, a_t, \mathcal{G}), \quad \hat{I}{t+1} = \mathcal{R}(\hat{C}{t+1}) $$
์ฌ๊ธฐ์ $\mathcal{M}{\theta}$๋ AI ๋ชจ๋ธ์ด๊ณ , $I_t$๋ ํ์ฌ ํ๋ฉด, $a_t$๋ ํ๋, $\mathcal{G}$๋ ๋ชฉํ์ ๋๋ค. ๋ชจ๋ธ์ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ์ํ์ ์ฝ๋ $\hat{C}{t+1}$์ ๋ง๋ค์ด๋ ๋๋ค. ์ดํ ๋ ๋๋ง ์์ง $\mathcal{R}$์ด ์ด ์ฝ๋๋ฅผ ๋ฐ์ ์ต์ข ์ ์ผ๋ก ์ฐ๋ฆฌ ๋์ ๋ณด์ด๋ ๋ค์ ํ๋ฉด ์ด๋ฏธ์ง $\hat{I}_{t+1}$์ ํ์ ์ ์ผ๋ก ๋ง๋ค์ด๋ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ์ค์ ์๋๋ก์ด๋ ๊ธฐ๊ธฐ ๋ฐ์ดํฐ์ ์ธ Android Control(In-Distribution)๊ณผ ํ์ตํ์ง ์์ ์ฑ๊ณผ ๊ธฐ๊ธฐ์์์ ์ฑ๋ฅ์ ํ ์คํธํ๋ GUI Odyssey(Out-of-Distribution) ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ๊ธฐ์กด์ ๊ฐ๋ ฅํ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ(์: FLUX, SDXL)์ด๋ ํ ์คํธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋, Code2World๋ ๋ชจ๋ ์งํ์์ ์๋์ ์ธ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก ๋ณด๋ฉด, Android Control ๋ฐ์ดํฐ์ ์์ ๊ธฐ๋ฅ์ ๋ ผ๋ฆฌ ์ ํ๋(Action Adherence) ๊ด๋ จ ์งํ์์ ์ฝ 95% ์ด์์ ๋งค์ฐ ๋์ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์์ฑํ ํ๋ฉด์ด ์ฌ์ฉ์์ ํ๋์ ๋ฐ๋ผ ๋ ผ๋ฆฌ์ ์ผ๋ก ์๋ฒฝํ๊ฒ ๋ฐ์ํ๋ค๋ ๋ป์ ๋๋ค. ํนํ ์๊ฐ์ ํ์ง ์ธก๋ฉด์์๋ ๊ธฐ์กด ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ค์ด ํํ ์ ์ง๋ฅด๋ โํ ์คํธ ๊นจ์งโ ํ์ ์์ด, ๋ ์ด์์ ์ ์ฌ๋(Layout Similarity)์ ์์ ์ ์ฌ๋(Element Similarity) ๋ฉด์์ ํฐ ์ฐ์๋ฅผ ์ ํ์ต๋๋ค. ๊ฐ์ฅ ์ธ์์ ์ธ ๋ถ๋ถ์ GUI Odyssey(OOD) ํ ์คํธ์์, ํ์ตํ ์ ์๋ ์๋ก์ด ์ฑ ํ๊ฒฝ์์๋ ๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํด ์๋ฑํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค๋ ์ ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๊ฐ์ฅ ํฐ ํ๊ณ๋ ์๋์ ๋๋ค. HTML ์ฝ๋๋ฅผ ์์ฑํ๊ณ ์ด๋ฅผ ์ค์ ๋ธ๋ผ์ฐ์ ์์ง์ ํตํด ๋ ๋๋งํ๋ ๊ณผ์ ์ด ์ถ๊ฐ๋๊ธฐ ๋๋ฌธ์, ๋จ์ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ๋ณด๋ค๋ ์์ธก ์๊ฐ์ด ๋ ์ค๋ ๊ฑธ๋ฆฝ๋๋ค. ๋ฐ๋ผ์ ์ค์๊ฐ์ผ๋ก ์ฆ๊ฐ์ ์ธ ๋ฐ์์ด ํ์ํ ํ๊ฒฝ์์๋ ์ง์ฐ ์๊ฐ(Latency)์ด ๋ณ๋ชฉ์ด ๋ ์ ์์ต๋๋ค.
๋ํ, ํ์ฌ๋ ์ฃผ๋ก ์ ์ ์ธ ํ๋ฉด ์ ์ด๋ฅผ ์์ธกํ๋ ๋ฐ ํนํ๋์ด ์์ต๋๋ค. ๋ณต์กํ ์ ๋๋ฉ์ด์ ์ด๋ ์์ฐ์ค๋ฌ์ด ํ๋ฉด ์ ํ ํจ๊ณผ, ๋์์ ์ฌ์๊ณผ ๊ฐ์ ๋์ ์์๊ฐ ๋ง์ ์ฑ์์๋ ์ฝ๋๋ง์ผ๋ก ์๋ฒฝํ ์๋ฎฌ๋ ์ด์ ์ด ์ด๋ ค์ธ ์ ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋ ๋๋ง ์๋๋ฅผ ์ต์ ํํ๊ณ , ๋ ๋ณต์กํ ๋ฉํฐ๋ฏธ๋์ด ์์๋ฅผ ์ฝ๋๋ก ํํํ๋ ๋ฐฉ์์ ๊ฐ์ ํด์ผ ํ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ์์จ์ฃผํ ์๋์ฐจ๊ฐ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํด ํ์ตํ๋ฏ, ์ํํธ์จ์ด ํ ์คํธ ์๋ํ ๋ถ์ผ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์ค์ ์ฑ์ ๋ฐฐํฌํ๊ธฐ ์ ์ AI๊ฐ ์์ฒ ๊ฐ์ง ์๋๋ฆฌ์ค๋ฅผ ์ฝ๋ ๋ ๋ฒจ์์ ์๋ฎฌ๋ ์ด์ ํ์ฌ ์น๋ช ์ ์ธ ๋ฒ๊ทธ๋ฅผ ์ฐพ์๋ด๋ โ์คํ ๋ง์ด์ (Auto-patcher)โ ์ญํ ์ ํ ์ ์์ต๋๋ค.
๋ํ AI ๋น์๋ ์ฑ๋ด ๊ฐ๋ฐ ์, ์ฌ์ฉ์์ ์์ฒญ์ ์ฒ๋ฆฌํ๊ธฐ ์ ์ ๋ฏธ๋ฆฌ ๊ฒฐ๊ณผ ํ๋ฉด์ ๊ทธ๋ ค๋ณด๊ณ ๋ฌธ์ ๊ฐ ์๋์ง ํ์ธํ๋ ์ฌ์ ๊ฒ์ฆ ์์คํ ์ผ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค. ๋์ ํ๊ธฐ ์ํด์๋ ๊ณ ์ฑ๋ฅ GPU๊ฐ ํ์ฌ๋ ์๋ฒ ํ๊ฒฝ์ด ํ์ํ๋ฉฐ, ํ์ต ๋ฐ์ดํฐ๋ก ํ์ฉํ ้ซ่ดจ้็ GUI ๊ถค์ ๋ฐ์ดํฐ๊ฐ ํ๋ณด๋์ด์ผ ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๋น์ -์ธ์ด ๋ชจ๋ธ (Vision-Language Model, VLM): ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ AI ๋ชจ๋ธ์ ํ ์ข ๋ฅ์ ๋๋ค.
- GUI ์์ด์ ํธ (GUI Agent): ํ๋ฉด์ ๋ณด๊ณ ์ธ๊ฐ์ฒ๋ผ ํด๋ฆญํ๊ฑฐ๋ ์คํฌ๋กค ๋ฑ์ ํ๋์ ํตํด ์ฑ์ ์กฐ์ํ๋ ์๋ํ ์์คํ ์ ๋๋ค.
- ์๋ ๋ชจ๋ธ (World Model): ํ์ฌ ์ํ์ ํ๋์ ์ ๋ ฅ๋ฐ์ ๋ฏธ๋์ ์ํ๋ฅผ ์์ธกํ๋ ํ๊ฒฝ ๋ชจ๋ธ๋ก, AI๊ฐ ๋ฏธ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ํตํด ๊ณํ์ ์ธ์ธ ์ ์๊ฒ ํฉ๋๋ค.
- HTML/DOM (Document Object Model): ์นํ์ด์ง๋ ์ฑ ํ๋ฉด์ ๊ตฌ์กฐ์ ๋ด์ฉ์ ์ฝ๋๋ก ํํํ ํ์ค์ ๋๋ค.
- ๊ฐํ ํ์ต (Reinforcement Learning, RL): ์ํ์ฐฉ์ค๋ฅผ ํตํด ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉ๋ฒ์ ์ค์ค๋ก ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ฐฉ์์ ๋๋ค.
- ์ง๋ ํ์ต ๋ฏธ์ธ ์กฐ์ (Supervised Fine-Tuning, SFT): ์ด๋ฏธ ํ์ต๋ ํฐ ๋ชจ๋ธ์ ํน์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด ์ถ๊ฐ๋ก ํ์ต์์ผ ์ํ๋ ์์ ์ ํนํ์ํค๋ ๊ณผ์ ์ ๋๋ค.
- ์์-์ค๋ธ-๋์คํธ๋ฆฌ๋ทฐ์ (Out-of-Distribution, OOD): ํ์ต์ ์ฌ์ฉ๋์ง ์์๋ ์๋ก์ด ์ข ๋ฅ์ ๋ฐ์ดํฐ์์๋ ๋ชจ๋ธ์ด ์ ์๋ํ๋์ง๋ฅผ ์๋ฏธํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | OPUS: Towards Efficient and Principโฆ | DD-021 |
| ๐ฅ | Weak-Driven Learning: How Weak Agenโฆ | DD-022 |
| ๐ฅ | TermiGen: High-Fidelity Environmentโฆ | DD-023 |
| 4. | Code2World: A GUI World Model via Rโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | The Devil Behind Moltbook: Anthropiโฆ | DD-025 |
๐ ์์ฑ์ผ: 2026-02-15 | ๐ค GLM-4.7 Deep Dive