โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-013 EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
arXiv: 2601.15876 ๊ธฐ๊ด: meituan Upvotes: 89 | Comments: 2 ์์: ์ด๋ฒ ์ฃผ Top 3

๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: EvoCUA (Evolving Computer Use Agents via Learning from Scalable Synthetic Experience)
์์ฝ: ์ ์ ์ธ ๋ฐ์ดํฐ(๋งค๋ด์ผ)๋ง ๋ณด๊ณ ๋ฐฐ์ฐ๋ ๊ธฐ์กด AI์ ๋ฌ๋ฆฌ, ์ค์ค๋ก ๋ฌธ์ ๋ฅผ ๋ง๋ค๊ณ ํ์ด๋ณด๋ฉด์(์๋ฎฌ๋ ์ด์ ) ์ค๋ ฅ์ ๋์์์ด่ฟๅ์ํค๋ ์ปดํจํฐ ์ฌ์ฉ ์์ด์ ํธ(EvoCUA)๋ฅผ ์ ์ํฉ๋๋ค.
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ปดํจํฐ ์ฌ์ฉ ์์ด์ ํธ(CUA)๋ ์ฌ๋์ด ๋ง๋ **์ ์ ์ธ ๋ฐ์ดํฐ(์คํฌ๋ฆฐ์ท๊ณผ ๋ช ๋ น์ด ์)**๋ฅผ ๋จ์ํ ๋ชจ๋ฐฉํ๋ ๋ฐฉ์์ ๊ตญํ๋์ด, ๊ธด ๊ณผ์ ์ด ํ์ํ ์์ ์์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ **โ๊ฒ์ฆ ๊ฐ๋ฅํ ํฉ์ฑ ์์งโ**๊ณผ **โ๋๊ท๋ชจ ์๋๋ฐ์ค ์ธํ๋ผโ**๋ฅผ ํตํด AI๊ฐ ์ค์ค๋ก ์๋ง ๋ฒ์ ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์น๋ฉฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ์ ์ฑ ์ ์ต์ ํํ๋ ์ํ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด, ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ๋์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ ๋น์ : โ๋งค๋ด์ผ๋ง ๋ณด๋ ํ์ vs ์ค์ ์๋ฎฌ๋ ์ด์ ์ ํ๋ ์ ์โ
๊ธฐ์กด AI๋ ๋ง์น โ์ด์ ๋ฉดํ ํ์ ์ฑ (์ ์ ๋ฐ์ดํฐ)โ๋ง ๋ฌ๋ฌ ์ธ์ฐ๋ ํ์๊ณผ ๊ฐ์ต๋๋ค. ์ฑ ์๋ โ์ ์ง์ ์ ์๋ผโ๊ณ ์ ํ ์์ง๋ง, ์ค์ ๋๋ก์์ ๊ฐ์๊ธฐ ํ์ด๋์จ ๊ณ ์์ด๋ฅผ ๋ณด๊ณ ์ด๋ป๊ฒ ๋ฐ์ํด์ผ ํ ์ง(์ธ๊ณผ์ ๋์ ) ๋ชฐ๋์ต๋๋ค.
EvoCUA๋ **โ๋ฒ์ถ์ผ ๋ฆฌ์ผ๋ฆฌํฐ(VR) ๊ฒ์ ํธ๋ ์ด๋์ ํ๋ ํ๋ก๊ฒ์ด๋จธโ**์ ๊ฐ์ต๋๋ค.
- ์ค์ค๋ก ๋ฌธ์ ๋ง๋ค๊ธฐ (Verifiable Synthesis Engine): ๊ฒ์ ์์คํ ์ด โ์ด ๋ฏธ์ ์ ํด๋ฆฌ์ดํด๋ผ(๋ช ๋ น)โ๋ผ๊ณ ํ๋ฉด์ ๋์์ โ์ด๋ ๊ฒ ํ๋ฉด ์ฑ๊ณต์ด๋ค(๊ฒ์ฆ๊ธฐ)โ๋ผ๋ ํ๋ก๊ทธ๋จ์ ๋ง๋ค์ด์ค๋๋ค.
- ๋ฌดํ ๋ฐ๋ณต ์ฐ์ต (Scalable Infrastructure): ์๋ง ๋์ ๊ฐ์ ์ปดํจํฐ(์๋๋ฐ์ค)์์ ๋์์ ๊ฒ์์ ๋๋ฆฝ๋๋ค.
- ์ค๋ ฅ ํฅ์ (Iterative Evolving Learning): ์ฑ๊ณตํ ํ๋ ์ด๋ ๊ธฐ์ตํ๊ณ ์คํจํ ํ๋ ์ด๋ ํผํ๋ ๋ฐฉ์์ผ๋ก ์ค์ค๋ก ์ ๋ต์่ฟๅ์ํต๋๋ค.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
-
๊ตฌ์กฐํ๋ ์์ ๊ณต๊ฐ ๊ตฌ์ถ (Structured Task Space Construction)
- ๋จ์ํ ํ ์คํธ ์์ฑ์ด ์๋๋ผ, ์์ , ์น ๋ธ๋ผ์ฐ์ ๋ฑ ์ ํ๋ฆฌ์ผ์ด์ ๋ณ๋ก ๊ฐ๋ฅํ ํ๋(์์์ ๋ฅ๋ ฅ)์ ์ ๋ฆฌํด๋ก๋๋ค. ์: โ์์ ์์ ์ ๋ณํฉํ๊ธฐโ, โํฌ๋กฌ์์ ํญ ๋ซ๊ธฐโ ๋ฑ.
-
์์ด์ ํธ ์ด์ค ์คํธ๋ฆผ ํฉ์ฑ (Agentic Dual-Stream Synthesis)
- **Task Architect(์ค๊ณ์ AI)**๊ฐ ๋ ๊ฐ์ง๋ฅผ ๋์์ ๋ง๋ญ๋๋ค:
- ๋ช ๋ น์ด ($g$): โํ์ฌ ์์ ์ํธ์ A1์ด์ ํฉ๊ณ๋ก ๊ตฌํด๋ผโ
- ์คํ ๊ฐ๋ฅํ ๊ฒ์ฆ๊ธฐ ($V_g$): ์ค์ ๋ก A1์
์ ๊ฐ์ด
SUM()ํจ์ ๊ฒฐ๊ณผ์ ๊ฐ์์ง ํ์ธํ๋ ์ฝ๋.
- ์ด๋ฅผ ํตํด AI๊ฐ ํ์์ ์ผ์ผ์ผ ๋ถ๊ฐ๋ฅํ ๋ฏธ์ ์ ๋ง๋๋ ๊ฒ(Hallucination)์ ๋ง์ต๋๋ค.
- **Task Architect(์ค๊ณ์ AI)**๊ฐ ๋ ๊ฐ์ง๋ฅผ ๋์์ ๋ง๋ญ๋๋ค:
-
๊ท๋ชจ ์๋ ๊ฒฝํ ํ๋ (Scalable Interaction Infrastructure)
- ๋ง๋ค์ด์ง ๋ฏธ์ ์ **QEMU-KVM(๊ฐ์ํ ๊ธฐ์ )**์ ๊ธฐ๋ฐ์ผ๋ก ํ ์๋ง ๊ฐ์ ๊ฐ์ ์ปดํจํฐ ์๋๋ฐ์ค์ ๋์์ ๋๋ฆฝ๋๋ค. AI๊ฐ ๊ฐ์ ์ปดํจํฐ๋ฅผ ๋ง์ฐ์ค๋ก ํด๋ฆญํ๊ณ ํค๋ณด๋๋ฅผ ์ ๋ ฅํ๋ฉฐ ์ง์ ์ผ์ ์ํํฉ๋๋ค.
-
๋ฐ๋ณต์ ์งํ ํ์ต (Iterative Evolving Learning)
- ์์ง๋ ์ฑ๊ณต/์คํจ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ฒ์์๋ 1,000๊ฐ์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ก ์์(Cold Start)ํ์ฌ, ์ ์ ์ค์ค๋ก ๊ฒฝํ์ ์์๊ฐ๋ฉฐ ๋ ๋ณต์กํ ์์ ์ ์ํํ ์ ์๊ฒ ๋ฉ๋๋ค.
๐ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ๋ณด์(Reward)์ ๋จ์ํ โํ ์คํธ๊ฐ ๋น์ทํ๊ฐ?โ๋ก ๋ณด์ง ์๊ณ , ๊ฒ์ฆ๊ธฐ(Validator)๋ฅผ ํต๊ณผํ๋๊ฐ๋ก ํ๋จํ๋ค๋ ์ ์ ๋๋ค.
$$ \mathcal{R}_{syn}(s_T; g) $$
- ์ฌ๊ธฐ์ $s_T$๋ ์์ ํ์ ์ต์ข ํ๊ฒฝ ์ํ(์ปดํจํฐ ํ๋ฉด ์ํ)์ด๊ณ , $g$๋ ๋ช ๋ น์ด์ ๋๋ค.
- ์ด ๋ณด์ ์ ์๋ ์ฌ๋์ด ์ฃผ๋ ๊ฒ์ด ์๋๋ผ, ๋ฏธ๋ฆฌ ๋ง๋ค์ด ๋ ๊ฒ์ฆ๊ธฐ $V_g$๊ฐ ์ํ๋ฅผ ํ์ธํ์ฌ ์๋์ผ๋ก ๋ถ์ฌํฉ๋๋ค. ์ด๋ฅผ โGeneration-as-validationโ ํจ๋ฌ๋ค์์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐธ๊ณ : ์ ๊ณต๋ ํ ์คํธ์๋ ๊ตฌ์ฒด์ ์ธ ๋ฒค์น๋งํฌ ์์น(์: 15.2% โ 24.5%)๊ฐ ์๋ต๋์ด ์์ผ๋, ๋ ผ๋ฌธ์ ์ค์ ๊ณผ ์ค๋ช ์ ๋ฐํ์ผ๋ก ๋ถ์ํ์ต๋๋ค.
-
ํ ์คํธ ๋ฒค์น๋งํฌ:
- Online Agentic Capability: ์ค์ ํ๊ฒฝ(์ค์ ์ํํธ์จ์ด)์์ ์ฅ๊ธฐ๊ฐ ์์ (Long-horizon) ์ํ ๋ฅ๋ ฅ์ ํ๊ฐํ์ต๋๋ค.
- Offline Grounding: UI ์์(๋ฒํผ, ๋ฉ๋ด ๋ฑ)๋ฅผ ์ผ๋ง๋ ์ ํํ ์ดํดํ๊ณ ์์น๋ฅผ ํ์ ํ๋์ง ํ๊ฐํฉ๋๋ค.
- General VLM Capabilities: ์ปดํจํฐ ์ฌ์ฉ ๋ฅ๋ ฅ ํฅ์์ด ๊ธฐ์กด์ ์ผ๋ฐ์ ์ธ ์๊ฐ-์ธ์ด ๋ชจ๋ธ์ ์ง๋ฅ์ ๋จ์ด๋จ๋ฆฌ์ง ์์๋์ง ํ์ธํ์ต๋๋ค.
-
์ฑ๊ณผ ๋ฐ ํน์ด์ :
- ๋ฐ์ดํฐ์ ์๊ณผ ์ง: ์๋ง ๊ฐ์ ์ผ์ผ ์ธ์ ์ ํตํด ์๋ฐฑ๋ง ๊ฐ์ ์ํธ์์ฉ ์์ฒญ์ ์ฒ๋ฆฌํ๋ฉฐ, ๊ธฐ์กด์ ์ ์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ ์ป์ ์ ์๋ **โ์คํจ ์ฌ๋กโ์ โ์ฑ๊ณต ์ฌ๋ก์ ์ธ๊ณผ๊ด๊ณโ**๋ฅผ ํ์ต ๋ฐ์ดํฐ๋ก ํ๋ณดํ์ต๋๋ค.
- Cold Start ์ฑ๊ณต: ์ฝ 1,000๊ฐ์ ๊ณ ํ์ง ๊ถค์ (Trajectory)๋ง์ผ๋ก๋ ์์ด์ ํธ๊ฐ ์ ์ฒด ํ๋ ๊ณต๊ฐ์ ์ดํดํ๊ณ ์ค์ค๋ก ๋ฐ์ ํ ์ ์๋ ๊ธฐ๋ฐ์ ๋ค์ก๋ค๋ ์ ์ด ์ฃผ๋ชฉํ ๋งํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๊ฒ์ฆ๊ธฐ(Validator)์ ์์กด์ฑ: ์์ ์ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๊ฒ์ฆ๊ธฐ $V_g$๋ฅผ ๋ง๋๋ ๊ฒ์ด ์ถ๊ฐ๋ก ํ์ํฉ๋๋ค. ๋ง์ฝ ๊ฒ์ฆ๊ธฐ์ ๋ฒ๊ทธ๊ฐ ์๊ฑฐ๋ ๋ถ์์ ํ๋ฉด, AI๋ ์๋ชป๋ ๊ฒ์ ๋ฐฐ์ฐ๊ฒ ๋ ์ ์์ต๋๋ค(Reward Hacking ์ํ).
- ์ธํ๋ผ ๋น์ฉ: ์๋ง ๊ฐ์ ๊ฐ์ ๋จธ์ (VM)์ ๋๋ฆฌ๊ณ ๊ด๋ฆฌํ๋ ์ธํ๋ผ ๊ตฌ์ถ ๋น์ฉ๊ณผ ๊ธฐ์ ์ ๋์ด๋๊ฐ ๋งค์ฐ ๋์ต๋๋ค. ๊ฐ์ธ ์ฐ๊ตฌ์๋ ์๊ท๋ชจ ํ์ฌ๊ฐ ๋ฐ๋ผ ํ๊ธฐ ์ด๋ ต์ต๋๋ค.
- ํ๊ฒฝ์ ์ ํ์ฑ: ํ์ฌ๋ ์ฃผ๋ก ๋ฐ์คํฌํ ํ๊ฒฝ(์น, ์คํผ์ค ๋ฑ)์ ์ง์ค๋์ด ์์ด, ๋ชจ๋ฐ์ผ ํ๊ฒฝ์ด๋ 3D ๊ฒ์ ๋ฑ ๋ ๋ณต์กํ GUI๋ก ํ์ฅํ๋ ๊ฒ์ ํฅํ ๊ณผ์ ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
-
์ ์ฉ ๊ฐ๋ฅ ๋ถ์ผ:
- RPA (Robotic Process Automation): ๊ธฐ์กด RPA๋ ๊ท์น์ ์ฌ๋์ด ์ง์ผ ํ์ง๋ง, EvoCUA๋ โ์ด ์์ ์ ์ ์์ ๋ก ์ฎ๊ฒจโ๋ผ๋ ๋ง๋ง ํ๋ฉด ์ค์ค๋ก ๋ฐฉ๋ฒ์ ์ฐพ์ ์คํํฉ๋๋ค.
- SW ํ ์คํธ ์๋ํ: ์ํํธ์จ์ด์ ๋ฒ๊ทธ๋ฅผ ์ฐพ๊ธฐ ์ํด AI๊ฐ ์ค์ค๋ก ๋ค์ํ ์๋๋ฆฌ์ค๋ฅผ ์์ฑํ๊ณ ํด๋ฆญํ์ฌ ์์คํ ์ ํ ์คํธํ ์ ์์ต๋๋ค.
- ๊ฐ์ธ ๋น์: ๋ณต์กํ ์น์ฌ์ดํธ์์ ํญ๊ณต๊ถ ์์ฝ, ํธํ ์์ฝ ๋ฑ ๊ธด ์ ์ฐจ๊ฐ ํ์ํ ์์ ์ ์์ ์๋ํ.
-
ํ์ํ ๋ฆฌ์์ค:
- GPU: ๋๊ท๋ชจ VLM(Vision-Language Model) ํ์ต์ ์ํ ๊ณ ์ฌ์ GPU ํด๋ฌ์คํฐ (์: H100/A100).
- ์๋ฒ ์ธํ๋ผ: ์๋ง ๊ฐ์ ๋์ ์ ์์ ์ฒ๋ฆฌํ ์ ์๋ ๊ฐ์ํ ์๋ฒ ํ (KVM ๊ธฐ๋ฐ).
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Computer Use Agent (CUA): ํ๋ฉด์ ๋ณด๊ณ (์๊ฐ) ๋ง์ฐ์ค/ํค๋ณด๋๋ฅผ ์กฐ์(ํ๋)ํ์ฌ ์ปดํจํฐ ์์ ์ ์ํํ๋ AI ๋ชจ๋ธ์ ๋๋ค.
- Reinforcement Learning (RL): ์ํ์ฐฉ์ค๋ฅผ ํตํด ๋ณด์์ ์ต๋ํํ๋ ์ ์ฑ ์ ํ์ตํ๋ ๊ธฐ๊ณํ์ต์ ํ ๋ถ์ผ์ ๋๋ค.
- Sandbox (์๋๋ฐ์ค): ์ธ๋ถ๋ก๋ถํฐ ๊ฒฉ๋ฆฌ๋ ์์ ํ ์คํ ํ๊ฒฝ์ผ๋ก, ์ฌ๊ธฐ์๋ AI๊ฐ ๋ง์๊ป ์ปดํจํฐ๋ฅผ ๋ถ์ด๋ ๊ด์ฐฎ์ ๊ฐ์ ๊ณต๊ฐ์ ์๋ฏธํฉ๋๋ค.
- VLM (Vision-Language Model): ์ด๋ฏธ์ง(ํ๋ฉด)์ ํ ์คํธ(๋ช ๋ น)๋ฅผ ๋์์ ์ดํดํ๊ณ ์ฒ๋ฆฌํ๋ ๋ค์ค ๋ชจ๋ธ AI์ ๋๋ค.
- QEMU-KVM: ๋ฆฌ๋ ์ค ๊ธฐ๋ฐ์ ๊ฐ์ํ ๊ธฐ์ ๋ก, ์ค์ ์ด์์ฒด์ ๋ฅผ ๊ฐ์๋จธ์ ์์์ ์์ฃผ ๋น ๋ฅด๊ฒ ์คํํ ์ ์๊ฒ ํด์ฃผ๋ ๋๊ตฌ์ ๋๋ค.
- Reward Hacking: AI๊ฐ ๋ณด์์ ๋ฐ๊ธฐ ์ํด ์ฌ๋์ด ์๋ํ์ง ์์ ๊ผผ์๋ฅผ ๋ถ๋ฆฌ๋ ํ์์ ๋๋ค (์: ๊ฒ์ ์ ์๋ฅผ ์ฌ๋ฆฌ๊ธฐ ์ํด ์ ์ ์ฃฝ์ด๋ ๋์ ๋ฒ๊ทธ๋ฅผ ์ด์ฉํด ์ ์๋ง ๋ฌดํ ์ฆ์์ํด).
- Cold Start: ํ์ต๋ ๋ฐ์ดํฐ๊ฐ ๊ฑฐ์ ์๋ ์ํ(์ด๊ธฐ ์ํ)์์ ์์คํ ์ ๊ตฌ๋ํ์ฌ ํ์ต์ ์์ํ๋ ๋จ๊ณ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Agentic Reasoning for Large Languagโฆ | DD-011 |
| ๐ฅ | Your Group-Relative Advantage Is Biโฆ | DD-012 |
| ๐ฅ | EvoCUA: Evolving Computer Use Agentโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | LLM-in-Sandbox Elicits General Agenโฆ | DD-014 |
| 5. | Being-H0.5: Scaling Human-Centric Rโฆ | DD-015 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive