โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-013 EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

arXiv: 2601.15876 ๊ธฐ๊ด€: meituan Upvotes: 89 | Comments: 2 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3

Figure 1


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: EvoCUA (Evolving Computer Use Agents via Learning from Scalable Synthetic Experience)

์š”์•ฝ: ์ •์ ์ธ ๋ฐ์ดํ„ฐ(๋งค๋‰ด์–ผ)๋งŒ ๋ณด๊ณ  ๋ฐฐ์šฐ๋Š” ๊ธฐ์กด AI์™€ ๋‹ฌ๋ฆฌ, ์Šค์Šค๋กœ ๋ฌธ์ œ๋ฅผ ๋งŒ๋“ค๊ณ  ํ’€์–ด๋ณด๋ฉด์„œ(์‹œ๋ฎฌ๋ ˆ์ด์…˜) ์‹ค๋ ฅ์„ ๋Š์ž„์—†์ด่ฟ›ๅŒ–์‹œํ‚ค๋Š” ์ปดํ“จํ„ฐ ์‚ฌ์šฉ ์—์ด์ „ํŠธ(EvoCUA)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์ปดํ“จํ„ฐ ์‚ฌ์šฉ ์—์ด์ „ํŠธ(CUA)๋Š” ์‚ฌ๋žŒ์ด ๋งŒ๋“  **์ •์ ์ธ ๋ฐ์ดํ„ฐ(์Šคํฌ๋ฆฐ์ƒท๊ณผ ๋ช…๋ น์–ด ์Œ)**๋ฅผ ๋‹จ์ˆœํžˆ ๋ชจ๋ฐฉํ•˜๋Š” ๋ฐฉ์‹์— ๊ตญํ•œ๋˜์–ด, ๊ธด ๊ณผ์ •์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ **โ€œ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ํ•ฉ์„ฑ ์—”์ง„โ€**๊ณผ **โ€œ๋Œ€๊ทœ๋ชจ ์ƒŒ๋“œ๋ฐ•์Šค ์ธํ”„๋ผโ€**๋ฅผ ํ†ตํ•ด AI๊ฐ€ ์Šค์Šค๋กœ ์ˆ˜๋งŒ ๋ฒˆ์˜ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๊ฑฐ์น˜๋ฉฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•˜๋Š” ์ˆœํ™˜ ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค์–ด, ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ์„ฑ๋Šฅ์„ ํš๊ธฐ์ ์œผ๋กœ ๋†’์˜€์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿ€ ๋น„์œ : โ€œ๋งค๋‰ด์–ผ๋งŒ ๋ณด๋Š” ํ•™์ƒ vs ์‹ค์ „ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ•˜๋Š” ์„ ์ˆ˜โ€

๊ธฐ์กด AI๋Š” ๋งˆ์น˜ โ€œ์šด์ „ ๋ฉดํ—ˆ ํ•™์› ์ฑ…(์ •์  ๋ฐ์ดํ„ฐ)โ€œ๋งŒ ๋‹ฌ๋‹ฌ ์™ธ์šฐ๋Š” ํ•™์ƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ฑ…์—๋Š” โ€œ์ •์ง€์„ ์— ์„œ๋ผโ€๊ณ  ์ ํ˜€ ์žˆ์ง€๋งŒ, ์‹ค์ œ ๋„๋กœ์—์„œ ๊ฐ‘์ž๊ธฐ ํŠ€์–ด๋‚˜์˜จ ๊ณ ์–‘์ด๋ฅผ ๋ณด๊ณ  ์–ด๋–ป๊ฒŒ ๋ฐ˜์‘ํ•ด์•ผ ํ• ์ง€(์ธ๊ณผ์  ๋™์ ) ๋ชฐ๋ž์Šต๋‹ˆ๋‹ค.

EvoCUA๋Š” **โ€œ๋ฒ„์ถ”์–ผ ๋ฆฌ์–ผ๋ฆฌํ‹ฐ(VR) ๊ฒŒ์ž„ ํŠธ๋ ˆ์ด๋‹์„ ํ•˜๋Š” ํ”„๋กœ๊ฒŒ์ด๋จธโ€**์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. ์Šค์Šค๋กœ ๋ฌธ์ œ ๋งŒ๋“ค๊ธฐ (Verifiable Synthesis Engine): ๊ฒŒ์ž„ ์‹œ์Šคํ…œ์ด โ€œ์ด ๋ฏธ์…˜์„ ํด๋ฆฌ์–ดํ•ด๋ผ(๋ช…๋ น)โ€œ๋ผ๊ณ  ํ•˜๋ฉด์„œ ๋™์‹œ์— โ€œ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์„ฑ๊ณต์ด๋‹ค(๊ฒ€์ฆ๊ธฐ)โ€œ๋ผ๋Š” ํ”„๋กœ๊ทธ๋žจ์„ ๋งŒ๋“ค์–ด์ค๋‹ˆ๋‹ค.
  2. ๋ฌดํ•œ ๋ฐ˜๋ณต ์—ฐ์Šต (Scalable Infrastructure): ์ˆ˜๋งŒ ๋Œ€์˜ ๊ฐ€์ƒ ์ปดํ“จํ„ฐ(์ƒŒ๋“œ๋ฐ•์Šค)์—์„œ ๋™์‹œ์— ๊ฒŒ์ž„์„ ๋Œ๋ฆฝ๋‹ˆ๋‹ค.
  3. ์‹ค๋ ฅ ํ–ฅ์ƒ (Iterative Evolving Learning): ์„ฑ๊ณตํ•œ ํ”Œ๋ ˆ์ด๋Š” ๊ธฐ์–ตํ•˜๊ณ  ์‹คํŒจํ•œ ํ”Œ๋ ˆ์ด๋Š” ํ”ผํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์Šค์Šค๋กœ ์ „๋žต์„่ฟ›ๅŒ–์‹œํ‚ต๋‹ˆ๋‹ค.

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

  1. ๊ตฌ์กฐํ™”๋œ ์ž‘์—… ๊ณต๊ฐ„ ๊ตฌ์ถ• (Structured Task Space Construction)

    • ๋‹จ์ˆœํ•œ ํ…์ŠคํŠธ ์ƒ์„ฑ์ด ์•„๋‹ˆ๋ผ, ์—‘์…€, ์›น ๋ธŒ๋ผ์šฐ์ € ๋“ฑ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜๋ณ„๋กœ ๊ฐ€๋Šฅํ•œ ํ–‰๋™(์›์ž์  ๋Šฅ๋ ฅ)์„ ์ •๋ฆฌํ•ด๋‘ก๋‹ˆ๋‹ค. ์˜ˆ: โ€œ์—‘์…€์—์„œ ์…€ ๋ณ‘ํ•ฉํ•˜๊ธฐโ€, โ€œํฌ๋กฌ์—์„œ ํƒญ ๋‹ซ๊ธฐโ€ ๋“ฑ.
  2. ์—์ด์ „ํŠธ ์ด์ค‘ ์ŠคํŠธ๋ฆผ ํ•ฉ์„ฑ (Agentic Dual-Stream Synthesis)

    • **Task Architect(์„ค๊ณ„์ž AI)**๊ฐ€ ๋‘ ๊ฐ€์ง€๋ฅผ ๋™์‹œ์— ๋งŒ๋“ญ๋‹ˆ๋‹ค:
      • ๋ช…๋ น์–ด ($g$): โ€œํ˜„์žฌ ์—‘์…€ ์‹œํŠธ์˜ A1์—ด์„ ํ•ฉ๊ณ„๋กœ ๊ตฌํ•ด๋ผโ€
      • ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ฒ€์ฆ๊ธฐ ($V_g$): ์‹ค์ œ๋กœ A1์…€์˜ ๊ฐ’์ด SUM() ํ•จ์ˆ˜ ๊ฒฐ๊ณผ์™€ ๊ฐ™์€์ง€ ํ™•์ธํ•˜๋Š” ์ฝ”๋“œ.
    • ์ด๋ฅผ ํ†ตํ•ด AI๊ฐ€ ํ™˜์ƒ์„ ์ผ์œผ์ผœ ๋ถˆ๊ฐ€๋Šฅํ•œ ๋ฏธ์…˜์„ ๋งŒ๋“œ๋Š” ๊ฒƒ(Hallucination)์„ ๋ง‰์Šต๋‹ˆ๋‹ค.
  3. ๊ทœ๋ชจ ์žˆ๋Š” ๊ฒฝํ—˜ ํš๋“ (Scalable Interaction Infrastructure)

    • ๋งŒ๋“ค์–ด์ง„ ๋ฏธ์…˜์„ **QEMU-KVM(๊ฐ€์ƒํ™” ๊ธฐ์ˆ )**์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ˆ˜๋งŒ ๊ฐœ์˜ ๊ฐ€์ƒ ์ปดํ“จํ„ฐ ์ƒŒ๋“œ๋ฐ•์Šค์— ๋™์‹œ์— ๋Œ๋ฆฝ๋‹ˆ๋‹ค. AI๊ฐ€ ๊ฐ€์ƒ ์ปดํ“จํ„ฐ๋ฅผ ๋งˆ์šฐ์Šค๋กœ ํด๋ฆญํ•˜๊ณ  ํ‚ค๋ณด๋“œ๋ฅผ ์ž…๋ ฅํ•˜๋ฉฐ ์ง์ ‘ ์ผ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
  4. ๋ฐ˜๋ณต์  ์ง„ํ™” ํ•™์Šต (Iterative Evolving Learning)

    • ์ˆ˜์ง‘๋œ ์„ฑ๊ณต/์‹คํŒจ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ฒ˜์Œ์—๋Š” 1,000๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋กœ ์‹œ์ž‘(Cold Start)ํ•˜์—ฌ, ์ ์  ์Šค์Šค๋กœ ๊ฒฝํ—˜์„ ์Œ“์•„๊ฐ€๋ฉฐ ๋” ๋ณต์žกํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ“ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ๋ณด์ƒ(Reward)์„ ๋‹จ์ˆœํžˆ โ€œํ…์ŠคํŠธ๊ฐ€ ๋น„์Šทํ•œ๊ฐ€?โ€๋กœ ๋ณด์ง€ ์•Š๊ณ , ๊ฒ€์ฆ๊ธฐ(Validator)๋ฅผ ํ†ต๊ณผํ–ˆ๋Š”๊ฐ€๋กœ ํŒ๋‹จํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

$$ \mathcal{R}_{syn}(s_T; g) $$

  • ์—ฌ๊ธฐ์„œ $s_T$๋Š” ์ž‘์—… ํ›„์˜ ์ตœ์ข… ํ™˜๊ฒฝ ์ƒํƒœ(์ปดํ“จํ„ฐ ํ™”๋ฉด ์ƒํƒœ)์ด๊ณ , $g$๋Š” ๋ช…๋ น์–ด์ž…๋‹ˆ๋‹ค.
  • ์ด ๋ณด์ƒ ์ ์ˆ˜๋Š” ์‚ฌ๋žŒ์ด ์ฃผ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฏธ๋ฆฌ ๋งŒ๋“ค์–ด ๋‘” ๊ฒ€์ฆ๊ธฐ $V_g$๊ฐ€ ์ƒํƒœ๋ฅผ ํ™•์ธํ•˜์—ฌ ์ž๋™์œผ๋กœ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ โ€œGeneration-as-validationโ€ ํŒจ๋Ÿฌ๋‹ค์ž„์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ฐธ๊ณ : ์ œ๊ณต๋œ ํ…์ŠคํŠธ์—๋Š” ๊ตฌ์ฒด์ ์ธ ๋ฒค์น˜๋งˆํฌ ์ˆ˜์น˜(์˜ˆ: 15.2% โ†’ 24.5%)๊ฐ€ ์ƒ๋žต๋˜์–ด ์žˆ์œผ๋‚˜, ๋…ผ๋ฌธ์˜ ์„ค์ •๊ณผ ์„ค๋ช…์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ:

    • Online Agentic Capability: ์‹ค์ œ ํ™˜๊ฒฝ(์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด)์—์„œ ์žฅ๊ธฐ๊ฐ„ ์ž‘์—…(Long-horizon) ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • Offline Grounding: UI ์š”์†Œ(๋ฒ„ํŠผ, ๋ฉ”๋‰ด ๋“ฑ)๋ฅผ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํžˆ ์ดํ•ดํ•˜๊ณ  ์œ„์น˜๋ฅผ ํŒŒ์•…ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • General VLM Capabilities: ์ปดํ“จํ„ฐ ์‚ฌ์šฉ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์ด ๊ธฐ์กด์˜ ์ผ๋ฐ˜์ ์ธ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ์˜ ์ง€๋Šฅ์„ ๋–จ์–ด๋œจ๋ฆฌ์ง€ ์•Š์•˜๋Š”์ง€ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๊ณผ ๋ฐ ํŠน์ด์ :

    • ๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ์งˆ: ์ˆ˜๋งŒ ๊ฐœ์˜ ์ผ์ผ ์„ธ์…˜์„ ํ†ตํ•ด ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ์ƒํ˜ธ์ž‘์šฉ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ๊ธฐ์กด์˜ ์ •์  ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋Š” ์–ป์„ ์ˆ˜ ์—†๋Š” **โ€œ์‹คํŒจ ์‚ฌ๋ก€โ€์™€ โ€œ์„ฑ๊ณต ์‚ฌ๋ก€์˜ ์ธ๊ณผ๊ด€๊ณ„โ€**๋ฅผ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.
    • Cold Start ์„ฑ๊ณต: ์•ฝ 1,000๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๊ถค์ (Trajectory)๋งŒ์œผ๋กœ๋„ ์—์ด์ „ํŠธ๊ฐ€ ์ „์ฒด ํ–‰๋™ ๊ณต๊ฐ„์„ ์ดํ•ดํ•˜๊ณ  ์Šค์Šค๋กœ ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ๋‹ค์กŒ๋‹ค๋Š” ์ ์ด ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ๊ฒ€์ฆ๊ธฐ(Validator)์˜ ์˜์กด์„ฑ: ์ž‘์—…์˜ ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๊ฒ€์ฆ๊ธฐ $V_g$๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ถ”๊ฐ€๋กœ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๊ฒ€์ฆ๊ธฐ์— ๋ฒ„๊ทธ๊ฐ€ ์žˆ๊ฑฐ๋‚˜ ๋ถˆ์™„์ „ํ•˜๋ฉด, AI๋Š” ์ž˜๋ชป๋œ ๊ฒƒ์„ ๋ฐฐ์šฐ๊ฒŒ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(Reward Hacking ์œ„ํ—˜).
  • ์ธํ”„๋ผ ๋น„์šฉ: ์ˆ˜๋งŒ ๊ฐœ์˜ ๊ฐ€์ƒ ๋จธ์‹ (VM)์„ ๋Œ๋ฆฌ๊ณ  ๊ด€๋ฆฌํ•˜๋Š” ์ธํ”„๋ผ ๊ตฌ์ถ• ๋น„์šฉ๊ณผ ๊ธฐ์ˆ ์  ๋‚œ์ด๋„๊ฐ€ ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค. ๊ฐœ์ธ ์—ฐ๊ตฌ์ž๋‚˜ ์†Œ๊ทœ๋ชจ ํšŒ์‚ฌ๊ฐ€ ๋”ฐ๋ผ ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
  • ํ™˜๊ฒฝ์˜ ์ œํ•œ์„ฑ: ํ˜„์žฌ๋Š” ์ฃผ๋กœ ๋ฐ์Šคํฌํƒ‘ ํ™˜๊ฒฝ(์›น, ์˜คํ”ผ์Šค ๋“ฑ)์— ์ง‘์ค‘๋˜์–ด ์žˆ์–ด, ๋ชจ๋ฐ”์ผ ํ™˜๊ฒฝ์ด๋‚˜ 3D ๊ฒŒ์ž„ ๋“ฑ ๋” ๋ณต์žกํ•œ GUI๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์€ ํ–ฅํ›„ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ์ ์šฉ ๊ฐ€๋Šฅ ๋ถ„์•ผ:

    • RPA (Robotic Process Automation): ๊ธฐ์กด RPA๋Š” ๊ทœ์น™์„ ์‚ฌ๋žŒ์ด ์งœ์•ผ ํ–ˆ์ง€๋งŒ, EvoCUA๋Š” โ€œ์ด ์—‘์…€์„ ์ € ์—‘์…€๋กœ ์˜ฎ๊ฒจโ€๋ผ๋Š” ๋ง๋งŒ ํ•˜๋ฉด ์Šค์Šค๋กœ ๋ฐฉ๋ฒ•์„ ์ฐพ์•„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค.
    • SW ํ…Œ์ŠคํŠธ ์ž๋™ํ™”: ์†Œํ”„ํŠธ์›จ์–ด์˜ ๋ฒ„๊ทธ๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด AI๊ฐ€ ์Šค์Šค๋กœ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ํด๋ฆญํ•˜์—ฌ ์‹œ์Šคํ…œ์„ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐœ์ธ ๋น„์„œ: ๋ณต์žกํ•œ ์›น์‚ฌ์ดํŠธ์—์„œ ํ•ญ๊ณต๊ถŒ ์˜ˆ์•ฝ, ํ˜ธํ…” ์˜ˆ์•ฝ ๋“ฑ ๊ธด ์ ˆ์ฐจ๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์„ ์™„์ „ ์ž๋™ํ™”.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค:

    • GPU: ๋Œ€๊ทœ๋ชจ VLM(Vision-Language Model) ํ•™์Šต์„ ์œ„ํ•œ ๊ณ ์‚ฌ์–‘ GPU ํด๋Ÿฌ์Šคํ„ฐ (์˜ˆ: H100/A100).
    • ์„œ๋ฒ„ ์ธํ”„๋ผ: ์ˆ˜๋งŒ ๊ฐœ์˜ ๋™์‹œ ์ ‘์†์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€์ƒํ™” ์„œ๋ฒ„ ํ’€ (KVM ๊ธฐ๋ฐ˜).

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Computer Use Agent (CUA): ํ™”๋ฉด์„ ๋ณด๊ณ (์‹œ๊ฐ) ๋งˆ์šฐ์Šค/ํ‚ค๋ณด๋“œ๋ฅผ ์กฐ์ž‘(ํ–‰๋™)ํ•˜์—ฌ ์ปดํ“จํ„ฐ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” AI ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  2. Reinforcement Learning (RL): ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๊ธฐ๊ณ„ํ•™์Šต์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  3. Sandbox (์ƒŒ๋“œ๋ฐ•์Šค): ์™ธ๋ถ€๋กœ๋ถ€ํ„ฐ ๊ฒฉ๋ฆฌ๋œ ์•ˆ์ „ํ•œ ์‹คํ–‰ ํ™˜๊ฒฝ์œผ๋กœ, ์—ฌ๊ธฐ์„œ๋Š” AI๊ฐ€ ๋งˆ์Œ๊ป ์ปดํ“จํ„ฐ๋ฅผ ๋ถ€์ˆด๋„ ๊ดœ์ฐฎ์€ ๊ฐ€์ƒ ๊ณต๊ฐ„์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  4. VLM (Vision-Language Model): ์ด๋ฏธ์ง€(ํ™”๋ฉด)์™€ ํ…์ŠคํŠธ(๋ช…๋ น)๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๋‹ค์ค‘ ๋ชจ๋ธ AI์ž…๋‹ˆ๋‹ค.
  5. QEMU-KVM: ๋ฆฌ๋ˆ…์Šค ๊ธฐ๋ฐ˜์˜ ๊ฐ€์ƒํ™” ๊ธฐ์ˆ ๋กœ, ์‹ค์ œ ์šด์˜์ฒด์ œ๋ฅผ ๊ฐ€์ƒ๋จธ์‹  ์œ„์—์„œ ์•„์ฃผ ๋น ๋ฅด๊ฒŒ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” ๋„๊ตฌ์ž…๋‹ˆ๋‹ค.
  6. Reward Hacking: AI๊ฐ€ ๋ณด์ƒ์„ ๋ฐ›๊ธฐ ์œ„ํ•ด ์‚ฌ๋žŒ์ด ์˜๋„ํ•˜์ง€ ์•Š์€ ๊ผผ์ˆ˜๋ฅผ ๋ถ€๋ฆฌ๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค (์˜ˆ: ๊ฒŒ์ž„ ์ ์ˆ˜๋ฅผ ์˜ฌ๋ฆฌ๊ธฐ ์œ„ํ•ด ์ ์„ ์ฃฝ์ด๋Š” ๋Œ€์‹  ๋ฒ„๊ทธ๋ฅผ ์ด์šฉํ•ด ์ ์ˆ˜๋งŒ ๋ฌดํ•œ ์ฆ์‹์‹œํ‚ด).
  7. Cold Start: ํ•™์Šต๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฑฐ์˜ ์—†๋Š” ์ƒํƒœ(์ดˆ๊ธฐ ์ƒํƒœ)์—์„œ ์‹œ์Šคํ…œ์„ ๊ตฌ๋™ํ•˜์—ฌ ํ•™์Šต์„ ์‹œ์ž‘ํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Agentic Reasoning for Large Languagโ€ฆDD-011
๐ŸฅˆYour Group-Relative Advantage Is Biโ€ฆDD-012
๐Ÿฅ‰EvoCUA: Evolving Computer Use Agentโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.LLM-in-Sandbox Elicits General Agenโ€ฆDD-014
5.Being-H0.5: Scaling Human-Centric Rโ€ฆDD-015

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive