โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-009 Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

arXiv: 2601.05432 ๊ธฐ๊ด€: alibaba-inc Upvotes: 165 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4

Figure 1


Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization (Paper Review)

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

์ด ๋…ผ๋ฌธ์€ ์ด๋ฏธ์ง€ ์ง€์˜ค๋กœ์ปฌ๋ฆฌ์ œ์ด์…˜(์‚ฌ์ง„์˜ ์ดฌ์˜ ์œ„์น˜ ์ถ”์ •) ์ž‘์—…์—์„œ ๊ธฐ์กด LVLM(๋Œ€ํ˜• ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ)๋“ค์ด ๊ฐ€์ง„ โ€œ์™ธ๋ถ€ ๋„๊ตฌ ํ™œ์šฉ ๋ถ€์žฌโ€๋ผ๋Š” ๊ฒฐ์ •์ ์ธ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ AI ์—์ด์ „ํŠธ๊ฐ€ ๋‹จ์ˆœํžˆ ๊ธฐ์–ต๋ ฅ์— ์˜์กดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ง€๋„๋ฅผ ํŽด๋†“๊ณ  โ€œ๊ฐ€์„ค ์ œ์‹œ โ†’ ์ง€๋„ ๊ฒ€์ƒ‰ โ†’ ๊ต์ฐจ ๊ฒ€์ฆโ€์˜ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉฐ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š” โ€˜Thinking with Mapโ€™ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ตœ์ดˆ๋กœ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿ•ต๏ธโ€โ™‚๏ธ ์ผ์ƒ์ƒํ™œ ๋น„์œ : ํƒ์ •์˜ ์ˆ˜์‚ฌ

๊ธฐ์กด AI๋Š” ๋งˆ์น˜ ์™ธํŒ์›์ฒ˜๋Ÿผ ์‚ฌ์ง„์„ ๋ณด๊ณ  โ€œ๋‚œ ์ด ๊ฑด๋ฌผ์„ ๋ดค์–ด, ํŒŒ๋ฆฌ์— ์žˆ์–ด!โ€๋ผ๊ณ  ๋‹จ์ˆœํžˆ ์•”๊ธฐ์— ์˜์กดํ•ด ๋‹ต์„ ๋งž์ถ”๋ ค ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋…ผ๋ฌธ์˜ AI๋Š” **โ€˜๋ช…ํƒ์ •โ€™**๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. ์‚ฌ์ง„ ์†์— ๋‚ฏ์„  ๊ฐ„ํŒ๊ณผ ๊ฑด์ถ• ์–‘์‹์ด ๋ณด์ž…๋‹ˆ๋‹ค.
  2. ํƒ์ •์€ โ€œ์ด๊ณณ์ด ๋„์ฟ„์ผ๊นŒ?โ€๋ผ๊ณ  ๊ฐ€์„ค(๊ฐ€์„ค ์ œ์‹œ)์„ ์„ธ์›๋‹ˆ๋‹ค.
  3. ์ง€๋„ ์•ฑ์„ ์ผœ๊ณ  ํ•ด๋‹น ์œ„์น˜์˜ ๊ฐ„ํŒ๊ณผ ๊ฑด๋ฌผ์„ ๊ฒ€์ƒ‰(์ง€๋„ ๊ฒ€์ƒ‰)ํ•ฉ๋‹ˆ๋‹ค.
  4. ์‚ฌ์ง„ ์† ๊ฐ„ํŒ ๋ชจ์–‘๊ณผ ์ง€๋„์˜ ์ •๋ณด๊ฐ€ ๋‹ค๋ฅด๋‹ค๋Š” ๊ฑธ ๋ฐœ๊ฒฌํ•ฉ๋‹ˆ๋‹ค.
  5. โ€œ๊ทธ๋Ÿผ ์‹ฑ๊ฐ€ํฌ๋ฅด๋Š”?โ€์ด๋ผ๊ณ  ๋‹ค์‹œ ๊ฐ€์„ค์„ ์„ธ์šฐ๊ณ  ์ง€๋„๋ฅผ ๋‹ค์‹œ ๋ด…๋‹ˆ๋‹ค(๊ต์ฐจ ๊ฒ€์ฆ).
  6. ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ด ์ง„์งœ ๋ฒ”์ธ(์ดฌ์˜ ์œ„์น˜)์„ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค.

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ (Agent-in-the-Map Loop)

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ **Agent-in-the-Map Loop**๋ผ๋Š” ์ˆœํ™˜ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

  1. ๊ฐ€์„ค ์ œ์‹œ (Propose): AI๋Š” ์‚ฌ์ง„์„ ๋ณด๊ณ  ๋Œ€๋žต์ ์ธ ์œ„์น˜(โ€œ์„œ์šธ ๊ทผ์ฒ˜์ผ ๊ฒƒ ๊ฐ™๋‹คโ€)๋ฅผ ์ถ”์ธกํ•ฉ๋‹ˆ๋‹ค.
  2. ๋„๊ตฌ ํ˜ธ์ถœ (Act): AI๋Š” ๊ฐ€์ƒ์˜ ์ง€๋„ API์— โ€œ์ด ์ขŒํ‘œ ๊ทผ์ฒ˜์˜ ์ƒ์  ์ •๋ณด๋ฅผ ๋ณด์—ฌ์ค˜โ€๋ผ๊ณ  ์š”์ฒญํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„๋œ $P_{\text{env}}$๊ฐ€ ๋ฐ”๋กœ ์ด ์ง€๋„ ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค.
  3. ๊ด€์ฐฐ ๋ฐ ๊ฒ€์ฆ (Observe & Verify): ์ง€๋„๊ฐ€ ๋˜์ ธ์ค€ ์ •๋ณด(์˜ˆ: โ€œ์ด๊ณณ์€ ์ŠคํŽ˜์ธ ํ’ ๊ฑด๋ฌผ์ด๋‹คโ€)๋ฅผ ์‚ฌ์ง„๊ณผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์ง„์ด ์ค‘๊ตญํ’ ๊ฑด๋ฌผ์ด๋ผ๋ฉด ์ง€๋„ ์ •๋ณด์™€ ๋งž์ง€ ์•Š์œผ๋ฏ€๋กœ ๊ฐ€์„ค์€ ํ‹€๋ฆฐ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  4. ๊ฒฐ์ • ์ˆ˜๋ ด (Converge): ์œ„ ๊ณผ์ •์„ ๋ฐ˜๋ณต($t=0$ to $T$)ํ•˜๋ฉฐ ๋ถˆํ™•์‹ค์„ฑ์„ ์ค„์—ฌ๊ฐ€๊ณ , ์ตœ์ข…์ ์œผ๋กœ ๊ฐ€์žฅ ๊ทธ๋Ÿด๋“ฏํ•œ ์ขŒํ‘œ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

๐Ÿงฎ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ˆ˜์‹ ํ•ด์„

๋…ผ๋ฌธ์˜ ์‹ (2)๋Š” ํƒ์ •์˜ ์ˆ˜์‚ฌ ๊ณผ์ •์„ ํ™•๋ฅ ๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. $$ p_{\theta}(\tau,\alpha,o|s_{0})=\prod_{t=0}^{T-1}\biggl[\pi_{\theta}(\tau_{t}|s_{t})\pi_{\theta}(\alpha_{t}|s_{t},\tau_{t})P_{\text{env}}(o_{t+1}|\alpha_{t})\biggr] $$

  • $\pi_{\theta}(\tau_{t}|s_{t})$: โ€œ์ง€๊ธˆ๊นŒ์ง€ ์ˆ˜์‚ฌํ•œ ๋‚ด์šฉ($s_t$)์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋‹ค์Œ ๋ฒ”์ธ์ด ๋ˆ„๊ตด๊นŒ($\tau_t$)?โ€๋ผ๊ณ  ์ถ”์ธกํ•˜๋Š” ํ™•๋ฅ ์ž…๋‹ˆ๋‹ค.
  • $\pi_{\theta}(\alpha_{t}|โ€ฆ) \cdot P_{\text{env}}(o_{t+1}|\alpha_{t})$: โ€œ๊ทธ๋ ‡๋‹ค๋ฉด ์ง€๋„ API๋ฅผ ์จ์„œ($\alpha_t$), ๊ทธ ์œ„์น˜์˜ ์ •๋ณด๋ฅผ ํ™•์ธํ•ด ๋ณด์ž($o_{t+1}$).โ€๋ผ๋Š” ํ–‰๋™๊ณผ ๊ฒฐ๊ณผ์˜ ํ™•๋ฅ ์ž…๋‹ˆ๋‹ค.
  • ์ฆ‰, ์ด ์ˆ˜์‹์€ **โ€œ๋‹ต์„ ๋งž์ถ”๊ธฐ๊นŒ์ง€์˜ ์ถ”๋ก  ๊ณผ์ • ์ „์ฒด๋ฅผ ํ•˜๋‚˜์˜ ํ™•๋ฅ ์  ๊ฒฝ๋กœ๋กœ ๋ชจ๋ธ๋งํ•˜๊ฒ ๋‹คโ€**๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๐Ÿ“Š ์‚ฌ์šฉํ•œ ๋ฒค์น˜๋งˆํฌ: MAPBench

๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹(์˜›๋‚  ๊ตฌ๊ธ€ ์ŠคํŠธ๋ฆฌํŠธ ๋ทฐ ๋“ฑ)์€ ์ •๋ณด๊ฐ€ ๋„ˆ๋ฌด ์˜ค๋ž˜๋˜์–ด AI๊ฐ€ ์•”๊ธฐ๋งŒ์œผ๋กœ๋„ ํ’€ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ MAPBench๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๊ตฌ์„ฑ: ์ค‘๊ตญ ๋‚ด POI(์ค‘์š” ์ง€์ ) ์ค‘์‹ฌ์˜ 5,000์žฅ์˜ ์ตœ์‹  ์ŠคํŠธ๋ฆฌํŠธ ๋ทฐ ์ด๋ฏธ์ง€.
  • ๋‚œ์ด๋„ ๋ถ„๋ฅ˜:
    • Easy (599์žฅ): ์œ ๋ช… ๋žœ๋“œ๋งˆํฌ๋กœ GPT-5๋‚˜ Qwen ๊ฐ™์€ ๋ชจ๋ธ์ด ์•”๊ธฐ๋กœ๋„ ๋งž์ถค.
    • Hard (1,901์žฅ): ์•”๊ธฐ๋กœ๋Š” ๋ถˆ๊ฐ€๋Šฅํ•˜๋ฉฐ, โ€˜๋„๊ตฌ ํ™œ์šฉ ๋Šฅ๋ ฅ(Reasoning)โ€˜์„ ํ•„์ˆ˜๋กœ ์š”ํ•จ.

๐Ÿ† ์„ฑ๋Šฅ ํ–ฅ์ƒ (Two-Stage Optimization์˜ ํšจ๊ณผ)

์ด ๋…ผ๋ฌธ์€ ๋‹จ์ˆœํžˆ โ€œ์ง€๋„๋ฅผ ์ผ๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋ผ, ์–ด๋–ป๊ฒŒ ์“ฐ๋Š”์ง€๋ฅผ ์ตœ์ ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

  1. Agentic RL (๊ฐ•ํ™” ํ•™์Šต) ๋‹จ๊ณ„: AI๊ฐ€ ํ—›๋ฐœ์งˆ์„ ๋œ ํ•˜๊ฒŒ ๋งŒ๋“ฆ. ์ฆ‰, $K$๊ฐœ์˜ ํ›„๋ณด ์ค‘์— ์ •๋‹ต์ด ์ž˜ ๋“ค์–ด์žˆ๊ฒŒ ๋งŒ๋“ฆ (Pass@N โ†’ Pass@K ์ตœ์ ํ™”).
  2. Parallel TTS (ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์Šค์ผ€์ผ๋ง) ๋‹จ๊ณ„: ์‹ค์ œ ์ถ”๋ก ํ•  ๋•Œ๋Š” ์—ฌ๋Ÿฌ ๊ฒฝ๋กœ๋ฅผ ๋ณ‘๋ ฌ๋กœ ํƒ์ƒ‰ํ•ด์„œ ๊ฐ€์žฅ ์ข‹์€ ๊ฒฐ๊ณผ๋งŒ ๋ฝ‘์•„๋ƒ„. ์ด๋ฅผ ํ†ตํ•ด ์ตœ์ข… ์ •๋‹ต๋ฅ ์„ ๋†’์ž„ (Pass@K โ†’ Pass@1 ์ตœ์ ํ™”).

ํ•ต์‹ฌ ๊ฒฐ๊ณผ: Hard ๋ฐ์ดํ„ฐ์…‹(์ถ”๋ก ์ด ํ•„์š”ํ•œ ๋ฌธ์ œ)์—์„œ ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค ์›”๋“ฑํžˆ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, โ€œ์ง€๋„๋ฅผ ๋ณด๊ณ  ์ƒ๊ฐํ•˜๋Š” ๊ฒƒ(Thinking with Map)โ€œ์ด ์•”๊ธฐ๋ณด๋‹ค ํ›จ์”ฌ ๊ฐ•๋ ฅํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๐Ÿšฉ ํ•œ๊ณ„์ 

  • ์ง€์—ญ ํŽธํ–ฅ์„ฑ: MAPBench๋Š” ํ˜„์žฌ ์ค‘๊ตญ ์ง€์—ญ์— ์ง‘์ค‘๋˜์–ด ์žˆ์–ด ์ „ ์„ธ๊ณ„(Global Coverage) ๋ณดํŽธ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ์—” ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • API ์˜์กด์„ฑ ๋ฐ ์†๋„: ์‹ค์‹œ๊ฐ„ ์ง€๋„ API๋ฅผ ํ˜ธ์ถœํ•˜๊ณ  ๋ณ‘๋ ฌ๋กœ ํƒ์ƒ‰(Parallel TTS)ํ•˜๋Š” ๊ณผ์ •์ด ์ถ”๊ฐ€๋˜๋ฏ€๋กœ, ์ถ”๋ก  ์†๋„๊ฐ€ ๊ธฐ์กด๋ณด๋‹ค ๋А๋ฆฌ๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค.
  • ์ง€๋„ ์ •๋ณด์˜ ์‹ ๋ขฐ์„ฑ: ํ˜„์‹ค ์„ธ๊ณ„์˜ ์ง€๋„ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์ •ํ™•ํ•˜๊ฑฐ๋‚˜ ์ตœ์‹ ํ™”๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ, AI์˜ ์ถ”๋ก ์ด ๊ผฌ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”ฎ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ์ค‘๊ตญ ์™ธ์˜ ๋‹ค์–‘ํ•œ ์ง€์—ญ(์œ ๋Ÿฝ, ๋‚จ๋ฏธ ๋“ฑ)์œผ๋กœ ๋ฒค์น˜๋งˆํฌ ํ™•์žฅ.
  • ์ง€๋„๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์›น ๊ฒ€์ƒ‰, ๋‚ ์”จ ์ •๋ณด ๋“ฑ ๋” ๋‹ค์–‘ํ•œ ์™ธ๋ถ€ ๋„๊ตฌ์™€์˜ ๊ฒฐํ•ฉ.
  • ๋ณ‘๋ ฌ ํƒ์ƒ‰์˜ ํšจ์œจ์„ฑ์„ ๋†’์—ฌ ์ถ”๋ก  ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์„ ์ค„์ด๋Š” ์—ฐ๊ตฌ.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๐Ÿ’ผ ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

  • ์—ฌํ–‰/์†Œ์…œ ๋ฏธ๋””์–ด ์•ฑ: ์‚ฌ์šฉ์ž๊ฐ€ ์ฐ์€ ์‚ฌ์ง„์˜ ์œ„์น˜๋ฅผ ์ž๋™์œผ๋กœ ํƒœ๊น…ํ•˜์—ฌ โ€œ์ด ์‚ฌ์ง„ ์–ด์„œ์„œ ์ฐ์œผ์…จ๋‚˜์š”?โ€ ๊ธฐ๋Šฅ ์ œ๊ณต.
  • ๋กœ๋ณดํ‹ฑ์Šค & ์ž์œจ์ฃผํ–‰: GPS ์‹ ํ˜ธ๊ฐ€ ์žกํžˆ์ง€ ์•Š๋Š” ํ„ฐ๋„์ด๋‚˜ ์‹ค๋‚ด์—์„œ, ์ฃผ๋ณ€ ์‹œ๊ฐ ์ •๋ณด๋งŒ์œผ๋กœ ํ˜„์žฌ ์œ„์น˜๋ฅผ ํŒŒ์•…ํ•˜์—ฌ ์œ„์น˜ ์˜ค์ฐจ ์ˆ˜์ •.
  • ๋ณด์•ˆ ๋ฐ ์ˆ˜์‚ฌ: ๋ฒ”์ฃ„ ํ˜„์žฅ ์‚ฌ์ง„์ด๋‚˜ ๋‚ฉ์น˜ ์ธ์งˆ ์‚ฌ์ง„์˜ ๋ฐฐ๊ฒฝ(๊ฑด๋ฌผ, ๊ฐ„ํŒ ๋“ฑ)์„ ๋ถ„์„ํ•˜์—ฌ ์ดฌ์˜ ์ง€์—ญ์„ ํŠน์ •ํ•˜๋Š” ํฌ๋ Œ์‹ ๊ธฐ์ˆ .

โš™๏ธ ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • ๋ฐ์ดํ„ฐ: ์ตœ์‹  ์ง€๋„ API(Google Maps, OpenStreetMap ๋“ฑ)์— ๋Œ€ํ•œ ์ ‘๊ทผ ๊ถŒํ•œ.
  • ๋ชจ๋ธ: ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ Large Vision-Language Model (LVLM) ๊ธฐ๋ฐ˜ (์˜ˆ: GPT-4o, Qwen-VL ๋“ฑ).
  • ํ•˜๋“œ์›จ์–ด: ๋ณ‘๋ ฌ ํƒ์ƒ‰์„ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฒฝ๋กœ๋ฅผ ๋™์‹œ์— ๋Œ๋ ค์•ผ ํ•˜๋ฏ€๋กœ ์ถฉ๋ถ„ํ•œ GPU ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ๋ ฅ์ด ํ•„์š”ํ•จ.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. LVLM (Large Vision-Language Model): ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ์ดํ•ดํ•˜๋ฉฐ ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฑฐ๋Œ€ AI ๋ชจ๋ธ (์˜ˆ: GPT-4V).
  2. Chain-of-Thought (CoT) Reasoning: AI๊ฐ€ ๋‹ต์„ ๋ฐ”๋กœ ๋งํ•˜๋Š” ๋Œ€์‹  โ€œA์ด๋‹ˆ๊นŒ B๊ณ , ๊ฒฐ๋ก ์€ C๋‹คโ€์ฒ˜๋Ÿผ ์ƒ๊ฐํ•˜๋Š” ๊ณผ์ •์„ ๋‹จ๊ณ„๋ณ„๋กœ ์„œ์ˆ ํ•˜์—ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•.
  3. Reinforcement Learning (RL): ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์šฐ๋Š” ๊ธฐ๊ณ„ํ•™์Šต์˜ ํ•œ ์ข…๋ฅ˜.
  4. Agent (AI ์—์ด์ „ํŠธ): ๋‹จ์ˆœํžˆ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์‚ฌ์šฉ์ž์˜ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์Šค์Šค๋กœ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ๊ณ„ํš์„ ์„ธ์šฐ๋Š” ์‹œ์Šคํ…œ.
  5. Test-Time Scaling (TTS): ํ•™์Šต ์‹œ๊ฐ„์ด ์•„๋‹Œ, ์‹ค์ œ๋กœ ๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” โ€˜์ถ”๋ก  ์‹œ๊ฐ„โ€™์— ๋” ๋งŽ์€ ์ž์›(์‹œ๊ฐ„, ๊ณ„์‚ฐ๋Ÿ‰)์„ ํˆฌ์žํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ธฐ์ˆ  (์˜ˆ: ์ƒ๊ฐํ•  ์‹œ๊ฐ„์„ ๋” ์ค€๋‹ค).
  6. Geolocalization: ์ด๋ฏธ์ง€, ํ…์ŠคํŠธ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ง€๋ฆฌ์  ์œ„์น˜(์œ„๋„, ๊ฒฝ๋„)๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ธฐ์ˆ .
  7. POI (Point of Interest): ์ง€๋ฆฌ ์ •๋ณด ์‹œ์Šคํ…œ์—์„œ ์‹๋‹น, ๊ด€๊ด‘์ง€, ๊ฑด๋ฌผ ๋“ฑ ์‚ฌ์šฉ์ž๊ฐ€ ๊ด€์‹ฌ์„ ๊ฐ€์งˆ ๋งŒํ•œ ํŠน์ • ์ง€์ .

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Watching, Reasoning, and Searching:โ€ฆDD-006
๐ŸฅˆBabyVision: Visual Reasoning Beyondโ€ฆDD-007
๐Ÿฅ‰STEP3-VL-10B Technical ReportDD-008
4.Thinking with Map: Reinforced Paralโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.Urban Socio-Semantic Segmentation wโ€ฆDD-010

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive