โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-009 Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
arXiv: 2601.05432 ๊ธฐ๊ด: alibaba-inc Upvotes: 165 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 4

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization (Paper Review)
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
์ด ๋ ผ๋ฌธ์ ์ด๋ฏธ์ง ์ง์ค๋ก์ปฌ๋ฆฌ์ ์ด์ (์ฌ์ง์ ์ดฌ์ ์์น ์ถ์ ) ์์ ์์ ๊ธฐ์กด LVLM(๋ํ ๋น์ -์ธ์ด ๋ชจ๋ธ)๋ค์ด ๊ฐ์ง โ์ธ๋ถ ๋๊ตฌ ํ์ฉ ๋ถ์ฌโ๋ผ๋ ๊ฒฐ์ ์ ์ธ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ต๋๋ค. ์ฐ๊ตฌ์ง์ AI ์์ด์ ํธ๊ฐ ๋จ์ํ ๊ธฐ์ต๋ ฅ์ ์์กดํ๋ ๊ฒ์ด ์๋๋ผ, ์ธ๊ฐ์ฒ๋ผ ์ง๋๋ฅผ ํด๋๊ณ โ๊ฐ์ค ์ ์ โ ์ง๋ ๊ฒ์ โ ๊ต์ฐจ ๊ฒ์ฆโ์ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉฐ ์ถ๋ก ํ ์ ์๋ โThinking with Mapโ ํ๋ ์์ํฌ๋ฅผ ์ต์ด๋ก ์ ์ํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ต๏ธโโ๏ธ ์ผ์์ํ ๋น์ : ํ์ ์ ์์ฌ
๊ธฐ์กด AI๋ ๋ง์น ์ธํ์์ฒ๋ผ ์ฌ์ง์ ๋ณด๊ณ โ๋ ์ด ๊ฑด๋ฌผ์ ๋ดค์ด, ํ๋ฆฌ์ ์์ด!โ๋ผ๊ณ ๋จ์ํ ์๊ธฐ์ ์์กดํด ๋ต์ ๋ง์ถ๋ ค ํ์ต๋๋ค. ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ AI๋ **โ๋ช ํ์ โ**๊ณผ ๊ฐ์ต๋๋ค.
- ์ฌ์ง ์์ ๋ฏ์ ๊ฐํ๊ณผ ๊ฑด์ถ ์์์ด ๋ณด์ ๋๋ค.
- ํ์ ์ โ์ด๊ณณ์ด ๋์ฟ์ผ๊น?โ๋ผ๊ณ ๊ฐ์ค(๊ฐ์ค ์ ์)์ ์ธ์๋๋ค.
- ์ง๋ ์ฑ์ ์ผ๊ณ ํด๋น ์์น์ ๊ฐํ๊ณผ ๊ฑด๋ฌผ์ ๊ฒ์(์ง๋ ๊ฒ์)ํฉ๋๋ค.
- ์ฌ์ง ์ ๊ฐํ ๋ชจ์๊ณผ ์ง๋์ ์ ๋ณด๊ฐ ๋ค๋ฅด๋ค๋ ๊ฑธ ๋ฐ๊ฒฌํฉ๋๋ค.
- โ๊ทธ๋ผ ์ฑ๊ฐํฌ๋ฅด๋?โ์ด๋ผ๊ณ ๋ค์ ๊ฐ์ค์ ์ธ์ฐ๊ณ ์ง๋๋ฅผ ๋ค์ ๋ด ๋๋ค(๊ต์ฐจ ๊ฒ์ฆ).
- ์ด ๊ณผ์ ์ ๋ฐ๋ณตํด ์ง์ง ๋ฒ์ธ(์ดฌ์ ์์น)์ ์ฐพ์๋ ๋๋ค.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ์๋ฆฌ (Agent-in-the-Map Loop)
์ด ๋
ผ๋ฌธ์ ํต์ฌ์ **Agent-in-the-Map Loop**๋ผ๋ ์ํ ๊ตฌ์กฐ์
๋๋ค.
- ๊ฐ์ค ์ ์ (Propose): AI๋ ์ฌ์ง์ ๋ณด๊ณ ๋๋ต์ ์ธ ์์น(โ์์ธ ๊ทผ์ฒ์ผ ๊ฒ ๊ฐ๋คโ)๋ฅผ ์ถ์ธกํฉ๋๋ค.
- ๋๊ตฌ ํธ์ถ (Act): AI๋ ๊ฐ์์ ์ง๋ API์ โ์ด ์ขํ ๊ทผ์ฒ์ ์์ ์ ๋ณด๋ฅผ ๋ณด์ฌ์คโ๋ผ๊ณ ์์ฒญํฉ๋๋ค. ์ด๋ ์์์ผ๋ก ํํ๋ $P_{\text{env}}$๊ฐ ๋ฐ๋ก ์ด ์ง๋ ํ๊ฒฝ์ ๋๋ค.
- ๊ด์ฐฐ ๋ฐ ๊ฒ์ฆ (Observe & Verify): ์ง๋๊ฐ ๋์ ธ์ค ์ ๋ณด(์: โ์ด๊ณณ์ ์คํ์ธ ํ ๊ฑด๋ฌผ์ด๋คโ)๋ฅผ ์ฌ์ง๊ณผ ๋น๊ตํฉ๋๋ค. ์ฌ์ง์ด ์ค๊ตญํ ๊ฑด๋ฌผ์ด๋ผ๋ฉด ์ง๋ ์ ๋ณด์ ๋ง์ง ์์ผ๋ฏ๋ก ๊ฐ์ค์ ํ๋ฆฐ ๊ฒ์ ๋๋ค.
- ๊ฒฐ์ ์๋ ด (Converge): ์ ๊ณผ์ ์ ๋ฐ๋ณต($t=0$ to $T$)ํ๋ฉฐ ๋ถํ์ค์ฑ์ ์ค์ฌ๊ฐ๊ณ , ์ต์ข ์ ์ผ๋ก ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ์ขํ ํ๋๋ฅผ ์ ํํฉ๋๋ค.
๐งฎ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ์์ ํด์
๋ ผ๋ฌธ์ ์ (2)๋ ํ์ ์ ์์ฌ ๊ณผ์ ์ ํ๋ฅ ๋ก ํํํ ๊ฒ์ ๋๋ค. $$ p_{\theta}(\tau,\alpha,o|s_{0})=\prod_{t=0}^{T-1}\biggl[\pi_{\theta}(\tau_{t}|s_{t})\pi_{\theta}(\alpha_{t}|s_{t},\tau_{t})P_{\text{env}}(o_{t+1}|\alpha_{t})\biggr] $$
- $\pi_{\theta}(\tau_{t}|s_{t})$: โ์ง๊ธ๊น์ง ์์ฌํ ๋ด์ฉ($s_t$)์ ๋ฐํ์ผ๋ก, ๋ค์ ๋ฒ์ธ์ด ๋๊ตด๊น($\tau_t$)?โ๋ผ๊ณ ์ถ์ธกํ๋ ํ๋ฅ ์ ๋๋ค.
- $\pi_{\theta}(\alpha_{t}|โฆ) \cdot P_{\text{env}}(o_{t+1}|\alpha_{t})$: โ๊ทธ๋ ๋ค๋ฉด ์ง๋ API๋ฅผ ์จ์($\alpha_t$), ๊ทธ ์์น์ ์ ๋ณด๋ฅผ ํ์ธํด ๋ณด์($o_{t+1}$).โ๋ผ๋ ํ๋๊ณผ ๊ฒฐ๊ณผ์ ํ๋ฅ ์ ๋๋ค.
- ์ฆ, ์ด ์์์ **โ๋ต์ ๋ง์ถ๊ธฐ๊น์ง์ ์ถ๋ก ๊ณผ์ ์ ์ฒด๋ฅผ ํ๋์ ํ๋ฅ ์ ๊ฒฝ๋ก๋ก ๋ชจ๋ธ๋งํ๊ฒ ๋คโ**๋ ์๋ฏธ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๐ ์ฌ์ฉํ ๋ฒค์น๋งํฌ: MAPBench
๊ธฐ์กด ๋ฐ์ดํฐ์ (์๋ ๊ตฌ๊ธ ์คํธ๋ฆฌํธ ๋ทฐ ๋ฑ)์ ์ ๋ณด๊ฐ ๋๋ฌด ์ค๋๋์ด AI๊ฐ ์๊ธฐ๋ง์ผ๋ก๋ ํ ์ ์์์ต๋๋ค. ์ฐ๊ตฌ์ง์ MAPBench๋ผ๋ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ต๋๋ค.
- ๊ตฌ์ฑ: ์ค๊ตญ ๋ด POI(์ค์ ์ง์ ) ์ค์ฌ์ 5,000์ฅ์ ์ต์ ์คํธ๋ฆฌํธ ๋ทฐ ์ด๋ฏธ์ง.
- ๋์ด๋ ๋ถ๋ฅ:
- Easy (599์ฅ): ์ ๋ช ๋๋๋งํฌ๋ก GPT-5๋ Qwen ๊ฐ์ ๋ชจ๋ธ์ด ์๊ธฐ๋ก๋ ๋ง์ถค.
- Hard (1,901์ฅ): ์๊ธฐ๋ก๋ ๋ถ๊ฐ๋ฅํ๋ฉฐ, โ๋๊ตฌ ํ์ฉ ๋ฅ๋ ฅ(Reasoning)โ์ ํ์๋ก ์ํจ.
๐ ์ฑ๋ฅ ํฅ์ (Two-Stage Optimization์ ํจ๊ณผ)
์ด ๋ ผ๋ฌธ์ ๋จ์ํ โ์ง๋๋ฅผ ์ผ๋คโ๊ฐ ์๋๋ผ, ์ด๋ป๊ฒ ์ฐ๋์ง๋ฅผ ์ต์ ํํ์ต๋๋ค.
- Agentic RL (๊ฐํ ํ์ต) ๋จ๊ณ: AI๊ฐ ํ๋ฐ์ง์ ๋ ํ๊ฒ ๋ง๋ฆ. ์ฆ, $K$๊ฐ์ ํ๋ณด ์ค์ ์ ๋ต์ด ์ ๋ค์ด์๊ฒ ๋ง๋ฆ (Pass@N โ Pass@K ์ต์ ํ).
- Parallel TTS (ํ ์คํธ ํ์ ์ค์ผ์ผ๋ง) ๋จ๊ณ: ์ค์ ์ถ๋ก ํ ๋๋ ์ฌ๋ฌ ๊ฒฝ๋ก๋ฅผ ๋ณ๋ ฌ๋ก ํ์ํด์ ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ง ๋ฝ์๋. ์ด๋ฅผ ํตํด ์ต์ข ์ ๋ต๋ฅ ์ ๋์ (Pass@K โ Pass@1 ์ต์ ํ).
ํต์ฌ ๊ฒฐ๊ณผ: Hard ๋ฐ์ดํฐ์ (์ถ๋ก ์ด ํ์ํ ๋ฌธ์ )์์ ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ์๋ฑํ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, โ์ง๋๋ฅผ ๋ณด๊ณ ์๊ฐํ๋ ๊ฒ(Thinking with Map)โ์ด ์๊ธฐ๋ณด๋ค ํจ์ฌ ๊ฐ๋ ฅํจ์ ์ ์ฆํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๐ฉ ํ๊ณ์
- ์ง์ญ ํธํฅ์ฑ: MAPBench๋ ํ์ฌ ์ค๊ตญ ์ง์ญ์ ์ง์ค๋์ด ์์ด ์ ์ธ๊ณ(Global Coverage) ๋ณดํธ์ฑ์ ๊ฒ์ฆํ๊ธฐ์ ๋ถ์กฑํ ์ ์์ต๋๋ค.
- API ์์กด์ฑ ๋ฐ ์๋: ์ค์๊ฐ ์ง๋ API๋ฅผ ํธ์ถํ๊ณ ๋ณ๋ ฌ๋ก ํ์(Parallel TTS)ํ๋ ๊ณผ์ ์ด ์ถ๊ฐ๋๋ฏ๋ก, ์ถ๋ก ์๋๊ฐ ๊ธฐ์กด๋ณด๋ค ๋๋ฆฌ๊ณ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค.
- ์ง๋ ์ ๋ณด์ ์ ๋ขฐ์ฑ: ํ์ค ์ธ๊ณ์ ์ง๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์ ํํ๊ฑฐ๋ ์ต์ ํ๋์ง ์์ ๊ฒฝ์ฐ, AI์ ์ถ๋ก ์ด ๊ผฌ์ผ ์ ์์ต๋๋ค.
๐ฎ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ค๊ตญ ์ธ์ ๋ค์ํ ์ง์ญ(์ ๋ฝ, ๋จ๋ฏธ ๋ฑ)์ผ๋ก ๋ฒค์น๋งํฌ ํ์ฅ.
- ์ง๋๋ฟ๋ง ์๋๋ผ ์น ๊ฒ์, ๋ ์จ ์ ๋ณด ๋ฑ ๋ ๋ค์ํ ์ธ๋ถ ๋๊ตฌ์์ ๊ฒฐํฉ.
- ๋ณ๋ ฌ ํ์์ ํจ์จ์ฑ์ ๋์ฌ ์ถ๋ก ๋น์ฉ๊ณผ ์๊ฐ์ ์ค์ด๋ ์ฐ๊ตฌ.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๐ผ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
- ์ฌํ/์์ ๋ฏธ๋์ด ์ฑ: ์ฌ์ฉ์๊ฐ ์ฐ์ ์ฌ์ง์ ์์น๋ฅผ ์๋์ผ๋ก ํ๊น ํ์ฌ โ์ด ์ฌ์ง ์ด์์ ์ฐ์ผ์ จ๋์?โ ๊ธฐ๋ฅ ์ ๊ณต.
- ๋ก๋ณดํฑ์ค & ์์จ์ฃผํ: GPS ์ ํธ๊ฐ ์กํ์ง ์๋ ํฐ๋์ด๋ ์ค๋ด์์, ์ฃผ๋ณ ์๊ฐ ์ ๋ณด๋ง์ผ๋ก ํ์ฌ ์์น๋ฅผ ํ์ ํ์ฌ ์์น ์ค์ฐจ ์์ .
- ๋ณด์ ๋ฐ ์์ฌ: ๋ฒ์ฃ ํ์ฅ ์ฌ์ง์ด๋ ๋ฉ์น ์ธ์ง ์ฌ์ง์ ๋ฐฐ๊ฒฝ(๊ฑด๋ฌผ, ๊ฐํ ๋ฑ)์ ๋ถ์ํ์ฌ ์ดฌ์ ์ง์ญ์ ํน์ ํ๋ ํฌ๋ ์ ๊ธฐ์ .
โ๏ธ ํ์ํ ๋ฆฌ์์ค
- ๋ฐ์ดํฐ: ์ต์ ์ง๋ API(Google Maps, OpenStreetMap ๋ฑ)์ ๋ํ ์ ๊ทผ ๊ถํ.
- ๋ชจ๋ธ: ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ง Large Vision-Language Model (LVLM) ๊ธฐ๋ฐ (์: GPT-4o, Qwen-VL ๋ฑ).
- ํ๋์จ์ด: ๋ณ๋ ฌ ํ์์ ์ํด ์ฌ๋ฌ ๊ฒฝ๋ก๋ฅผ ๋์์ ๋๋ ค์ผ ํ๋ฏ๋ก ์ถฉ๋ถํ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ๋ ฅ์ด ํ์ํจ.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- LVLM (Large Vision-Language Model): ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ์ดํดํ๋ฉฐ ๋ํํ ์ ์๋ ๊ฑฐ๋ AI ๋ชจ๋ธ (์: GPT-4V).
- Chain-of-Thought (CoT) Reasoning: AI๊ฐ ๋ต์ ๋ฐ๋ก ๋งํ๋ ๋์ โA์ด๋๊น B๊ณ , ๊ฒฐ๋ก ์ C๋คโ์ฒ๋ผ ์๊ฐํ๋ ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ์์ ํ์ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ด๋ ๊ธฐ๋ฒ.
- Reinforcement Learning (RL): ์ํ์ฐฉ์ค๋ฅผ ํตํด ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๋ ๊ธฐ๊ณํ์ต์ ํ ์ข ๋ฅ.
- Agent (AI ์์ด์ ํธ): ๋จ์ํ ์ง๋ฌธ์ ๋ตํ๋ ๊ฒ์ ๋์ด, ์ฌ์ฉ์์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ค์ค๋ก ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๊ณ ๊ณํ์ ์ธ์ฐ๋ ์์คํ .
- Test-Time Scaling (TTS): ํ์ต ์๊ฐ์ด ์๋, ์ค์ ๋ก ๋ต์ ์์ฑํ๋ โ์ถ๋ก ์๊ฐโ์ ๋ ๋ง์ ์์(์๊ฐ, ๊ณ์ฐ๋)์ ํฌ์ํ์ฌ ์ฑ๋ฅ์ ๋์ด๋ ๊ธฐ์ (์: ์๊ฐํ ์๊ฐ์ ๋ ์ค๋ค).
- Geolocalization: ์ด๋ฏธ์ง, ํ ์คํธ ๋ฑ์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ง๋ฆฌ์ ์์น(์๋, ๊ฒฝ๋)๋ฅผ ์ถ์ ํ๋ ๊ธฐ์ .
- POI (Point of Interest): ์ง๋ฆฌ ์ ๋ณด ์์คํ ์์ ์๋น, ๊ด๊ด์ง, ๊ฑด๋ฌผ ๋ฑ ์ฌ์ฉ์๊ฐ ๊ด์ฌ์ ๊ฐ์ง ๋งํ ํน์ ์ง์ .
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Watching, Reasoning, and Searching:โฆ | DD-006 |
| ๐ฅ | BabyVision: Visual Reasoning Beyondโฆ | DD-007 |
| ๐ฅ | STEP3-VL-10B Technical Report | DD-008 |
| 4. | Thinking with Map: Reinforced Paralโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | Urban Socio-Semantic Segmentation wโฆ | DD-010 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive