โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-019 Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

arXiv: 2601.22060 Upvotes: 147 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4

Figure 1


์•ˆ๋…•ํ•˜์„ธ์š”! AI/ML ์ „๋ฌธ๊ฐ€์ด์ž ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์–ด๋กœ์„œ, Vision-DeepResearch ๋…ผ๋ฌธ์„ ์ฃผ๋‹ˆ์–ด ๊ฐœ๋ฐœ์ž๋„ ๋ฐ”๋กœ ์ดํ•ดํ•˜๊ณ  ์ ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์‹ฌ๋„ ์žˆ๊ฒŒ ๋ถ„์„ํ•ด ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ โ€œ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋‹ค๋ฃจ๋Š” AI)์ด ๋‹จ์ˆœํžˆ ๊ฒ€์ƒ‰ ๋„๊ตฌ๋ฅผ ํ•œ ๋ฒˆ ์“ฐ๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์ธ๊ฐ„์ฒ˜๋Ÿผ ๊นŠ์ด ์žˆ๊ฒŒ ์กฐ์‚ฌํ•˜๊ณ  ์—ฐ๊ตฌํ•˜๋Š” ๋Šฅ๋ ฅโ€์„ ์–ด๋–ป๊ฒŒ ํ‚ค์› ๋Š”์ง€ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.


๐Ÿ“„ Paper Review: Vision-DeepResearch

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI๋Š” ๋ณต์žกํ•œ ์งˆ๋ฌธ์„ ๋ฐ›์œผ๋ฉด ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ๊ทธ๋Œ€๋กœ ๊ฒ€์ƒ‰์—”์ง„์— ๋˜์ง€๋Š” โ€˜๋‹จ์ˆœํ•œ ๋ฐฉ์‹โ€™์„ ์‚ฌ์šฉํ–ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์‚ฌ์ง„ ์†์˜ ์žก์Œ(๋ฐฐ๊ฒฝ ์†Œ์Œ ๋“ฑ) ๋•Œ๋ฌธ์— ์ •๋‹ต์„ ๋ชป ์ฐพ๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด๋ฏธ์ง€๋ฅผ ํ•„์š”ํ•œ ๋ถ€๋ถ„๋งŒ ์ž˜๋ผ์„œ(Zoom-in/Cropping) ๊ฒ€์ƒ‰ํ•˜๊ณ , ์ˆ˜์‹ญ ๋ฒˆ์˜ ์ถ”๋ก  ๊ณผ์ •์„ ๊ฑฐ์ณ ๋‹ต์„ ์ฐพ์•„๋‚ด๋Š” โ€˜๊นŠ์€ ์—ฐ๊ตฌ(Deep Research)โ€™ ๋Šฅ๋ ฅ์„ ๋ชจ๋ธ์— ์‹ฌ์–ด์ฃผ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, AI๊ฐ€ ๋‹จ์ˆœํ•œ ๊ฒ€์ƒ‰ ๋„๊ตฌ๊ฐ€ ์•„๋‹ˆ๋ผ ์Šค์Šค๋กœ ์ •๋ณด๋ฅผ ์บ๋‚ด๊ณ  ์ข…ํ•ฉํ•˜๋Š” ํƒ์ •์ด ๋˜๋„๋ก ๋งŒ๋“ค์—ˆ๋‹ค๋Š” ์ ์ด ํš๊ธฐ์ ์ž…๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐ŸŽฏ ์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ์‹œ์žฅ์กฐ์‚ฌ ์ „๋ฌธ๊ฐ€ ํƒ์ •โ€

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ **โ€˜๋ฒ”์ธ์„ ์ฐพ๋Š” ํƒ์ •โ€™**์— ๋น„์œ ํ•ด ๋ณผ๊นŒ์š”?

  • ๊ธฐ์กด AI (์ˆœ์ง„ํ•œ ์ดˆ๋ณด ํƒ์ •): ์‹œ์žฅ ํ’๊ฒฝ์ด ๋‹ด๊ธด ์‚ฌ์ง„ ํ•œ ์žฅ์„ ๊ฒฝ์ฐฐ(๊ฒ€์ƒ‰์—”์ง„)์— ๋ณด๋‚ด๋ฉฐ โ€œ์ด ์‚ฌ์ง„ ์†์— ์žˆ๋Š” ๋ฒ”์ธ์ด ๋ˆ„๊ตฌ์•ผ?โ€๋ผ๊ณ  ๋ฌป์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‚ฌ์ง„ ์†์—๋Š” ์ˆ˜๋งŽ์€ ์‚ฌ๋žŒ๊ณผ ๋…ธ์ ์ด ์žˆ์–ด์„œ ๊ฒฝ์ฐฐ์€ โ€œ์ด ์‚ฌ์ง„์€ ๋‚จ๋Œ€๋ฌธ ์‹œ์žฅ์ด์•ผโ€๋ผ๊ณ  ์ „ํ˜€ ์—‰๋šฑํ•œ ๋‹ต๋งŒ ์ค๋‹ˆ๋‹ค. (์ด๋ฏธ์ง€ ์ „์ฒด ๊ฒ€์ƒ‰์˜ ํ•œ๊ณ„)
  • Vision-DeepResearch (๋ฒ ํ…Œ๋ž‘ ํƒ์ •): ์‚ฌ์ง„์„ ๋ฐ›์ž๋งˆ์ž โ€œ๋ฒ”์ธ์€ ๋ถ‰์€ ๋ชจ์ž๋ฅผ ์ผ๋„ค?โ€๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉฐ, ์‚ฌ์ง„ ์† **๋ชจ์ž ๋ถ€๋ถ„๋งŒ ํ™•๋Œ€(Cropping)**ํ•ด์„œ ๊ฒ€์ƒ‰ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ โ€œ๋ถ‰์€ ๋ชจ์ž ํŒ๋งค์  ์œ„์น˜๋ฅผ ๊ฒ€์ƒ‰โ€ํ•˜๊ณ , ๊ทธ ์œ„์น˜์˜ โ€œCCTV ์˜์ƒ ์กฐํšŒโ€ ๋“ฑ์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, **โ€˜๋ณด๊ธฐ โ†’ ์ž๋ฅด๊ธฐ โ†’ ๊ฒ€์ƒ‰ โ†’ ์ƒ๊ฐํ•˜๊ธฐ โ†’ ๋‹ค์‹œ ๊ฒ€์ƒ‰โ€™**์„ ์ˆ˜์‹ญ ๋ฒˆ ๋ฐ˜๋ณตํ•˜๋ฉฐ ๋ฒ”์ธ์„ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ› ๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ด ์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ํ•™์Šต(RL) ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

  1. Multi-scale Visual Cropping (์ด๋ฏธ์ง€ ์ ์ ˆํžˆ ์ชผ๊ฐœ๊ธฐ):
    • ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€๋ฅผ ํ†ต์งธ๋กœ ์“ฐ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์งˆ๋ฌธ๊ณผ ๊ด€๋ จ ์žˆ๋Š” ๋ถ€๋ถ„๋งŒ ์ž˜๋ผ์„œ ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค. (์˜ˆ: โ€œ์ด ์‚ฌ์ง„์˜ ์ž๋™์ฐจ ๋ชจ๋ธ์ด ๋ญ์•ผ?โ€ โ†’ ์ž๋™์ฐจ ๋ถ€๋ถ„๋งŒ cropํ•ด์„œ Google Lens์— ๊ฒ€์ƒ‰)
  2. Long-horizon Trajectory Generation (๊ธด ์—ฌ์ •์˜ ๋ฐ์ดํ„ฐ ๋งŒ๋“ค๊ธฐ):
    • ์‚ฌ๋žŒ์ด ์—ฐ๊ตฌํ•˜๋“ฏ, ํ•œ ๋ฒˆ ๊ฒ€์ƒ‰์œผ๋กœ ๋๋‚˜์ง€ ์•Š๊ณ  ์ˆ˜์‹ญ ๋‹จ๊ณ„์˜ ๊ฒ€์ƒ‰๊ณผ ์ถ”๋ก ์ด ์ด์–ด์ง€๋Š” โ€˜๊ธด ๊ถค์ (Trajectory)โ€™ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ํ…์ŠคํŠธ์šฉ DeepResearch ๋ชจ๋ธ๊ณผ ์‹œ๊ฐ์šฉ MLLM์„ ํ˜‘๋™์‹œ์ผœ ๊ณ ํ’ˆ์งˆ์˜ ์˜ˆ์‹œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. Verification & Obfuscation (๊ฒ€์ฆ๊ณผ ๊ฐ€๋ฆฌ๊ธฐ):
    • ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์‚ฌ์‹ค์ธ์ง€ ๊ฒ€์ฆํ•˜๊ณ , ๋ชจ๋ธ์ด ์™ธ์›Œ์„œ ๋งžํžˆ์ง€ ์•Š๊ณ  ์ง„์งœ ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์„ ๊ธฐ๋ฅด๋„๋ก ์ผ๋ถ€ ์ •๋ณด๋ฅผ ๊ฐ€๋ ค์„œ(Obfuscation) ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์”๋‹ˆ๋‹ค.
  4. RL Training (๊ฐ•ํ™” ํ•™์Šต):
    • โ€œ๋” ๊ธธ๊ฒŒ ์ƒ๊ฐํ•˜๊ณ  ๋” ์ •ํ™•ํ•œ ๋„๊ตฌ๋ฅผ ์“ด ๋ชจ๋ธโ€์—๊ฒŒ ๋ณด์ƒ(Reward)์„ ์ฃผ์–ด, ์Šค์Šค๋กœ ๊นŠ๊ฒŒ ํŒŒ๊ณ ๋“œ๋Š” ์Šต๊ด€์„ ๋ชธ์— ๋ฐฐ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

โš™๏ธ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์š”์•ฝ

๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์š”์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. Input: ์ด๋ฏธ์ง€ $I$ + ์งˆ๋ฌธ $Q$
  2. Reasoning: ํ˜„์žฌ ์ƒํ™ฉ์—์„œ ๋ฌด์—‡์„ ๊ฒ€์ƒ‰ํ• ์ง€ ๊ฒฐ์ • (Action $a_t$)
  3. Tool Use (Cropping):
    • $I$์—์„œ ์ค‘์š”ํ•œ ์˜์—ญ $R$์„ ์ถ”์ถœ (Crop)
    • Search($R$, $text_query$) ์‹คํ–‰
  4. Observation: ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ $O_t$ ํš๋“
  5. Update: $O_t$๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ Action ๊ฒฐ์ • (์ตœ๋Œ€ ์ˆ˜์‹ญ ๋‹จ๊ณ„ ๋ฐ˜๋ณต)
  6. Answer: ๋ชจ๋“  ์ •๋ณด๋ฅผ ์ข…ํ•ฉํ•˜์—ฌ ์ตœ์ข… ๋‹ต๋ณ€ ์ƒ์„ฑ

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์€ ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ **โ€˜๋ณต์žกํ•œ ์งˆ๋ฌธ์„ ์ž˜ ํ•ด๊ฒฐํ•˜๋Š”์ง€โ€™**๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ:

    • MMSearch / MMSearch-Plus: ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ํ•จ๊ป˜ ๊ฒ€์ƒ‰ํ•ด์•ผ ํ•˜๋Š” ๋ณต์žกํ•œ ์˜คํ”ˆ ๋„๋ฉ”์ธ ์งˆ๋ฌธ ์„ธํŠธ.
    • LiveVQA: ์‹ค์‹œ๊ฐ„์„ฑ์ด ์ค‘์š”ํ•œ ์ตœ์‹  ์ •๋ณด๊ฐ€ ํ•„์š”ํ•œ ์งˆ๋ฌธ.
    • VDR, FVQA: ์‚ฌ์‹ค(fact) ๊ธฐ๋ฐ˜์˜ ์‹œ๊ฐ ์งˆ์˜์‘๋‹ต.
  • ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ˆ˜์น˜ (๊ตฌ์ฒด์  ๋ฐ์ดํ„ฐ):

    • ๊ธฐ๋ณธ ๋ชจ๋ธ(Qwen3-VL-8B-Instruct) ๋Œ€๋น„: Vision-DeepResearch-8B๋Š” ํ‰๊ท  +10.4% ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ํŠนํžˆ ๊ฒ€์ƒ‰์ด ์ค‘์š”ํ•œ MMSearch์—์„œ: ๋ฌด๋ ค **+17.6%**๋ผ๋Š” ์••๋„์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. (์ด๋ฏธ์ง€๋ฅผ ์ž˜๋ผ์„œ ๊ฒ€์ƒ‰ํ•˜๋Š” ์ „๋žต์˜ ํšจ๊ณผ ์ž…์ฆ)
    • LiveVQA์—์„œ: +13.7% ํ–ฅ์ƒ.
    • ๋ชจ๋ธ ํฌ๊ธฐ ํ‚ค์› ์„ ๋•Œ(30B): ํ‰๊ท  ์ ์ˆ˜๊ฐ€ **56.9%**๊นŒ์ง€ ์˜ฌ๋ผ๊ฐ”์œผ๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ๋ฒค์น˜๋งˆํฌ์ธ MMSearch-Plus์—์„œ๋Š” **+18.5%**์˜ ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™(๋ชจ๋ธ์ด ์ปค์งˆ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์ข‹์•„์ง)์ด ๋”ฐ๋ฅธ๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ:

    • RL ํ›ˆ๋ จ์˜ ํšจ๊ณผ: RL ํ›ˆ๋ จ์„ ํ•˜์ง€ ์•Š์€ ๋ชจ๋ธ์€ ์งง์€ ์ถ”๋ก ์— ๋จธ๋ฌผ๋ €์ง€๋งŒ, RL ํ›ˆ๋ จ ํ›„์—๋Š” ํ‰๊ท  Trajectory(๊ฒ€์ƒ‰ ๋‹จ๊ณ„ ์ˆ˜)๊ฐ€ ๊ธธ์–ด์ง€๊ณ  ์ •๋‹ต๋ฅ (Reward)์ด ๋™์‹œ์— ์ƒ์Šนํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ๊ฒŒ์„๋Ÿฌ์ง€์ง€ ์•Š๊ณ  ๋ˆ๊ธฐ ์žˆ๊ฒŒ ํƒ์ƒ‰ํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • Cropping์˜ ์ค‘์š”์„ฑ: ์ด๋ฏธ์ง€๋ฅผ ์ž๋ฅด์ง€ ์•Š๊ณ  ํ†ต์งธ๋กœ ๊ฒ€์ƒ‰(WIS)ํ–ˆ์„ ๋•Œ๋ณด๋‹ค, ์ž˜๋ผ์„œ ๊ฒ€์ƒ‰(CIS)ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ํ›จ์”ฌ ์ข‹์•˜์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„ (์•”์‹œ์ /๋ช…์‹œ์ ):

    • Hit-rate ๋ฌธ์ œ: ๊ฒ€์ƒ‰ ์—”์ง„ ์ž์ฒด๊ฐ€ ๊ด€๋ จ ์ •๋ณด๋ฅผ ์ฐพ์•„์ฃผ์ง€ ์•Š์œผ๋ฉด(Hit-rate๊ฐ€ ๋‚ฎ์œผ๋ฉด) ๋ชจ๋ธ์ด ์•„๋ฌด๋ฆฌ ์ž˜ํ•ด๋„ ๋‹ต์„ ๋ชป ์ฐพ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์™ธ๋ถ€ ๊ฒ€์ƒ‰ ์—”์ง„์˜ ์„ฑ๋Šฅ์— ์˜์กด์ ์ž…๋‹ˆ๋‹ค.
    • ๋น„์šฉ๊ณผ ์†๋„: ์ˆ˜์‹ญ ๋ฒˆ์˜ ๊ฒ€์ƒ‰๊ณผ ์ถ”๋ก ์„ ๋ฐ˜๋ณตํ•˜๋ฏ€๋กœ, ๋‹ต๋ณ€ ์ƒ์„ฑ ์†๋„(Latency)๊ฐ€ ๋А๋ฆฌ๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค. ์‹ค์‹œ๊ฐ„์„ฑ์ด ๋งค์šฐ ์ค‘์š”ํ•œ ์„œ๋น„์Šค์—๋Š” ๋ฐ”๋กœ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ ์˜์กด์„ฑ: ๊ณ ํ’ˆ์งˆ์˜ โ€˜๊ธด ๊ถค์ (Long-horizon trajectory)โ€™ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ํŒŒ์ดํ”„๋ผ์ธ์ด ๋งค์šฐ ๋ณต์žกํ•˜๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค.
  • ๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์  (๋ฏธ๋ž˜ ์—ฐ๊ตฌ):

    • ๋” ๋น ๋ฅธ ๊ฒ€์ƒ‰ ์—”์ง„ ์—ฐ๋™์ด๋‚˜ ์ ์€ ๋‹จ๊ณ„๋กœ๋„ ๊ฐ™์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” โ€˜ํšจ์œจ์ ์ธ ๊ฒ€์ƒ‰ ์ „๋žตโ€™ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ์ •์  ์ด๋ฏธ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋™์˜์ƒ(Video) ๋ฐ์ดํ„ฐ๋กœ ํ™•์žฅํ•˜์—ฌ Deep Research๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๊ธฐ์ˆ ์€ **โ€œ์ •๋ณด๊ฐ€ ๋ณต์žกํ•˜๊ฒŒ ์–ฝํ˜€ ์žˆ๊ณ , ๋‹จ์ˆœ ๊ฒ€์ƒ‰์œผ๋กœ๋Š” ๋‹ต์ด ์•ˆ ๋‚˜์˜ค๋Š” ๋ถ„์•ผโ€**์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ ์šฉ ๊ฐ€๋Šฅ ๋ถ„์•ผ:

    • ๊ธฐ์—… ๋ฆฌ์„œ์น˜ & ๋ถ„์„ ๋ณด๊ณ ์„œ ์ž‘์„ฑ: ์ฐจํŠธ, ๊ทธ๋ž˜ํ”„, ํ…์ŠคํŠธ๊ฐ€ ์„ž์ธ ์ˆ˜์‹ญ ์ชฝ์˜ PDF ๋ณด๊ณ ์„œ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์‹œ์žฅ ๋™ํ–ฅ์„ ์ข…ํ•ฉํ•  ๋•Œ.
    • ์ „์ž์ƒ๊ฑฐ๋ž˜ ์ด๋ฏธ์ง€ ๋ถ„์„: ์‚ฌ์šฉ์ž๊ฐ€ ์˜ฌ๋ฆฐ ๋ถˆ๋ช…ํ™•ํ•œ ์ œํ’ˆ ์‚ฌ์ง„์„ ๋ณด๊ณ  โ€œ์ด ์˜ท ๋ธŒ๋žœ๋“œ๊ฐ€ ๋ญ์•ผ? ๊ทธ๋ฆฌ๊ณ  ์ตœ์‹  ๊ฐ€๊ฒฉ์€ ์–ผ๋งˆ์•ผ?โ€๋ฅผ ๋ฌผ์–ด๋ณด๋ฉด, ์ด๋ฏธ์ง€ ์† ์˜ท ํƒœ๊ทธ๋ฅผ ์ธ์‹ํ•˜๊ณ  ์‡ผํ•‘๋ชฐ์„ ๊ฒ€์ƒ‰ํ•ด ์ตœ์ €๊ฐ€๋ฅผ ์ฐพ์•„์ฃผ๋Š” ์‡ผํ•‘ ์–ด์‹œ์Šคํ„ดํŠธ.
    • ๋ฒ•๋ฅ /์˜๋ฃŒ ๋ถ„์„: ์˜๋ฃŒ ์˜์ƒ(X-ray ๋“ฑ)์„ ๋ณด๊ณ  ์ตœ์‹  ํ•™์ˆ  ๋…ผ๋ฌธ ๊ฒ€์ƒ‰์„ ํ†ตํ•ด ์ง„๋‹จ์„ ๋ณด์กฐํ•˜๊ฑฐ๋‚˜, ๋ณต์žกํ•œ ๊ณ„์•ฝ์„œ ์ด๋ฏธ์ง€์™€ ๊ด€๋ จ ๋ฒ•๋ฅ ์„ ํฌ๋กค๋งํ•ด์„œ ๋ฆฌ๋ทฐํ•ด ์ฃผ๋Š” ์‹œ์Šคํ…œ.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค:

    • GPU: ์ ์–ด๋„ Llama-3.1-8B๋‚˜ Qwen2.5-7B ์ •๋„์˜ ๋ชจ๋ธ์„ fine-tuningํ•  ์ˆ˜ ์žˆ๋Š” A100(40GB80GB) 14์žฅ ํ˜น์€ H100 ํ™˜๊ฒฝ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. (30B ๋ชจ๋ธ์„ ๋Œ๋ฆฌ๋ ค๋ฉด ๋ฉ€ํ‹ฐ-GPU ํ•„์ˆ˜)
    • ๋ฐ์ดํ„ฐ: ๊ฒ€์ƒ‰ ์—”์ง„ API (Google Search API, Bing Search API ๋“ฑ)์™€ ๊ฒ€์ƒ‰ ๋กœ๊ทธ๋ฅผ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ„: Long-horizon trajectory ํ•™์Šต์€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ณผ RL ํ›ˆ๋ จ ์‹œ๊ฐ„์ด ์ผ๋ฐ˜์ ์ธ Fine-tuning๋ณด๋‹ค ํ›จ์”ฌ ์˜ค๋ž˜ ๊ฑธ๋ฆฝ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. MLLM (Multimodal Large Language Model): ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์ž…๋ ฅ ํ˜•ํƒœ)๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. (์˜ˆ: GPT-4o, Claude 3.5 Sonnet)
  2. ReAct (Reason + Act): AI๊ฐ€ ํ–‰๋™(Action)์„ ์ทจํ•˜๊ธฐ ์ „์— ์ถ”๋ก (Reasoning)์„ ํ•˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ  ๋‹ค์‹œ ์ถ”๋ก ํ•˜๋Š” ๋ฐ˜๋ณต์ ์ธ ์‚ฌ๊ณ  ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. (๋„๊ตฌ ์‚ฌ์šฉ Tool Use์˜ ๊ธฐ์ดˆ)
  3. VQA (Visual Question Answering): ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ฃผ๊ณ  ์งˆ๋ฌธ์„ ํ–ˆ์„ ๋•Œ, AI๊ฐ€ ์ด๋ฏธ์ง€์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ต๋ณ€ํ•˜๋Š” ๊ณผ์—…์ž…๋‹ˆ๋‹ค.
  4. RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ์ด ๋‚ด๋ถ€์— ์ €์žฅ๋œ ์ง€์‹๋งŒ ์“ฐ๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์ฐพ์•„(Retrieve) ๋‹ต๋ณ€ ์ƒ์„ฑ(Generation)์— ํ™œ์šฉํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. (์ด ๋…ผ๋ฌธ์€ ์ด๋ฅผ ๋” ๊นŠ๊ฒŒ ํ™•์žฅํ•œ ๋ฒ„์ „)
  5. RLHF (Reinforcement Learning from Human Feedback): ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ์ด๋‚˜ ๋ณด์ƒ ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ธ๊ฐ„์ด ์›ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋„๋ก ํŠœ๋‹ํ•˜๋Š” ๊ฐ•ํ™” ํ•™์Šต ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  6. Object Detection / Grounding: ์ด๋ฏธ์ง€ ์†์—์„œ ํŠน์ • ๋ฌผ์ฒด(๊ฐœ, ์ž๋™์ฐจ ๋“ฑ)์˜ ์œ„์น˜๋ฅผ ์ฐพ์•„๋‚ด๊ณ  ๋ฐ•์Šค(Bounding Box)๋กœ ์ณ์ฃผ๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. (์ด ๋…ผ๋ฌธ์˜ Cropping ์ „๋žต๊ณผ ๊ด€๋ จ ์žˆ์Œ)
  7. Trajectory (๊ถค์ ): AI๊ฐ€ ์ดˆ๊ธฐ ์งˆ๋ฌธ์„ ๋ฐ›๊ณ  ์ตœ์ข… ๋‹ต๋ณ€์„ ๋‚ด๊ธฐ๊นŒ์ง€ ๊ฑฐ์นœ ์ค‘๊ฐ„ ๋‹จ๊ณ„๋“ค์˜ ๊ธฐ๋ก(์ƒ๊ฐ, ๊ฒ€์ƒ‰, ๊ด€์ฐฐ ๋“ฑ์˜ ์‹œํ€€์Šค)์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Green-VLA: Staged Vision-Language-Aโ€ฆDD-017
๐ŸฅˆERNIE 5.0 Technical ReportDD-016
๐Ÿฅ‰Kimi K2.5: Visual Agentic Intelligeโ€ฆDD-018
4.Vision-DeepResearch: Incentivizing โ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.PaperBanana: Automating Academic Ilโ€ฆDD-020

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-08 | ๐Ÿค– GLM-4.7 Deep Dive