โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-019 Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
arXiv: 2601.22060 Upvotes: 147 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 4

์๋ ํ์ธ์! AI/ML ์ ๋ฌธ๊ฐ์ด์ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ์ด๋ก์, Vision-DeepResearch ๋ ผ๋ฌธ์ ์ฃผ๋์ด ๊ฐ๋ฐ์๋ ๋ฐ๋ก ์ดํดํ๊ณ ์ ์ฉํ ์ ์๋๋ก ์ฌ๋ ์๊ฒ ๋ถ์ํด ๋๋ฆฌ๊ฒ ์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ โ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋ค๋ฃจ๋ AI)์ด ๋จ์ํ ๊ฒ์ ๋๊ตฌ๋ฅผ ํ ๋ฒ ์ฐ๋ ๊ฒ์ ๋์ด, ์ธ๊ฐ์ฒ๋ผ ๊น์ด ์๊ฒ ์กฐ์ฌํ๊ณ ์ฐ๊ตฌํ๋ ๋ฅ๋ ฅโ์ ์ด๋ป๊ฒ ํค์ ๋์ง ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
๐ Paper Review: Vision-DeepResearch
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ AI๋ ๋ณต์กํ ์ง๋ฌธ์ ๋ฐ์ผ๋ฉด ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๊ทธ๋๋ก ๊ฒ์์์ง์ ๋์ง๋ โ๋จ์ํ ๋ฐฉ์โ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, ์ฌ์ง ์์ ์ก์(๋ฐฐ๊ฒฝ ์์ ๋ฑ) ๋๋ฌธ์ ์ ๋ต์ ๋ชป ์ฐพ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด๋ฏธ์ง๋ฅผ ํ์ํ ๋ถ๋ถ๋ง ์๋ผ์(Zoom-in/Cropping) ๊ฒ์ํ๊ณ , ์์ญ ๋ฒ์ ์ถ๋ก ๊ณผ์ ์ ๊ฑฐ์ณ ๋ต์ ์ฐพ์๋ด๋ โ๊น์ ์ฐ๊ตฌ(Deep Research)โ ๋ฅ๋ ฅ์ ๋ชจ๋ธ์ ์ฌ์ด์ฃผ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ์ต๋๋ค. ์ฆ, AI๊ฐ ๋จ์ํ ๊ฒ์ ๋๊ตฌ๊ฐ ์๋๋ผ ์ค์ค๋ก ์ ๋ณด๋ฅผ ์บ๋ด๊ณ ์ข ํฉํ๋ ํ์ ์ด ๋๋๋ก ๋ง๋ค์๋ค๋ ์ ์ด ํ๊ธฐ์ ์ ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ฏ ์ผ์์ํ ๋น์ : โ์์ฅ์กฐ์ฌ ์ ๋ฌธ๊ฐ ํ์ โ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ **โ๋ฒ์ธ์ ์ฐพ๋ ํ์ โ**์ ๋น์ ํด ๋ณผ๊น์?
- ๊ธฐ์กด AI (์์งํ ์ด๋ณด ํ์ ): ์์ฅ ํ๊ฒฝ์ด ๋ด๊ธด ์ฌ์ง ํ ์ฅ์ ๊ฒฝ์ฐฐ(๊ฒ์์์ง)์ ๋ณด๋ด๋ฉฐ โ์ด ์ฌ์ง ์์ ์๋ ๋ฒ์ธ์ด ๋๊ตฌ์ผ?โ๋ผ๊ณ ๋ฌป์ต๋๋ค. ํ์ง๋ง ์ฌ์ง ์์๋ ์๋ง์ ์ฌ๋๊ณผ ๋ ธ์ ์ด ์์ด์ ๊ฒฝ์ฐฐ์ โ์ด ์ฌ์ง์ ๋จ๋๋ฌธ ์์ฅ์ด์ผโ๋ผ๊ณ ์ ํ ์๋ฑํ ๋ต๋ง ์ค๋๋ค. (์ด๋ฏธ์ง ์ ์ฒด ๊ฒ์์ ํ๊ณ)
- Vision-DeepResearch (๋ฒ ํ ๋ ํ์ ): ์ฌ์ง์ ๋ฐ์๋ง์ โ๋ฒ์ธ์ ๋ถ์ ๋ชจ์๋ฅผ ์ผ๋ค?โ๋ผ๊ณ ์๊ฐํ๋ฉฐ, ์ฌ์ง ์ **๋ชจ์ ๋ถ๋ถ๋ง ํ๋(Cropping)**ํด์ ๊ฒ์ํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ โ๋ถ์ ๋ชจ์ ํ๋งค์ ์์น๋ฅผ ๊ฒ์โํ๊ณ , ๊ทธ ์์น์ โCCTV ์์ ์กฐํโ ๋ฑ์ ๋ฐ๋ณตํฉ๋๋ค. ์ฆ, **โ๋ณด๊ธฐ โ ์๋ฅด๊ธฐ โ ๊ฒ์ โ ์๊ฐํ๊ธฐ โ ๋ค์ ๊ฒ์โ**์ ์์ญ ๋ฒ ๋ฐ๋ณตํ๋ฉฐ ๋ฒ์ธ์ ์ถ์ ํฉ๋๋ค.
๐ ๏ธ ๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ์์คํ ์ ํฌ๊ฒ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ๊ณผ ํ์ต(RL) ๋ ๋ถ๋ถ์ผ๋ก ๋๋ฉ๋๋ค.
- Multi-scale Visual Cropping (์ด๋ฏธ์ง ์ ์ ํ ์ชผ๊ฐ๊ธฐ):
- ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ํต์งธ๋ก ์ฐ์ง ์์ต๋๋ค. ์ง๋ฌธ๊ณผ ๊ด๋ จ ์๋ ๋ถ๋ถ๋ง ์๋ผ์ ๊ฒ์ ์ฟผ๋ฆฌ๋ก ๋ง๋ญ๋๋ค. (์: โ์ด ์ฌ์ง์ ์๋์ฐจ ๋ชจ๋ธ์ด ๋ญ์ผ?โ โ ์๋์ฐจ ๋ถ๋ถ๋ง cropํด์ Google Lens์ ๊ฒ์)
- Long-horizon Trajectory Generation (๊ธด ์ฌ์ ์ ๋ฐ์ดํฐ ๋ง๋ค๊ธฐ):
- ์ฌ๋์ด ์ฐ๊ตฌํ๋ฏ, ํ ๋ฒ ๊ฒ์์ผ๋ก ๋๋์ง ์๊ณ ์์ญ ๋จ๊ณ์ ๊ฒ์๊ณผ ์ถ๋ก ์ด ์ด์ด์ง๋ โ๊ธด ๊ถค์ (Trajectory)โ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ญ๋๋ค. ํ ์คํธ์ฉ DeepResearch ๋ชจ๋ธ๊ณผ ์๊ฐ์ฉ MLLM์ ํ๋์์ผ ๊ณ ํ์ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค.
- Verification & Obfuscation (๊ฒ์ฆ๊ณผ ๊ฐ๋ฆฌ๊ธฐ):
- ์์ฑ๋ ๋ฐ์ดํฐ๊ฐ ์ฌ์ค์ธ์ง ๊ฒ์ฆํ๊ณ , ๋ชจ๋ธ์ด ์ธ์์ ๋งํ์ง ์๊ณ ์ง์ง ๊ฒ์ ๋ฅ๋ ฅ์ ๊ธฐ๋ฅด๋๋ก ์ผ๋ถ ์ ๋ณด๋ฅผ ๊ฐ๋ ค์(Obfuscation) ํ์ต ๋ฐ์ดํฐ๋ก ์๋๋ค.
- RL Training (๊ฐํ ํ์ต):
- โ๋ ๊ธธ๊ฒ ์๊ฐํ๊ณ ๋ ์ ํํ ๋๊ตฌ๋ฅผ ์ด ๋ชจ๋ธโ์๊ฒ ๋ณด์(Reward)์ ์ฃผ์ด, ์ค์ค๋ก ๊น๊ฒ ํ๊ณ ๋๋ ์ต๊ด์ ๋ชธ์ ๋ฐฐ๊ฒ ํฉ๋๋ค.
โ๏ธ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ์์ฝ
๋ ผ๋ฌธ์์ ์ ์ํ๋ ํ์ดํ๋ผ์ธ์ ๋ค์๊ณผ ๊ฐ์ด ์์ฝํ ์ ์์ต๋๋ค.
- Input: ์ด๋ฏธ์ง $I$ + ์ง๋ฌธ $Q$
- Reasoning: ํ์ฌ ์ํฉ์์ ๋ฌด์์ ๊ฒ์ํ ์ง ๊ฒฐ์ (Action $a_t$)
- Tool Use (Cropping):
- $I$์์ ์ค์ํ ์์ญ $R$์ ์ถ์ถ (Crop)
- Search($R$, $text_query$) ์คํ
- Observation: ๊ฒ์ ๊ฒฐ๊ณผ $O_t$ ํ๋
- Update: $O_t$๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ Action ๊ฒฐ์ (์ต๋ ์์ญ ๋จ๊ณ ๋ฐ๋ณต)
- Answer: ๋ชจ๋ ์ ๋ณด๋ฅผ ์ข ํฉํ์ฌ ์ต์ข ๋ต๋ณ ์์ฑ
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ด ์ผ๋ง๋ **โ๋ณต์กํ ์ง๋ฌธ์ ์ ํด๊ฒฐํ๋์งโ**๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ์คํ์ ์งํํ์ต๋๋ค.
-
์ฃผ์ ๋ฒค์น๋งํฌ:
- MMSearch / MMSearch-Plus: ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํจ๊ป ๊ฒ์ํด์ผ ํ๋ ๋ณต์กํ ์คํ ๋๋ฉ์ธ ์ง๋ฌธ ์ธํธ.
- LiveVQA: ์ค์๊ฐ์ฑ์ด ์ค์ํ ์ต์ ์ ๋ณด๊ฐ ํ์ํ ์ง๋ฌธ.
- VDR, FVQA: ์ฌ์ค(fact) ๊ธฐ๋ฐ์ ์๊ฐ ์ง์์๋ต.
-
์ฑ๋ฅ ํฅ์ ์์น (๊ตฌ์ฒด์ ๋ฐ์ดํฐ):
- ๊ธฐ๋ณธ ๋ชจ๋ธ(Qwen3-VL-8B-Instruct) ๋๋น: Vision-DeepResearch-8B๋ ํ๊ท +10.4% ํฅ์๋์์ต๋๋ค.
- ํนํ ๊ฒ์์ด ์ค์ํ MMSearch์์: ๋ฌด๋ ค **+17.6%**๋ผ๋ ์๋์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค. (์ด๋ฏธ์ง๋ฅผ ์๋ผ์ ๊ฒ์ํ๋ ์ ๋ต์ ํจ๊ณผ ์ ์ฆ)
- LiveVQA์์: +13.7% ํฅ์.
- ๋ชจ๋ธ ํฌ๊ธฐ ํค์ ์ ๋(30B): ํ๊ท ์ ์๊ฐ **56.9%**๊น์ง ์ฌ๋ผ๊ฐ์ผ๋ฉฐ, ํนํ ๋ณต์กํ ๋ฒค์น๋งํฌ์ธ MMSearch-Plus์์๋ **+18.5%**์ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ ์ค์ผ์ผ๋ง ๋ฒ์น(๋ชจ๋ธ์ด ์ปค์ง์๋ก ์ฑ๋ฅ์ด ์ข์์ง)์ด ๋ฐ๋ฅธ๋ค๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
-
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ:
- RL ํ๋ จ์ ํจ๊ณผ: RL ํ๋ จ์ ํ์ง ์์ ๋ชจ๋ธ์ ์งง์ ์ถ๋ก ์ ๋จธ๋ฌผ๋ ์ง๋ง, RL ํ๋ จ ํ์๋ ํ๊ท Trajectory(๊ฒ์ ๋จ๊ณ ์)๊ฐ ๊ธธ์ด์ง๊ณ ์ ๋ต๋ฅ (Reward)์ด ๋์์ ์์นํ์ต๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ๊ฒ์๋ฌ์ง์ง ์๊ณ ๋๊ธฐ ์๊ฒ ํ์ํ๊ฒ ๋์์ต๋๋ค.
- Cropping์ ์ค์์ฑ: ์ด๋ฏธ์ง๋ฅผ ์๋ฅด์ง ์๊ณ ํต์งธ๋ก ๊ฒ์(WIS)ํ์ ๋๋ณด๋ค, ์๋ผ์ ๊ฒ์(CIS)ํ์ ๋ ์ฑ๋ฅ์ด ํจ์ฌ ์ข์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
-
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ (์์์ /๋ช ์์ ):
- Hit-rate ๋ฌธ์ : ๊ฒ์ ์์ง ์์ฒด๊ฐ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ฐพ์์ฃผ์ง ์์ผ๋ฉด(Hit-rate๊ฐ ๋ฎ์ผ๋ฉด) ๋ชจ๋ธ์ด ์๋ฌด๋ฆฌ ์ํด๋ ๋ต์ ๋ชป ์ฐพ์ต๋๋ค. ์ฆ, ์ธ๋ถ ๊ฒ์ ์์ง์ ์ฑ๋ฅ์ ์์กด์ ์ ๋๋ค.
- ๋น์ฉ๊ณผ ์๋: ์์ญ ๋ฒ์ ๊ฒ์๊ณผ ์ถ๋ก ์ ๋ฐ๋ณตํ๋ฏ๋ก, ๋ต๋ณ ์์ฑ ์๋(Latency)๊ฐ ๋๋ฆฌ๊ณ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. ์ค์๊ฐ์ฑ์ด ๋งค์ฐ ์ค์ํ ์๋น์ค์๋ ๋ฐ๋ก ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค.
- ๋ฐ์ดํฐ ์์กด์ฑ: ๊ณ ํ์ง์ โ๊ธด ๊ถค์ (Long-horizon trajectory)โ ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ํ์ดํ๋ผ์ธ์ด ๋งค์ฐ ๋ณต์กํ๊ณ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค.
-
๊ฐ์ ๊ฐ๋ฅํ ์ (๋ฏธ๋ ์ฐ๊ตฌ):
- ๋ ๋น ๋ฅธ ๊ฒ์ ์์ง ์ฐ๋์ด๋ ์ ์ ๋จ๊ณ๋ก๋ ๊ฐ์ ์ฑ๋ฅ์ ๋ด๋ โํจ์จ์ ์ธ ๊ฒ์ ์ ๋ตโ ์ฐ๊ตฌ๊ฐ ํ์ํ ๊ฒ์ ๋๋ค.
- ์ ์ ์ด๋ฏธ์ง๋ฟ๋ง ์๋๋ผ ๋์์(Video) ๋ฐ์ดํฐ๋ก ํ์ฅํ์ฌ Deep Research๋ฅผ ์ํํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํ ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ **โ์ ๋ณด๊ฐ ๋ณต์กํ๊ฒ ์ฝํ ์๊ณ , ๋จ์ ๊ฒ์์ผ๋ก๋ ๋ต์ด ์ ๋์ค๋ ๋ถ์ผโ**์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค.
-
์ ์ฉ ๊ฐ๋ฅ ๋ถ์ผ:
- ๊ธฐ์ ๋ฆฌ์์น & ๋ถ์ ๋ณด๊ณ ์ ์์ฑ: ์ฐจํธ, ๊ทธ๋ํ, ํ ์คํธ๊ฐ ์์ธ ์์ญ ์ชฝ์ PDF ๋ณด๊ณ ์๋ฅผ ๋ถ์ํ์ฌ ์์ฅ ๋ํฅ์ ์ข ํฉํ ๋.
- ์ ์์๊ฑฐ๋ ์ด๋ฏธ์ง ๋ถ์: ์ฌ์ฉ์๊ฐ ์ฌ๋ฆฐ ๋ถ๋ช ํํ ์ ํ ์ฌ์ง์ ๋ณด๊ณ โ์ด ์ท ๋ธ๋๋๊ฐ ๋ญ์ผ? ๊ทธ๋ฆฌ๊ณ ์ต์ ๊ฐ๊ฒฉ์ ์ผ๋ง์ผ?โ๋ฅผ ๋ฌผ์ด๋ณด๋ฉด, ์ด๋ฏธ์ง ์ ์ท ํ๊ทธ๋ฅผ ์ธ์ํ๊ณ ์ผํ๋ชฐ์ ๊ฒ์ํด ์ต์ ๊ฐ๋ฅผ ์ฐพ์์ฃผ๋ ์ผํ ์ด์์คํดํธ.
- ๋ฒ๋ฅ /์๋ฃ ๋ถ์: ์๋ฃ ์์(X-ray ๋ฑ)์ ๋ณด๊ณ ์ต์ ํ์ ๋ ผ๋ฌธ ๊ฒ์์ ํตํด ์ง๋จ์ ๋ณด์กฐํ๊ฑฐ๋, ๋ณต์กํ ๊ณ์ฝ์ ์ด๋ฏธ์ง์ ๊ด๋ จ ๋ฒ๋ฅ ์ ํฌ๋กค๋งํด์ ๋ฆฌ๋ทฐํด ์ฃผ๋ ์์คํ .
-
ํ์ํ ๋ฆฌ์์ค:
- GPU: ์ ์ด๋ Llama-3.1-8B๋ Qwen2.5-7B ์ ๋์ ๋ชจ๋ธ์ fine-tuningํ ์ ์๋ A100(40GB
80GB) 14์ฅ ํน์ H100 ํ๊ฒฝ์ด ํ์ํฉ๋๋ค. (30B ๋ชจ๋ธ์ ๋๋ฆฌ๋ ค๋ฉด ๋ฉํฐ-GPU ํ์) - ๋ฐ์ดํฐ: ๊ฒ์ ์์ง API (Google Search API, Bing Search API ๋ฑ)์ ๊ฒ์ ๋ก๊ทธ๋ฅผ ๊ตฌ์ถํ ์ ์๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค๊ฐ ํ์ํฉ๋๋ค.
- ์๊ฐ: Long-horizon trajectory ํ์ต์ ๋ฐ์ดํฐ ์์ฑ๊ณผ RL ํ๋ จ ์๊ฐ์ด ์ผ๋ฐ์ ์ธ Fine-tuning๋ณด๋ค ํจ์ฌ ์ค๋ ๊ฑธ๋ฆฝ๋๋ค.
- GPU: ์ ์ด๋ Llama-3.1-8B๋ Qwen2.5-7B ์ ๋์ ๋ชจ๋ธ์ fine-tuningํ ์ ์๋ A100(40GB
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- MLLM (Multimodal Large Language Model): ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ(์ ๋ ฅ ํํ)๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๋๋ค. (์: GPT-4o, Claude 3.5 Sonnet)
- ReAct (Reason + Act): AI๊ฐ ํ๋(Action)์ ์ทจํ๊ธฐ ์ ์ ์ถ๋ก (Reasoning)์ ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ๋ค์ ์ถ๋ก ํ๋ ๋ฐ๋ณต์ ์ธ ์ฌ๊ณ ๋ฐฉ์์ ๋๋ค. (๋๊ตฌ ์ฌ์ฉ Tool Use์ ๊ธฐ์ด)
- VQA (Visual Question Answering): ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ ์ง๋ฌธ์ ํ์ ๋, AI๊ฐ ์ด๋ฏธ์ง์ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ๋ต๋ณํ๋ ๊ณผ์ ์ ๋๋ค.
- RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ์ด ๋ด๋ถ์ ์ ์ฅ๋ ์ง์๋ง ์ฐ๋ ๊ฒ ์๋๋ผ, ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ํ์ํ ์ ๋ณด๋ฅผ ์ฐพ์(Retrieve) ๋ต๋ณ ์์ฑ(Generation)์ ํ์ฉํ๋ ๊ธฐ์ ์ ๋๋ค. (์ด ๋ ผ๋ฌธ์ ์ด๋ฅผ ๋ ๊น๊ฒ ํ์ฅํ ๋ฒ์ )
- RLHF (Reinforcement Learning from Human Feedback): ์ธ๊ฐ์ ํผ๋๋ฐฑ์ด๋ ๋ณด์ ์์คํ ์ ํตํด ๋ชจ๋ธ์ด ์ธ๊ฐ์ด ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ต๋ณ์ ์์ฑํ๋๋ก ํ๋ํ๋ ๊ฐํ ํ์ต ๊ธฐ๋ฒ์ ๋๋ค.
- Object Detection / Grounding: ์ด๋ฏธ์ง ์์์ ํน์ ๋ฌผ์ฒด(๊ฐ, ์๋์ฐจ ๋ฑ)์ ์์น๋ฅผ ์ฐพ์๋ด๊ณ ๋ฐ์ค(Bounding Box)๋ก ์ณ์ฃผ๋ ๊ธฐ์ ์ ๋๋ค. (์ด ๋ ผ๋ฌธ์ Cropping ์ ๋ต๊ณผ ๊ด๋ จ ์์)
- Trajectory (๊ถค์ ): AI๊ฐ ์ด๊ธฐ ์ง๋ฌธ์ ๋ฐ๊ณ ์ต์ข ๋ต๋ณ์ ๋ด๊ธฐ๊น์ง ๊ฑฐ์น ์ค๊ฐ ๋จ๊ณ๋ค์ ๊ธฐ๋ก(์๊ฐ, ๊ฒ์, ๊ด์ฐฐ ๋ฑ์ ์ํ์ค)์ ์๋ฏธํฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Green-VLA: Staged Vision-Language-Aโฆ | DD-017 |
| ๐ฅ | ERNIE 5.0 Technical Report | DD-016 |
| ๐ฅ | Kimi K2.5: Visual Agentic Intelligeโฆ | DD-018 |
| 4. | Vision-DeepResearch: Incentivizing โฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | PaperBanana: Automating Academic Ilโฆ | DD-020 |
๐ ์์ฑ์ผ: 2026-02-08 | ๐ค GLM-4.7 Deep Dive