โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-006 Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
arXiv: 2601.06943 ๊ธฐ๊ด: QuantaAlpha Upvotes: 209 | Comments: 7 ์์: ์ด๋ฒ ์ฃผ Top 1

๐ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: Watching, Reasoning, and Searching (VideoDR)
๋ ผ๋ฌธ ์ ๋ณด: Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning (arXiv: 2601.06943)
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋น๋์ค ์ดํด AI๋ ์ฃผ๋ก โ์์ ์์ ์๋ ์ ๋ณด๋ง์ผ๋กโ ์ง๋ฌธ์ ๋ตํ๋ ค ํ์ง๋ง, ํ์ค ์ธ๊ณ์ ๋ณต์กํ ์ง๋ฌธ์ ์์ ์ ๋จ์๋ฅผ ์ฐพ์ ์น ๊ฒ์์ ํตํด ์ธ๋ถ ์ง์๊ณผ ๊ฒฐํฉํด์ผ๋ง ํ ์ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋น๋์ค๋ฅผ ๋จ์ํ ์๊ฐ์ ์๋ฃ๊ฐ ์๋ **โํ์์ ์ํ ๋จ์(Clue)โ**๋ก ํ์ฉํ๊ณ , ์น์์ ์ ๋ณด์ ์ข ํฉํ์ฌ ๋ต์ ๋ด๋ ์๋ก์ด ๋ฒค์น๋งํฌ(VideoDR)๋ฅผ ์ต์ด๋ก ์ ์ํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ต๏ธโโ๏ธ ์ผ์์ํ ๋น์ : โํ์ ๋ AIโ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ **โ๋ฒ์ฃ ํ์ฅ์ CCTV๋ฅผ ๋ณด๋ ํ์ โ**์ ๋น์ ํ ์ ์์ต๋๋ค.
- ๊ธฐ์กด ๋ฐฉ์ (Closed-evidence): CCTV ์์๋ง ๋ณด๊ณ โ๋ฒ์ธ์ ๋๊ตฌ์ผ?โ๋ผ๊ณ ๋ฌผ์ผ๋ฉด, AI๋ ์์ ์์ ์ผ๊ตด์ด ๋์ค์ง ์์๊ธฐ ๋๋ฌธ์ โ๋ชจ๋ฅด๊ฒ ๋คโ๊ณ ๋ตํฉ๋๋ค.
- ์ด ๋
ผ๋ฌธ์ ๋ฐฉ์ (VideoDR):
- Watching (๊ด์ฐฐ): CCTV ์์์ ๋ณด๋ค๊ฐ ๋ฒ์ธ์ด ์ ๊ณ ์๋ **โํน์ดํ ๋ก๊ณ ๊ฐ ์๋ ํฐ์ ์ธ โ**๋ฅผ ๋ฐ๊ฒฌํฉ๋๋ค. (๋น๋์ค ์ ์๊ฐ์ ๋จ์ ์ถ์ถ)
- Searching (์์ฌ): ์ด ๋ก๊ณ ๊ฐ ๋ฌด์์ธ์ง ๋ชจ๋ฅด์ง๋ง, ๊ตฌ๊ธ์ **โ์ด ๋ก๊ณ ๊ฐ ๊ทธ๋ ค์ง ํฐ์ ์ธ ํ๋งค์ฒโ**๋ฅผ ๊ฒ์ํฉ๋๋ค. (์คํ ์น ๊ฒ์)
- Reasoning (์ถ๋ก ): ๊ฒ์ ๊ฒฐ๊ณผ ํด๋น ํฐ์ ์ธ ๋ โA ๋ํธํโ ์ ์ฉ ๋ฌผํ์ด๋ผ๋ ๊ฒ์ ์์๋ด๊ณ , ๋ค์ ๋ํธํ ๋ช ๋จ์ ๊ฒ์ํ์ฌ ๋ฒ์ธ์ ์ ์์ ํ์ ํฉ๋๋ค. (๋ฉํฐ-ํ ์ถ๋ก )
โ๏ธ ๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ์์คํ ์ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ๋ต์ ๋์ถํฉ๋๋ค.
- ๋น๋์ค ์ต์ปค ์ถ์ถ (Cross-frame Visual Anchor Extraction): ๊ธด ๋น๋์ค์์ ์ง๋ฌธ๊ณผ ๊ด๋ จ๋ ํต์ฌ ์ฅ๋ฉด(ํ๋ ์)์ ์ฐพ์๋ ๋๋ค. ์: ์ํ ๋ฆฌ๋ทฐ ์์์์ โ์ด ์ํ์ ์ค์ ์์ ์์ค์ ๋ฌด์์ธ๊ฐ?โ๋ผ๋ ์ง๋ฌธ์ด ๋ค์ด์ค๋ฉด, ์ฑ ํ์ง๊ฐ ์ ๊น ๋์ค๋ ๊ทธ ์ฅ๋ฉด์ ์บก์ฒํฉ๋๋ค.
- ๋ํํ ์น ๊ฒ์ (Interactive Web Retrieval): ์ถ์ถํ ์๊ฐ์ ๋จ์๋ฅผ ํ ์คํธ๋ก ๋ณํํ๊ฑฐ๋ ๋ฌ์ฌํ์ฌ ๊ฒ์ ์์ง์ ์ฟผ๋ฆฌ๋ฅผ ๋์ง๋๋ค. ๋จ์ํ ํ ๋ฒ ๊ฒ์ํ๊ณ ๋๋๋ ๊ฒ ์๋๋ผ, ๋ถ์กฑํ ์ ๋ณด๊ฐ ์์ผ๋ฉด ๋ค์ ๊ฒ์ํ๋ ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค.
- ์ฆ๊ฑฐ ๊ธฐ๋ฐ ๊ฒ์ฆ (Multi-hop Reasoning Verification): ๋น๋์ค์์ ๋ณธ ๊ฒ๊ณผ ์น์์ ์ฐพ์ ์ ๋ณด๋ฅผ ์ฎ์ด์ ์ต์ข ๋ต์์ ๋์ถํฉ๋๋ค. ๋จ์ํ ์น์ ํ ์คํธ๋ฅผ ๋ณต์ฌํ๋ ๊ฒ ์๋๋ผ, ๋น๋์ค์ ๋งฅ๋ฝ๊ณผ ๋ง๋์ง ๊ต์ฐจ ๊ฒ์ฆ(Cross-check)ํฉ๋๋ค.
๐งฎ ํต์ฌ ์์ ๋ฐ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์์ (Task)์ ์ํ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ํํ๋ฉ๋๋ค.
$$ f: (V, Q; S) \rightarrow A $$
- $V$ (Video): ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง ๋น๋์ค (ํ์ ์ด ๋ณธ CCTV)
- $Q$ (Question): ์ฌ์ฉ์์ ์ง๋ฌธ (์๋ขฐ์ธ์ ์์ฒญ)
- $S$ (Search Tool): AI๊ฐ ์ฌ์ฉํ ์ ์๋ ์น ๊ฒ์ ๋๊ตฌ (ํ์ ์ ์ค๋งํธํฐ ๊ฒ์์ฐฝ)
- $A$ (Answer): ์ต์ข ์ ์ผ๋ก ๋์ถ๋ ์ฌ์ค์ ๊ธฐ๋ฐํ ๋ต๋ณ
์ด๋ ๋ชจ๋ธ์ ๋จ์ํ $V$์ $Q$๋ง ๋ณด๋ ๊ฒ ์๋๋ผ, ํ์ํ ๋๋ง๋ค $S$๋ฅผ ํธ์ถํ์ฌ ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ค๊ณ (Fetch), ์๊ฐ(Think) ๊ณผ์ ์ ๊ฑฐ์ณ $A$๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๐ ์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ๋?
์ ์๋ค์ VideoDR์ด๋ผ๋ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ฌ ํ ์คํธํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ 6๊ฐ์ ์๋ฏธ ๋๋ฉ์ธ(์: ์ํฐํ ์ธ๋จผํธ, ์ง๋ฆฌ, ์ญ์ฌ ๋ฑ)์ ์์ฐ๋ฅด๋ฉฐ, ๋ฐ๋์ ๋น๋์ค๋ฅผ ๋ณด๊ณ ์น ๊ฒ์์ ํด์ผ ํ ์ ์๋ ๋ฌธ์ ๋ค๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
โ๏ธ Workflow vs. Agentic (๊ฒฝ์ ๋ชจ๋ธ ๋น๊ต)
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ ์ ์์คํ ์ ์ค๊ณํ๋ ๋ ๊ฐ์ง ํจ๋ฌ๋ค์์ ๋น๊ตํ ๊ฒ์ ๋๋ค.
- Workflow (์ํฌํ๋ก์ฐ ๋ฐฉ์):
- 1๋จ๊ณ: ๋น๋์ค๋ฅผ ๋ณด๊ณ ํ ์คํธ๋ก ๋ ๋จ์๋ฅผ ์ถ์ถ (๋น๋์ค ์ ๊ทผ ๋)
- 2๋จ๊ณ: ์ถ์ถ๋ ํ ์คํธ๋ฅผ ๊ฐ์ง๊ณ ์น ๊ฒ์ ๋ฐ ์ถ๋ก ์ํ
- ๋ง์น: ํ ์ฌ์์ด ์์์ ๋ถ์ํ๊ณ ๋ณด๊ณ ์๋ฅผ ์ฐ๋ฉด, ๋ค๋ฅธ ์ฌ์์ด ๊ทธ ๋ณด๊ณ ์๋ฅผ ๋ณด๊ณ ์กฐ์ฌ๋ฅผ ํ๋ ๋๋.
- Agentic (์์ด์ ํธ ๋ฐฉ์):
- End-to-End: ํ๋์ AI์๊ฒ ๋น๋์ค์ ๊ฒ์ ๋๊ตฌ๋ฅผ ๋ชจ๋ ์ฃผ๊ณ , ์์์ โ์ธ์ ์์์ ๋ค์ ๋ณผ์งโ, โ์ธ์ ๊ฒ์ํ ์งโ ์ค์ค๋ก ํ๋จํ๊ฒ ํจ.
- ๋ง์น: ํ ์๋์ด ํ์ ์๊ฒ ์์๊ณผ ๋ ธํธ๋ถ์ ์ฃผ๊ณ ํผ์์ ์์ ๋กญ๊ฒ ์์ฌํ๊ฒ ํ๋ ๋๋.
๐ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ์ ์์น
- Agentic์ ๋ฌด์กฐ๊ฑด์ ์ฐ์๊ฐ ๊นจ์ง: ๋ณดํต โAI ์์ด์ ํธ๊ฐ ๋ ์์จ์ ์ด๋๊น ์ฑ๋ฅ์ด ์ข๊ฒ ์ง?โ๋ผ๊ณ ์๊ฐํ์ง๋ง, ๊ฒฐ๊ณผ๋ ๊ทธ๋ ์ง ์์์ต๋๋ค.
- ํด๋ก์ฆ๋ ์์ค ๋ชจ๋ธ(GPT ๊ณ์ด, Gemini ๋ฑ): Agentic ๋ฐฉ์์ด ์ํฌํ๋ก์ฐ ๋ฐฉ์๊ณผ ๋น์ทํ๊ฑฐ๋ ์ฝ๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ณต์กํ ๊ณํ์ ์ธ์ธ ๋ฅ๋ ฅ์ด ๋๋๊น์.
- ์คํ ์์ค ๋ชจ๋ธ(Qwen, InternVL ๋ฑ): ์คํ๋ ค Workflow ๋ฐฉ์์ด Agentic ๋ฐฉ์๋ณด๋ค ์ฑ๋ฅ์ด ๋ ์ข์์ต๋๋ค.
- ์ด์ : ์คํ ์์ค ๋ชจ๋ธ์ด ์ค์ค๋ก ํ๋จํด์ ๊ฒ์์ ํ๊ฑฐ๋ ๋ค์ ์์์ ๋ณด๋(Initiative) ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์์จ์ฑ์ ์ฃผ๋ฉด ์คํ๋ ค ์๋ฑํ ๊ฒ์์ ํ๊ฑฐ๋ loop์ ๋น ์ง๋ ๊ฒฝํฅ์ด ์์์ต๋๋ค.
- ํ๊ฐ ๋ฐฉ๋ฒ: ์ ๋ต๊ณผ ๋ชจ๋ธ์ ๋ต๋ณ์ GPT-4๊ธ ๋ชจ๋ธ(DeepSeek-V3)์ด ํ์ฌ(LLM-as-a-Judge) ์ญํ ์ ํ์ฌ ์๋ฏธ์ ๋์ผ์ฑ์ ํ๊ฐํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
โ ๏ธ ์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
- ๋ชจ๋ธ์ โ์ฃผ๋๊ถ(Initiative)โ ๋ถ์กฑ: Agentic ๋ฐฉ์์ด ๋ฌด์กฐ๊ฑด ์ข์ง ์๋ค๋ ๊ฒ์, ํ์ฌ์ ๋ชจ๋ธ๋ค์ด ๋น๋์ค ๋ด์ฉ๊ณผ ์น ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ์ฌ โ๋ค์์ ๋ฌด์์ ํด์ผ ํ ์งโ๋ฅผ ์ค์ค๋ก ํ๋จํ๋ ๋ฅ๋ ฅ์ด ์์ง ๋ถ์กฑํจ์ ์๋ฏธํฉ๋๋ค.
- ํ๊ฐ์ ์ด๋ ค์: ๊ฐ๋ฐฉํ ์น(Open Web) ํ๊ฒฝ์ด๋ฏ๋ก, ๊ฒ์ ๊ฒฐ๊ณผ๋ ์๊ฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. ์ด๋ก ์ธํด ํ๊ฐ์ ์ฌํ์ฑ(Reproducibility)์ด ์๋ฒฝํ์ง ์์ ์ ์์ต๋๋ค.
- ๋น์ฉ: ๋น๋์ค๋ฅผ ์ฒ๋ฆฌํ๊ณ ์ฌ๋ฌ ๋ฒ ์น ๊ฒ์์ ์ํํ๋ ๊ณผ์ ์ ์ปดํจํ ์์๊ณผ ๋น์ฉ์ด ๋งค์ฐ ๋ง์ด ๋ญ๋๋ค.
๐ ๊ฐ์ ๊ฐ๋ฅ์ฑ (ํฅํ ์ฐ๊ตฌ)
- ๋ ๊ฐ๋ ฅํ ์คํ ์์ค ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ๊ฐ๋ฐ ํ์ (Agentic ๋ฐฉ์์ ์ ์ฌ๋ ฅ์ ์ด๋ฆฌ๊ธฐ ์ํด).
- ๋น๋์ค ์ต์ปค๋ฅผ ์ถ์ถํ๋ ๋จ๊ณ์ ์น ๊ฒ์ ๋จ๊ณ ์ฌ์ด์ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ๋ ์ ๊ตํ๊ฒ ์ค๊ณํ ํ์์ฑ ์์.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๐ ๏ธ ์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
- ์ฌ์ค ํ์ธ(Fact-checking) ๋ด: ์ ํ๋ธ๋ SNS์ ์ฌ๋ผ์จ ์ํ๋ฅผ ๋ณด๊ณ โ์ด ์์์ ๋ด์ฉ์ด ์ฌ์ค์ธ๊ฐ?โ๋ฅผ ์๋์ผ๋ก ํ๋ณํ๋ ๋ด ๊ฐ๋ฐ. (์: โ์ด ๋์์์ ๋์จ ๊ธฐํ ์ฌํด๊ฐ 2020๋ ํธ์ฃผ ์ฐ๋ถ ํ๋ฉด์ธ๊ฐ?โ)
- ๋ณตํฉํ ๊ณ ๊ฐ ์ง์: ์ ํ ์ฌ์ฉ๋ฒ ์์์ ๋ณด์ฌ์ฃผ๋ฉด์, โ์ด ์์ 3๋ถ 20์ด์ ๋์ค๋ ๋ถํ์ ์ต์ ๊ฐ๊ฒฉ์ด ์ผ๋ง์ผ?โ ๊ฐ์ ๋ณตํฉ์ ์ธ ์ง๋ฌธ์ ๋ตํ๋ ์ฑ๋ด.
- ๊ต์ก ๋ฐ ์ฐ๊ตฌ ๋ณด์กฐ: ๊ฐ์ ์์์ ๋ณด๋ฉด์ โ๊ต์๋์ด ์ธ๊ธํ ๊ทธ ์ด๋ก ์ ์ต๊ทผ์ ๋ฐ๋ฐํ ๋ ผ๋ฌธ์ด ์์ด?โ๋ผ๊ณ ๋ฌผ์ด๋ณด๊ณ ๊ฒ์ํด์ฃผ๋ ํํฐ๋ง ์์คํ .
๐ป ํ์ํ ๋ฆฌ์์ค
- GPU: ๊ณ ์ฑ๋ฅ ๋น๋์ค ์ฒ๋ฆฌ(Vision Encoder)์ ๋์ฉ๋ LLM ์ถ๋ก ์ด ํ์ํ๋ฏ๋ก, ์ต์ A100(40GB/80GB)๊ธ ๋๋ ํด๋ผ์ฐ๋ ์ธ์คํด์ค ํ์.
- API: ๊ตฌ๊ธ ๊ฒ์ API(Bing Search API ๋ฑ)์ ๊ฐ์ ์ค์๊ฐ ์น ๊ฒ์ ํด ์ฐ๋ ํ์.
- ๋ชจ๋ธ: GPT-4o, Gemini-2.0(Flash/Pro) ๋ฑ์ ์ต์ ๋ฉํฐ๋ชจ๋ธ ๋ชจ๋ธ ๋๋ Qwen2.5-VL, InternVL ๊ฐ์ ์คํ ์์ค ๋ชจ๋ธ.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Multimodal Large Language Models (MLLMs): ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง, ๋น๋์ค๋ฅผ ์ดํดํ๊ณ ์์ฑํ ์ ์๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ. (์: GPT-4V)
- RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ์ด ์ธ๋ถ ์ง์ ๋ฒ ์ด์ค๋ ์น์์ ์ ๋ณด๋ฅผ ๊ฒ์(Retrieval)ํ์ฌ ๋ต๋ณ ์์ฑ(Generation)์ ํ์ฉํ๋ ๊ธฐ์ .
- Agentic AI (์์ด์ ํธํ AI): ์ฌ์ฉ์๊ฐ ๋จ์ํ ์ง๋ฌธ๋ง ๋์ง๋ฉด, AI ์ค์ค๋ก ๋๊ตฌ(๊ฒ์, ์ฝ๋ ์คํ ๋ฑ)๋ฅผ ์ ํํ๊ณ ๊ณํ์ ์ธ์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ์์คํ .
- Chain-of-Thought (CoT): ๋ณต์กํ ์ถ๋ก ๋ฌธ์ ๋ฅผ ํ ๋, ์ ๋ต๋ง ๋ด๋ ๊ฒ ์๋๋ผ ์ธ๊ฐ์ฒ๋ผ ๋จ๊ณ๋ณ๋ก ์๊ฐํ๋ ๊ณผ์ ์ ๊ฑฐ์ณ ๋ต์ ๋์ถํ๋ ๋ฐฉ์.
- Open-Domain Question Answering: ํน์ ๋ฌธ์ ์งํฉ ์์ด ์๋๋ผ, ์ ์ฒด ์น์ด๋ ์คํ ์๋๋ฅผ ๋์์ผ๋ก ์ง๋ฌธ์ ๋ตํ๋ ์์คํ .
- Grounding: AI๊ฐ ์์ฑํ ํ ์คํธ ๋ต๋ณ์ด ์ค์ ์ฃผ์ด์ง ๋น๋์ค๋ ์ด๋ฏธ์ง์ ๊ทผ๊ฑฐํ๊ณ ์๋์ง ํ์ธํ๋ ๊ณผ์ .
- LLM-as-a-Judge: AI ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ๋ ์ฌ๋ ๋์ ๋ ๊ฐ๋ ฅํ ๋ค๋ฅธ LLM์ ์ด์ฉํด ๋ต๋ณ์ ์ ํ๋๋ฅผ ํ๋จํ๋ ๋ฐฉ๋ฒ๋ก .
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Watching, Reasoning, and Searching:โฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | BabyVision: Visual Reasoning Beyondโฆ | DD-007 |
| ๐ฅ | STEP3-VL-10B Technical Report | DD-008 |
| 4. | Thinking with Map: Reinforced Paralโฆ | DD-009 |
| 5. | Urban Socio-Semantic Segmentation wโฆ | DD-010 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive