DD-006 Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

arXiv: 2601.06943 기관: QuantaAlpha Upvotes: 209 | Comments: 7 순위: 이번 주 Top 1

📄 논문 리뷰: Watching, Reasoning, and Searching (VideoDR)

논문 정보: Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning (arXiv: 2601.06943)

1. 왜 이 논문이 중요한가?

기존의 비디오 이해 AI는 주로 ‘영상 안에 있는 정보만으로’ 질문에 답하려 했지만, 현실 세계의 복잡한 질문은 영상 속 단서를 찾아 웹 검색을 통해 외부 지식과 결합해야만 풀 수 있습니다. 이 논문은 비디오를 단순한 시각적 자료가 아닌 **‘탐색을 위한 단서(Clue)‘**로 활용하고, 웹상의 정보와 종합하여 답을 내는 새로운 벤치마크(VideoDR)를 최초로 제시했습니다.

2. 핵심 아이디어 쉽게 이해하기

🕵️‍♂️ 일상생활 비유: “탐정된 AI”

이 논문의 핵심을 **‘범죄 현장의 CCTV를 보는 탐정’**에 비유할 수 있습니다.

기존 방식 (Closed-evidence): CCTV 영상만 보고 “범인은 누구야?”라고 물으면, AI는 영상 속에 얼굴이 나오지 않았기 때문에 “모르겠다”고 답합니다.
이 논문의 방식 (VideoDR):
1. Watching (관찰): CCTV 영상을 보다가 범인이 입고 있는 **“특이한 로고가 있는 티셔츠”**를 발견합니다. (비디오 속 시각적 단서 추출)
2. Searching (수사): 이 로고가 무엇인지 모르지만, 구글에 **“이 로고가 그려진 티셔츠 판매처”**를 검색합니다. (오픈 웹 검색)
3. Reasoning (추론): 검색 결과 해당 티셔츠는 “A 동호회” 전용 물품이라는 것을 알아내고, 다시 동호회 명단을 검색하여 범인의 신원을 확정합니다. (멀티-홉 추론)

⚙️ 단계별 동작 원리

이 시스템은 크게 세 가지 단계를 거쳐 답을 도출합니다.

비디오 앵커 추출 (Cross-frame Visual Anchor Extraction): 긴 비디오에서 질문과 관련된 핵심 장면(프레임)을 찾아냅니다. 예: 영화 리뷰 영상에서 “이 영화의 실제 원작 소설은 무엇인가?”라는 질문이 들어오면, 책 표지가 잠깐 나오는 그 장면을 캡처합니다.
대화형 웹 검색 (Interactive Web Retrieval): 추출한 시각적 단서를 텍스트로 변환하거나 묘사하여 검색 엔진에 쿼리를 던집니다. 단순히 한 번 검색하고 끝나는 게 아니라, 부족한 정보가 있으면 다시 검색하는 과정을 반복합니다.
증거 기반 검증 (Multi-hop Reasoning Verification): 비디오에서 본 것과 웹에서 찾은 정보를 엮어서 최종 답안을 도출합니다. 단순히 웹의 텍스트를 복사하는 게 아니라, 비디오의 맥락과 맞는지 교차 검증(Cross-check)합니다.

🧮 핵심 수식 및 알고리즘

이 논문에서 정의하는 작업(Task)은 수학적으로 다음과 같이 표현됩니다.

$$ f: (V, Q; S) \rightarrow A $$

$V$ (Video): 입력으로 주어진 비디오 (탐정이 본 CCTV)
$Q$ (Question): 사용자의 질문 (의뢰인의 요청)
$S$ (Search Tool): AI가 사용할 수 있는 웹 검색 도구 (탐정의 스마트폰 검색창)
$A$ (Answer): 최종적으로 도출된 사실에 기반한 답변

이때 모델은 단순히 $V$와 $Q$만 보는 게 아니라, 필요할 때마다 $S$를 호출하여 정보를 가져오고(Fetch), 생각(Think) 과정을 거쳐 $A$를 출력합니다.

3. 실험 결과 분석

🏆 어떤 벤치마크에서 테스트했나?

저자들은 VideoDR이라는 새로운 데이터셋을 구축하여 테스트했습니다. 이 데이터셋은 6개의 의미 도메인(예: 엔터테인먼트, 지리, 역사 등)을 아우르며, 반드시 비디오를 보고 웹 검색을 해야 풀 수 있는 문제들로 구성되어 있습니다.

⚖️ Workflow vs. Agentic (경쟁 모델 비교)

이 논문의 가장 흥미로운 점은 시스템을 설계하는 두 가지 패러다임을 비교한 것입니다.

Workflow (워크플로우 방식):
- 1단계: 비디오를 보고 텍스트로 된 단서를 추출 (비디오 접근 끝)
- 2단계: 추출된 텍스트를 가지고 웹 검색 및 추론 수행
- 마치: 한 사원이 영상을 분석하고 보고서를 쓰면, 다른 사원이 그 보고서를 보고 조사를 하는 느낌.
Agentic (에이전트 방식):
- End-to-End: 하나의 AI에게 비디오와 검색 도구를 모두 주고, 알아서 “언제 영상을 다시 볼지”, “언제 검색할지” 스스로 판단하게 함.
- 마치: 한 시니어 탐정에게 영상과 노트북을 주고 혼자서 자유롭게 수사하게 하는 느낌.

📈 주목할 만한 성과와 수치

Agentic의 무조건적 우위가 깨짐: 보통 “AI 에이전트가 더 자율적이니까 성능이 좋겠지?”라고 생각하지만, 결과는 그렇지 않았습니다.
- 클로즈드 소스 모델(GPT 계열, Gemini 등): Agentic 방식이 워크플로우 방식과 비슷하거나 약간 더 좋은 성능을 보였습니다. 복잡한 계획을 세울 능력이 되니까요.
- 오픈 소스 모델(Qwen, InternVL 등): 오히려 Workflow 방식이 Agentic 방식보다 성능이 더 좋았습니다.
- 이유: 오픈 소스 모델이 스스로 판단해서 검색을 하거나 다시 영상을 보는(Initiative) 능력이 부족하기 때문입니다. 자율성을 주면 오히려 엉뚱한 검색을 하거나 loop에 빠지는 경향이 있었습니다.
평가 방법: 정답과 모델의 답변을 GPT-4급 모델(DeepSeek-V3)이 판사(LLM-as-a-Judge) 역할을 하여 의미적 동일성을 평가했습니다.

4. 한계점과 향후 연구 방향

⚠️ 저자가 언급한 한계

모델의 ‘주도권(Initiative)’ 부족: Agentic 방식이 무조건 좋지 않다는 것은, 현재의 모델들이 비디오 내용과 웹 검색 결과를 종합하여 “다음에 무엇을 해야 할지”를 스스로 판단하는 능력이 아직 부족함을 의미합니다.
평가의 어려움: 개방형 웹(Open Web) 환경이므로, 검색 결과는 시간에 따라 달라질 수 있습니다. 이로 인해 평가의 재현성(Reproducibility)이 완벽하지 않을 수 있습니다.
비용: 비디오를 처리하고 여러 번 웹 검색을 수행하는 과정은 컴퓨팅 자원과 비용이 매우 많이 듭니다.

🚀 개선 가능성 (향후 연구)

더 강력한 오픈 소스 멀티모달 모델 개발 필요 (Agentic 방식의 잠재력을 살리기 위해).
비디오 앵커를 추출하는 단계와 웹 검색 단계 사이의 피드백 루프를 더 정교하게 설계할 필요성 있음.

5. 실무 적용 가능성

🛠️ 어디에 바로 적용 가능?

사실 확인(Fact-checking) 봇: 유튜브나 SNS에 올라온 영화를 보고 “이 영상의 내용이 사실인가?”를 자동으로 판별하는 봇 개발. (예: “이 동영상에 나온 기후 재해가 2020년 호주 산불 화면인가?“)
복합형 고객 지원: 제품 사용법 영상을 보여주면서, “이 영상 3분 20초에 나오는 부품의 최신 가격이 얼마야?” 같은 복합적인 질문에 답하는 챗봇.
교육 및 연구 보조: 강의 영상을 보면서 “교수님이 언급한 그 이론을 최근에 반박한 논문이 있어?”라고 물어보고 검색해주는 튜터링 시스템.

💻 필요한 리소스

GPU: 고성능 비디오 처리(Vision Encoder)와 대용량 LLM 추론이 필요하므로, 최소 A100(40GB/80GB)급 또는 클라우드 인스턴스 필수.
API: 구글 검색 API(Bing Search API 등)와 같은 실시간 웹 검색 툴 연동 필요.
모델: GPT-4o, Gemini-2.0(Flash/Pro) 등의 최신 멀티모델 모델 또는 Qwen2.5-VL, InternVL 같은 오픈 소스 모델.

6. 이 논문을 이해하기 위한 사전 지식

Multimodal Large Language Models (MLLMs): 텍스트뿐만 아니라 이미지, 비디오를 이해하고 생성할 수 있는 거대 언어 모델. (예: GPT-4V)
RAG (Retrieval-Augmented Generation): 모델이 외부 지식 베이스나 웹에서 정보를 검색(Retrieval)하여 답변 생성(Generation)에 활용하는 기술.
Agentic AI (에이전트형 AI): 사용자가 단순히 질문만 던지면, AI 스스로 도구(검색, 코드 실행 등)를 선택하고 계획을 세워 목표를 달성하는 시스템.
Chain-of-Thought (CoT): 복잡한 추론 문제를 풀 때, 정답만 내는 게 아니라 인간처럼 단계별로 생각하는 과정을 거쳐 답을 도출하는 방식.
Open-Domain Question Answering: 특정 문서 집합 안이 아니라, 전체 웹이나 오픈 월드를 대상으로 질문에 답하는 시스템.
Grounding: AI가 생성한 텍스트 답변이 실제 주어진 비디오나 이미지에 근거하고 있는지 확인하는 과정.
LLM-as-a-Judge: AI 모델의 성능을 평가할 때 사람 대신 더 강력한 다른 LLM을 이용해 답변의 정확도를 판단하는 방법론.

📚 이번 주 관련 Deep Dive

순위	논문	Deep Dive
🥇	Watching, Reasoning, and Searching:…	📍 현재 문서
🥈	BabyVision: Visual Reasoning Beyond…	DD-007
🥉	STEP3-VL-10B Technical Report	DD-008
4.	Thinking with Map: Reinforced Paral…	DD-009
5.	Urban Socio-Semantic Segmentation w…	DD-010

📅 생성일: 2026-02-02 | 🤖 GLM-4.7 Deep Dive

Quartz 4

탐색기

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning