โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-006 Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

arXiv: 2601.06943 ๊ธฐ๊ด€: QuantaAlpha Upvotes: 209 | Comments: 7 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1

Figure 1


๐Ÿ“„ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: Watching, Reasoning, and Searching (VideoDR)

๋…ผ๋ฌธ ์ •๋ณด: Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning (arXiv: 2601.06943)


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋น„๋””์˜ค ์ดํ•ด AI๋Š” ์ฃผ๋กœ โ€˜์˜์ƒ ์•ˆ์— ์žˆ๋Š” ์ •๋ณด๋งŒ์œผ๋กœโ€™ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋ ค ํ–ˆ์ง€๋งŒ, ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ณต์žกํ•œ ์งˆ๋ฌธ์€ ์˜์ƒ ์† ๋‹จ์„œ๋ฅผ ์ฐพ์•„ ์›น ๊ฒ€์ƒ‰์„ ํ†ตํ•ด ์™ธ๋ถ€ ์ง€์‹๊ณผ ๊ฒฐํ•ฉํ•ด์•ผ๋งŒ ํ’€ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋น„๋””์˜ค๋ฅผ ๋‹จ์ˆœํ•œ ์‹œ๊ฐ์  ์ž๋ฃŒ๊ฐ€ ์•„๋‹Œ **โ€˜ํƒ์ƒ‰์„ ์œ„ํ•œ ๋‹จ์„œ(Clue)โ€˜**๋กœ ํ™œ์šฉํ•˜๊ณ , ์›น์ƒ์˜ ์ •๋ณด์™€ ์ข…ํ•ฉํ•˜์—ฌ ๋‹ต์„ ๋‚ด๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ(VideoDR)๋ฅผ ์ตœ์ดˆ๋กœ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿ•ต๏ธโ€โ™‚๏ธ ์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œํƒ์ •๋œ AIโ€

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ **โ€˜๋ฒ”์ฃ„ ํ˜„์žฅ์˜ CCTV๋ฅผ ๋ณด๋Š” ํƒ์ •โ€™**์— ๋น„์œ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ๋ฐฉ์‹ (Closed-evidence): CCTV ์˜์ƒ๋งŒ ๋ณด๊ณ  โ€œ๋ฒ”์ธ์€ ๋ˆ„๊ตฌ์•ผ?โ€๋ผ๊ณ  ๋ฌผ์œผ๋ฉด, AI๋Š” ์˜์ƒ ์†์— ์–ผ๊ตด์ด ๋‚˜์˜ค์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์— โ€œ๋ชจ๋ฅด๊ฒ ๋‹คโ€๊ณ  ๋‹ตํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹ (VideoDR):
    1. Watching (๊ด€์ฐฐ): CCTV ์˜์ƒ์„ ๋ณด๋‹ค๊ฐ€ ๋ฒ”์ธ์ด ์ž…๊ณ  ์žˆ๋Š” **โ€œํŠน์ดํ•œ ๋กœ๊ณ ๊ฐ€ ์žˆ๋Š” ํ‹ฐ์…”์ธ โ€**๋ฅผ ๋ฐœ๊ฒฌํ•ฉ๋‹ˆ๋‹ค. (๋น„๋””์˜ค ์† ์‹œ๊ฐ์  ๋‹จ์„œ ์ถ”์ถœ)
    2. Searching (์ˆ˜์‚ฌ): ์ด ๋กœ๊ณ ๊ฐ€ ๋ฌด์—‡์ธ์ง€ ๋ชจ๋ฅด์ง€๋งŒ, ๊ตฌ๊ธ€์— **โ€œ์ด ๋กœ๊ณ ๊ฐ€ ๊ทธ๋ ค์ง„ ํ‹ฐ์…”์ธ  ํŒ๋งค์ฒ˜โ€**๋ฅผ ๊ฒ€์ƒ‰ํ•ฉ๋‹ˆ๋‹ค. (์˜คํ”ˆ ์›น ๊ฒ€์ƒ‰)
    3. Reasoning (์ถ”๋ก ): ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ ํ•ด๋‹น ํ‹ฐ์…”์ธ ๋Š” โ€œA ๋™ํ˜ธํšŒโ€ ์ „์šฉ ๋ฌผํ’ˆ์ด๋ผ๋Š” ๊ฒƒ์„ ์•Œ์•„๋‚ด๊ณ , ๋‹ค์‹œ ๋™ํ˜ธํšŒ ๋ช…๋‹จ์„ ๊ฒ€์ƒ‰ํ•˜์—ฌ ๋ฒ”์ธ์˜ ์‹ ์›์„ ํ™•์ •ํ•ฉ๋‹ˆ๋‹ค. (๋ฉ€ํ‹ฐ-ํ™‰ ์ถ”๋ก )

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ด ์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ๋‹ต์„ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค.

  1. ๋น„๋””์˜ค ์•ต์ปค ์ถ”์ถœ (Cross-frame Visual Anchor Extraction): ๊ธด ๋น„๋””์˜ค์—์„œ ์งˆ๋ฌธ๊ณผ ๊ด€๋ จ๋œ ํ•ต์‹ฌ ์žฅ๋ฉด(ํ”„๋ ˆ์ž„)์„ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค. ์˜ˆ: ์˜ํ™” ๋ฆฌ๋ทฐ ์˜์ƒ์—์„œ โ€œ์ด ์˜ํ™”์˜ ์‹ค์ œ ์›์ž‘ ์†Œ์„ค์€ ๋ฌด์—‡์ธ๊ฐ€?โ€๋ผ๋Š” ์งˆ๋ฌธ์ด ๋“ค์–ด์˜ค๋ฉด, ์ฑ… ํ‘œ์ง€๊ฐ€ ์ž ๊น ๋‚˜์˜ค๋Š” ๊ทธ ์žฅ๋ฉด์„ ์บก์ฒ˜ํ•ฉ๋‹ˆ๋‹ค.
  2. ๋Œ€ํ™”ํ˜• ์›น ๊ฒ€์ƒ‰ (Interactive Web Retrieval): ์ถ”์ถœํ•œ ์‹œ๊ฐ์  ๋‹จ์„œ๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜๊ฑฐ๋‚˜ ๋ฌ˜์‚ฌํ•˜์—ฌ ๊ฒ€์ƒ‰ ์—”์ง„์— ์ฟผ๋ฆฌ๋ฅผ ๋˜์ง‘๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ํ•œ ๋ฒˆ ๊ฒ€์ƒ‰ํ•˜๊ณ  ๋๋‚˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ๋ถ€์กฑํ•œ ์ •๋ณด๊ฐ€ ์žˆ์œผ๋ฉด ๋‹ค์‹œ ๊ฒ€์ƒ‰ํ•˜๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.
  3. ์ฆ๊ฑฐ ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ (Multi-hop Reasoning Verification): ๋น„๋””์˜ค์—์„œ ๋ณธ ๊ฒƒ๊ณผ ์›น์—์„œ ์ฐพ์€ ์ •๋ณด๋ฅผ ์—ฎ์–ด์„œ ์ตœ์ข… ๋‹ต์•ˆ์„ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์›น์˜ ํ…์ŠคํŠธ๋ฅผ ๋ณต์‚ฌํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ๋น„๋””์˜ค์˜ ๋งฅ๋ฝ๊ณผ ๋งž๋Š”์ง€ ๊ต์ฐจ ๊ฒ€์ฆ(Cross-check)ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿงฎ ํ•ต์‹ฌ ์ˆ˜์‹ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์—์„œ ์ •์˜ํ•˜๋Š” ์ž‘์—…(Task)์€ ์ˆ˜ํ•™์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

$$ f: (V, Q; S) \rightarrow A $$

  • $V$ (Video): ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด์ง„ ๋น„๋””์˜ค (ํƒ์ •์ด ๋ณธ CCTV)
  • $Q$ (Question): ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ (์˜๋ขฐ์ธ์˜ ์š”์ฒญ)
  • $S$ (Search Tool): AI๊ฐ€ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์›น ๊ฒ€์ƒ‰ ๋„๊ตฌ (ํƒ์ •์˜ ์Šค๋งˆํŠธํฐ ๊ฒ€์ƒ‰์ฐฝ)
  • $A$ (Answer): ์ตœ์ข…์ ์œผ๋กœ ๋„์ถœ๋œ ์‚ฌ์‹ค์— ๊ธฐ๋ฐ˜ํ•œ ๋‹ต๋ณ€

์ด๋•Œ ๋ชจ๋ธ์€ ๋‹จ์ˆœํžˆ $V$์™€ $Q$๋งŒ ๋ณด๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ํ•„์š”ํ•  ๋•Œ๋งˆ๋‹ค $S$๋ฅผ ํ˜ธ์ถœํ•˜์—ฌ ์ •๋ณด๋ฅผ ๊ฐ€์ ธ์˜ค๊ณ (Fetch), ์ƒ๊ฐ(Think) ๊ณผ์ •์„ ๊ฑฐ์ณ $A$๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๐Ÿ† ์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋‚˜?

์ €์ž๋“ค์€ VideoDR์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ 6๊ฐœ์˜ ์˜๋ฏธ ๋„๋ฉ”์ธ(์˜ˆ: ์—”ํ„ฐํ…Œ์ธ๋จผํŠธ, ์ง€๋ฆฌ, ์—ญ์‚ฌ ๋“ฑ)์„ ์•„์šฐ๋ฅด๋ฉฐ, ๋ฐ˜๋“œ์‹œ ๋น„๋””์˜ค๋ฅผ ๋ณด๊ณ  ์›น ๊ฒ€์ƒ‰์„ ํ•ด์•ผ ํ’€ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

โš–๏ธ Workflow vs. Agentic (๊ฒฝ์Ÿ ๋ชจ๋ธ ๋น„๊ต)

์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ํฅ๋ฏธ๋กœ์šด ์ ์€ ์‹œ์Šคํ…œ์„ ์„ค๊ณ„ํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  1. Workflow (์›Œํฌํ”Œ๋กœ์šฐ ๋ฐฉ์‹):
    • 1๋‹จ๊ณ„: ๋น„๋””์˜ค๋ฅผ ๋ณด๊ณ  ํ…์ŠคํŠธ๋กœ ๋œ ๋‹จ์„œ๋ฅผ ์ถ”์ถœ (๋น„๋””์˜ค ์ ‘๊ทผ ๋)
    • 2๋‹จ๊ณ„: ์ถ”์ถœ๋œ ํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง€๊ณ  ์›น ๊ฒ€์ƒ‰ ๋ฐ ์ถ”๋ก  ์ˆ˜ํ–‰
    • ๋งˆ์น˜: ํ•œ ์‚ฌ์›์ด ์˜์ƒ์„ ๋ถ„์„ํ•˜๊ณ  ๋ณด๊ณ ์„œ๋ฅผ ์“ฐ๋ฉด, ๋‹ค๋ฅธ ์‚ฌ์›์ด ๊ทธ ๋ณด๊ณ ์„œ๋ฅผ ๋ณด๊ณ  ์กฐ์‚ฌ๋ฅผ ํ•˜๋Š” ๋А๋‚Œ.
  2. Agentic (์—์ด์ „ํŠธ ๋ฐฉ์‹):
    • End-to-End: ํ•˜๋‚˜์˜ AI์—๊ฒŒ ๋น„๋””์˜ค์™€ ๊ฒ€์ƒ‰ ๋„๊ตฌ๋ฅผ ๋ชจ๋‘ ์ฃผ๊ณ , ์•Œ์•„์„œ โ€œ์–ธ์ œ ์˜์ƒ์„ ๋‹ค์‹œ ๋ณผ์ง€โ€, โ€œ์–ธ์ œ ๊ฒ€์ƒ‰ํ• ์ง€โ€ ์Šค์Šค๋กœ ํŒ๋‹จํ•˜๊ฒŒ ํ•จ.
    • ๋งˆ์น˜: ํ•œ ์‹œ๋‹ˆ์–ด ํƒ์ •์—๊ฒŒ ์˜์ƒ๊ณผ ๋…ธํŠธ๋ถ์„ ์ฃผ๊ณ  ํ˜ผ์ž์„œ ์ž์œ ๋กญ๊ฒŒ ์ˆ˜์‚ฌํ•˜๊ฒŒ ํ•˜๋Š” ๋А๋‚Œ.

๐Ÿ“ˆ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ์™€ ์ˆ˜์น˜

  • Agentic์˜ ๋ฌด์กฐ๊ฑด์  ์šฐ์œ„๊ฐ€ ๊นจ์ง: ๋ณดํ†ต โ€œAI ์—์ด์ „ํŠธ๊ฐ€ ๋” ์ž์œจ์ ์ด๋‹ˆ๊นŒ ์„ฑ๋Šฅ์ด ์ข‹๊ฒ ์ง€?โ€๋ผ๊ณ  ์ƒ๊ฐํ•˜์ง€๋งŒ, ๊ฒฐ๊ณผ๋Š” ๊ทธ๋ ‡์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.
    • ํด๋กœ์ฆˆ๋“œ ์†Œ์Šค ๋ชจ๋ธ(GPT ๊ณ„์—ด, Gemini ๋“ฑ): Agentic ๋ฐฉ์‹์ด ์›Œํฌํ”Œ๋กœ์šฐ ๋ฐฉ์‹๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ์•ฝ๊ฐ„ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๊ณ„ํš์„ ์„ธ์šธ ๋Šฅ๋ ฅ์ด ๋˜๋‹ˆ๊นŒ์š”.
    • ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ(Qwen, InternVL ๋“ฑ): ์˜คํžˆ๋ ค Workflow ๋ฐฉ์‹์ด Agentic ๋ฐฉ์‹๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋” ์ข‹์•˜์Šต๋‹ˆ๋‹ค.
    • ์ด์œ : ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ํŒ๋‹จํ•ด์„œ ๊ฒ€์ƒ‰์„ ํ•˜๊ฑฐ๋‚˜ ๋‹ค์‹œ ์˜์ƒ์„ ๋ณด๋Š”(Initiative) ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ž์œจ์„ฑ์„ ์ฃผ๋ฉด ์˜คํžˆ๋ ค ์—‰๋šฑํ•œ ๊ฒ€์ƒ‰์„ ํ•˜๊ฑฐ๋‚˜ loop์— ๋น ์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ํ‰๊ฐ€ ๋ฐฉ๋ฒ•: ์ •๋‹ต๊ณผ ๋ชจ๋ธ์˜ ๋‹ต๋ณ€์„ GPT-4๊ธ‰ ๋ชจ๋ธ(DeepSeek-V3)์ด ํŒ์‚ฌ(LLM-as-a-Judge) ์—ญํ• ์„ ํ•˜์—ฌ ์˜๋ฏธ์  ๋™์ผ์„ฑ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

โš ๏ธ ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

  • ๋ชจ๋ธ์˜ โ€˜์ฃผ๋„๊ถŒ(Initiative)โ€™ ๋ถ€์กฑ: Agentic ๋ฐฉ์‹์ด ๋ฌด์กฐ๊ฑด ์ข‹์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์€, ํ˜„์žฌ์˜ ๋ชจ๋ธ๋“ค์ด ๋น„๋””์˜ค ๋‚ด์šฉ๊ณผ ์›น ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋ฅผ ์ข…ํ•ฉํ•˜์—ฌ โ€œ๋‹ค์Œ์— ๋ฌด์—‡์„ ํ•ด์•ผ ํ• ์ง€โ€๋ฅผ ์Šค์Šค๋กœ ํŒ๋‹จํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์•„์ง ๋ถ€์กฑํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ํ‰๊ฐ€์˜ ์–ด๋ ค์›€: ๊ฐœ๋ฐฉํ˜• ์›น(Open Web) ํ™˜๊ฒฝ์ด๋ฏ€๋กœ, ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ํ‰๊ฐ€์˜ ์žฌํ˜„์„ฑ(Reproducibility)์ด ์™„๋ฒฝํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋น„์šฉ: ๋น„๋””์˜ค๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ  ์—ฌ๋Ÿฌ ๋ฒˆ ์›น ๊ฒ€์ƒ‰์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ณผ์ •์€ ์ปดํ“จํŒ… ์ž์›๊ณผ ๋น„์šฉ์ด ๋งค์šฐ ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค.

๐Ÿš€ ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ (ํ–ฅํ›„ ์—ฐ๊ตฌ)

  • ๋” ๊ฐ•๋ ฅํ•œ ์˜คํ”ˆ ์†Œ์Šค ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๊ฐœ๋ฐœ ํ•„์š” (Agentic ๋ฐฉ์‹์˜ ์ž ์žฌ๋ ฅ์„ ์‚ด๋ฆฌ๊ธฐ ์œ„ํ•ด).
  • ๋น„๋””์˜ค ์•ต์ปค๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋‹จ๊ณ„์™€ ์›น ๊ฒ€์ƒ‰ ๋‹จ๊ณ„ ์‚ฌ์ด์˜ ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋ฅผ ๋” ์ •๊ตํ•˜๊ฒŒ ์„ค๊ณ„ํ•  ํ•„์š”์„ฑ ์žˆ์Œ.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๐Ÿ› ๏ธ ์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

  • ์‚ฌ์‹ค ํ™•์ธ(Fact-checking) ๋ด‡: ์œ ํŠœ๋ธŒ๋‚˜ SNS์— ์˜ฌ๋ผ์˜จ ์˜ํ™”๋ฅผ ๋ณด๊ณ  โ€œ์ด ์˜์ƒ์˜ ๋‚ด์šฉ์ด ์‚ฌ์‹ค์ธ๊ฐ€?โ€๋ฅผ ์ž๋™์œผ๋กœ ํŒ๋ณ„ํ•˜๋Š” ๋ด‡ ๊ฐœ๋ฐœ. (์˜ˆ: โ€œ์ด ๋™์˜์ƒ์— ๋‚˜์˜จ ๊ธฐํ›„ ์žฌํ•ด๊ฐ€ 2020๋…„ ํ˜ธ์ฃผ ์‚ฐ๋ถˆ ํ™”๋ฉด์ธ๊ฐ€?โ€œ)
  • ๋ณตํ•ฉํ˜• ๊ณ ๊ฐ ์ง€์›: ์ œํ’ˆ ์‚ฌ์šฉ๋ฒ• ์˜์ƒ์„ ๋ณด์—ฌ์ฃผ๋ฉด์„œ, โ€œ์ด ์˜์ƒ 3๋ถ„ 20์ดˆ์— ๋‚˜์˜ค๋Š” ๋ถ€ํ’ˆ์˜ ์ตœ์‹  ๊ฐ€๊ฒฉ์ด ์–ผ๋งˆ์•ผ?โ€ ๊ฐ™์€ ๋ณตํ•ฉ์ ์ธ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ์ฑ—๋ด‡.
  • ๊ต์œก ๋ฐ ์—ฐ๊ตฌ ๋ณด์กฐ: ๊ฐ•์˜ ์˜์ƒ์„ ๋ณด๋ฉด์„œ โ€œ๊ต์ˆ˜๋‹˜์ด ์–ธ๊ธ‰ํ•œ ๊ทธ ์ด๋ก ์„ ์ตœ๊ทผ์— ๋ฐ˜๋ฐ•ํ•œ ๋…ผ๋ฌธ์ด ์žˆ์–ด?โ€๋ผ๊ณ  ๋ฌผ์–ด๋ณด๊ณ  ๊ฒ€์ƒ‰ํ•ด์ฃผ๋Š” ํŠœํ„ฐ๋ง ์‹œ์Šคํ…œ.

๐Ÿ’ป ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • GPU: ๊ณ ์„ฑ๋Šฅ ๋น„๋””์˜ค ์ฒ˜๋ฆฌ(Vision Encoder)์™€ ๋Œ€์šฉ๋Ÿ‰ LLM ์ถ”๋ก ์ด ํ•„์š”ํ•˜๋ฏ€๋กœ, ์ตœ์†Œ A100(40GB/80GB)๊ธ‰ ๋˜๋Š” ํด๋ผ์šฐ๋“œ ์ธ์Šคํ„ด์Šค ํ•„์ˆ˜.
  • API: ๊ตฌ๊ธ€ ๊ฒ€์ƒ‰ API(Bing Search API ๋“ฑ)์™€ ๊ฐ™์€ ์‹ค์‹œ๊ฐ„ ์›น ๊ฒ€์ƒ‰ ํˆด ์—ฐ๋™ ํ•„์š”.
  • ๋ชจ๋ธ: GPT-4o, Gemini-2.0(Flash/Pro) ๋“ฑ์˜ ์ตœ์‹  ๋ฉ€ํ‹ฐ๋ชจ๋ธ ๋ชจ๋ธ ๋˜๋Š” Qwen2.5-VL, InternVL ๊ฐ™์€ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Multimodal Large Language Models (MLLMs): ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€, ๋น„๋””์˜ค๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ. (์˜ˆ: GPT-4V)
  2. RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ์ด ์™ธ๋ถ€ ์ง€์‹ ๋ฒ ์ด์Šค๋‚˜ ์›น์—์„œ ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰(Retrieval)ํ•˜์—ฌ ๋‹ต๋ณ€ ์ƒ์„ฑ(Generation)์— ํ™œ์šฉํ•˜๋Š” ๊ธฐ์ˆ .
  3. Agentic AI (์—์ด์ „ํŠธํ˜• AI): ์‚ฌ์šฉ์ž๊ฐ€ ๋‹จ์ˆœํžˆ ์งˆ๋ฌธ๋งŒ ๋˜์ง€๋ฉด, AI ์Šค์Šค๋กœ ๋„๊ตฌ(๊ฒ€์ƒ‰, ์ฝ”๋“œ ์‹คํ–‰ ๋“ฑ)๋ฅผ ์„ ํƒํ•˜๊ณ  ๊ณ„ํš์„ ์„ธ์›Œ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ์‹œ์Šคํ…œ.
  4. Chain-of-Thought (CoT): ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฌธ์ œ๋ฅผ ํ’€ ๋•Œ, ์ •๋‹ต๋งŒ ๋‚ด๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ์ธ๊ฐ„์ฒ˜๋Ÿผ ๋‹จ๊ณ„๋ณ„๋กœ ์ƒ๊ฐํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์ณ ๋‹ต์„ ๋„์ถœํ•˜๋Š” ๋ฐฉ์‹.
  5. Open-Domain Question Answering: ํŠน์ • ๋ฌธ์„œ ์ง‘ํ•ฉ ์•ˆ์ด ์•„๋‹ˆ๋ผ, ์ „์ฒด ์›น์ด๋‚˜ ์˜คํ”ˆ ์›”๋“œ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ์‹œ์Šคํ…œ.
  6. Grounding: AI๊ฐ€ ์ƒ์„ฑํ•œ ํ…์ŠคํŠธ ๋‹ต๋ณ€์ด ์‹ค์ œ ์ฃผ์–ด์ง„ ๋น„๋””์˜ค๋‚˜ ์ด๋ฏธ์ง€์— ๊ทผ๊ฑฐํ•˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ณผ์ •.
  7. LLM-as-a-Judge: AI ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•  ๋•Œ ์‚ฌ๋žŒ ๋Œ€์‹  ๋” ๊ฐ•๋ ฅํ•œ ๋‹ค๋ฅธ LLM์„ ์ด์šฉํ•ด ๋‹ต๋ณ€์˜ ์ •ํ™•๋„๋ฅผ ํŒ๋‹จํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก .

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Watching, Reasoning, and Searching:โ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆBabyVision: Visual Reasoning Beyondโ€ฆDD-007
๐Ÿฅ‰STEP3-VL-10B Technical ReportDD-008
4.Thinking with Map: Reinforced Paralโ€ฆDD-009
5.Urban Socio-Semantic Segmentation wโ€ฆDD-010

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive