โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-007 BabyVision: Visual Reasoning Beyond Language

arXiv: 2601.06521 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2 Upvotes: 193 | Comments: 6

Figure 1


[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] BabyVision: Visual Reasoning Beyond Language

์š”์•ฝ: ์ตœ์‹  ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(MLLM)๋“ค์€ โ€œ๋ง๋กœ ์„ค๋ช…๋œ ์ง€์‹โ€์€ ํ’๋ถ€ํ•˜์ง€๋งŒ, โ€œ์–ธ์–ด ์ด์ „์˜ ์‹œ๊ฐ์  ์ง๊ด€โ€์€ ๊ฐ“๋‚œ์•„๊ธฐ ์ˆ˜์ค€์—๋„ ๋ฏธ์น˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํ˜€๋‚ธ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(MLLM) ํ‰๊ฐ€๋Š” ์ฃผ๋กœ ์–ธ์–ด์  ์ง€์‹์ด๋‚˜ ๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์— ์ง‘์ค‘๋˜์–ด ์žˆ์–ด์„œ, ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ๋‹ตํ•˜๋Š” ์ฒ™ํ•˜๋ฉด์„œ ์‚ฌ์‹ค์€ ํ…์ŠคํŠธ ํžŒํŠธ์—๋งŒ ์˜์กดํ•˜๋Š” โ€˜์น˜ํŒ…โ€™์„ ๋ชป ์žก์•„๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ **โ€œ์–ธ์–ด๋ฅผ ๋ฐฐ์šฐ๊ธฐ ์ „ ์•„๊ธฐ๋“ค์ด ๊ฐ€์ง€๋Š” ๊ธฐ์ดˆ ์‹œ๊ฐ ๋Šฅ๋ ฅโ€**์„ ์ธก์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ(BabyVision)๋ฅผ ์ œ์‹œํ•˜์—ฌ, ํ˜„์žฌ AI๋“ค์ด ๊ฐ€์ง„ ์ฐฉ๊ฐ(์‹œ๊ฐ์„ ์ž˜ํ•œ๋‹ค๋Š” ์ฐฉ๊ฐ)์„ ๊นจ๋ถ€์ˆ˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ AI๊ฐ€ ์ง„์ •์œผ๋กœ ์„ธ์ƒ์„ โ€˜๋ณด๊ณ โ€™ ์ดํ•ดํ•˜๋ ค๋ฉด ์–ธ์–ด ์ค‘์‹ฌ์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋„˜์–ด ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ์›์ž์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿง  ์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ์ˆ˜ํ•™ ์ฒœ์žฌ ๊ต์ˆ˜๋‹˜ vs. ๋ˆ์ ํ•œ ๊ฑฐ๋ฏธ์ค„โ€

์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ์“ฐ๋Š” ์ตœ์‹  AI(GPT-4o, Claude ๋“ฑ)๋ฅผ **โ€œ๋ฐฉ๋Œ€ํ•œ ์ง€์‹์„ ๊ฐ€์ง„ ๊ต์ˆ˜๋‹˜โ€**์ด๋ผ๊ณ  ์ƒ๊ฐํ•ด ๋ด…์‹œ๋‹ค. ์ด ๊ต์ˆ˜๋‹˜์€ ๋ฏธ์ ๋ถ„ํ•™์ด๋‚˜ ์—ญ์‚ฌ ์ง€์‹์€ ํƒ์›”ํ•˜์ง€๋งŒ, ๋ง‰์ƒ ์‹ค๋ฌผ๋กœ ๋œ **๋‚˜๋ฌด์ “๊ฐ€๋ฝ์œผ๋กœ ๋˜‘๊ฐ™์€ ๋ชจ์–‘์˜ ๋„ํ˜•์„ ๋งž์ถ”๋Š” โ€˜ํผ์ฆ ๋†€์ดโ€™**๋ฅผ ์‹œํ‚ค๋ฉด 3์‚ด ์•„์ด๋ณด๋‹ค ๋ชปํ•ฉ๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด์— 3์‚ด ์•„๊ธฐ๋Š” ๋ง์€ ๋ชปํ•˜์ง€๋งŒ, ๋ˆˆ์•ž์— ๊ณต์ด ์‚ฌ๋ผ์ง€๋ฉด ์–ด๋””๋กœ ๊ตด๋Ÿฌ๊ฐ”๋Š”์ง€ ์•Œ๊ณ , ์—„๋งˆ ์–ผ๊ตด์˜ ์ž‘์€ ์  ํ•˜๋‚˜๋„ ๊ตฌ๋ณ„ํ•ด ๋ƒ…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ AI ๊ต์ˆ˜๋‹˜์—๊ฒŒ โ€œ์–ธ์–ด๋กœ ์„ค๋ช…ํ•˜์ง€ ๋ง๊ณ , ๋ˆˆ์œผ๋กœ๋งŒ ๋ณด๊ณ  ์ด ํผ์ฆ์„ ๋งž์ถฐ๋ดโ€๋ผ๊ณ  ์‹œํ‚ค๋Š” ์‹œํ—˜(BabyVision)์„ ์น˜๋ฅธ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

  1. ๋ถ„๋ฅ˜ ์ •์˜ (Taxonomy Definition): ์•„๊ธฐ๋“ค์ด ์–ธ์–ด๋ฅผ ๋ฐฐ์šฐ๊ธฐ ์ „์— ํ•  ์ˆ˜ ์žˆ๋Š” ํ–‰๋™์„ 4๊ฐ€์ง€ ํ•ต์‹ฌ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค.
    • ๋ฏธ์„ธํ•œ ์ฐจ์ด ๊ตฌ๋ณ„ (Fine-grained Discrimination): โ€œ๊ทธ๋ฆผ ์† ์‚ฌ๊ณผ ์ค‘์— ๋ฒŒ๋ ˆ ๋จน์€ ๊ณณ ์ฐพ๊ธฐโ€
    • ์‹œ๊ฐ์  ์ถ”์  (Visual Tracking): โ€œ๋ฏธ๋กœ ์ค„ ๋”ฐ๋ผ๊ฐ€๊ธฐโ€, โ€œ๊ณต์˜ ๊ถค์  ์ฐพ๊ธฐโ€
    • ๊ณต๊ฐ„ ์ง€๊ฐ (Spatial Perception): โ€œ๋ฌผ์ฒด๊ฐ€ ์Œ“์—ฌ ์žˆ์œผ๋ฉด ๋ฌด๊ฒŒ ์ค‘์‹ฌ์ด ์–ด๋””์ธ์ง€ ์•Œ๊ธฐโ€
    • ์‹œ๊ฐ์  ํŒจํ„ด (Visual Pattern Recognition): โ€œ๋„ํ˜•์˜ ๊ทœ์น™์„ฑ ์ฐพ๊ธฐโ€
  2. ๋ฐ์ดํ„ฐ ์ƒ์„ฑ (Data Curation): ์•„์ด๋“ค์˜ ์‹ฌ๋ฆฌํ•™ ํ…Œ์ŠคํŠธ ๋ฌธ์ œ๋“ค์„ ์ฐธ๊ณ ํ•˜์—ฌ, ์–ธ์–ด์  ํžŒํŠธ ์—†์ด ์˜ค์ง โ€˜๋ˆˆโ€™์œผ๋กœ๋งŒ ํ’€ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ 388๊ฐœ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  3. ํ‰๊ฐ€ ๋ฐ ๋ถ„์„ (Evaluation): ์ตœ์‹  AI ๋ชจ๋ธ๋“ค์—๊ฒŒ ์ด ๋ฌธ์ œ๋ฅผ ํ’€๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํฅ๋ฏธ๋กœ์šด ์ ์€, ๋‹ต์„ ๋ง(ํ…์ŠคํŠธ)๋กœ ํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, AI๊ฐ€ ์ง์ ‘ ๊ทธ๋ฆผ์„ ๊ทธ๋ ค์„œ ๋‹ต์„ ํ‘œํ˜„ํ•˜๊ฒŒ ํ•˜๋Š” BabyVision-Gen์ด๋ผ๋Š” ์‹œํ—˜๋„ ์น˜๋ฅธ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

๐Ÿ”‘ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ๊ฐœ๋…

์ด ๋…ผ๋ฌธ์—๋Š” ๋ณต์žกํ•œ ์ˆ˜์‹๋ณด๋‹ค๋Š” **โ€œ์–ธ์–ด์  ๋ณ‘๋ชฉ ํ˜„์ƒ(Verbalization Bottleneck)โ€œ**์ด๋ผ๋Š” ์ค‘์š”ํ•œ ๊ฐœ๋…์ด ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์กด AI๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋ฉด ๊ณง๋ฐ”๋กœ ํ…์ŠคํŠธ(์–ธ์–ด)๋กœ ๋ณ€ํ™˜ํ•ด์„œ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.
  • ํ•˜์ง€๋งŒ ์ด๋ฏธ์ง€์— ๋‹ด๊ธด โ€œ๋ฏธ์„ธํ•œ ์งˆ๊ฐโ€, โ€œ์ •ํ™•ํ•œ ์œ„์น˜โ€, โ€œ๋ณต์žกํ•œ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐโ€๋Š” ๋‹จ์–ด๋กœ ๋ฐ”๊พธ๋Š” ์ˆœ๊ฐ„ ์ •๋ณด๊ฐ€ ์†์‹ค๋ฉ๋‹ˆ๋‹ค.
  • ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์™ผ์ชฝ์œผ๋กœ 2cm ์‚ด์ง ๊ธฐ์šธ์–ด์ง„ ์ปตโ€์„ ์–ธ์–ด๋กœ ๋ฐ”๊พธ๋ฉด ๊ทธ๋ƒฅ โ€œ๊ธฐ์šธ์–ด์ง„ ์ปตโ€์ด ๋˜์–ด๋ฒ„๋ฆฝ๋‹ˆ๋‹ค. AI๋Š” ์ด ์†์‹ค๋œ ์ •๋ณด ๋•Œ๋ฌธ์— ๋ฌธ์ œ๋ฅผ ํ‹€๋ฆฌ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๐Ÿ“Š ๋ฒค์น˜๋งˆํฌ ๋ฐ ์„ฑ๋Šฅ ์ˆ˜์น˜

๋…ผ๋ฌธ์—์„œ ํ…Œ์ŠคํŠธํ•œ ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ๋Š” BabyVision (ํ…์ŠคํŠธ ๋‹ต๋ณ€)๊ณผ BabyVision-Gen (์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋‹ต๋ณ€)์ž…๋‹ˆ๋‹ค.

  • ์‚ฌ๋žŒ(Human) ๊ธฐ์ค€:
    • ์„ฑ์ธ ํ‰๊ท  ์ ์ˆ˜: 94.1%
    • 6์„ธ ์•„์ด: ์ตœ์ƒ์œ„ ๋ชจ๋ธ๋ณด๋‹ค ์•ฝ 20% ์ด์ƒ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„.
  • AI ๋ชจ๋ธ ๊ธฐ์ค€:
    • ์ตœ์ƒ์œ„ ๋ชจ๋ธ (Gemini3-Pro-Preview): 49.7%
    • ๊ธฐํƒ€ ์ตœ์‹  ๋ชจ๋ธ๋“ค (GPT-4o ๋“ฑ): ๋Œ€๋ถ€๋ถ„ 50% ์•„๋ž˜๋กœ ์ฉŒ์ฉŒ๋งค๋Š” ๋ชจ์Šต.
  • ์„ธ๋ถ€ ๋ถ„์•ผ๋ณ„ ์‹คํŒจ:
    • Fine-grained Discrimination (๋ฏธ์„ธ ๊ตฌ๋ณ„): AI๋Š” ์ž‘์€ ์ฐจ์ด๋ฅผ ๊ฑฐ์˜ ๋ชป ์žก์•„๋ƒ„. (์ƒ‰์ƒ์ด๋‚˜ ๋ชจ์–‘์ด ๊ฑฐ์˜ ๊ฐ™์€ ๋‘ ๊ทธ๋ฆผ ๊ตฌ๋ณ„ ์‹คํŒจ)
    • Visual Tracking (์ถ”์ ): ๋ฏธ๋กœ์˜ ๋ณต์žกํ•œ ์„ ์„ ๋”ฐ๋ผ๊ฐ€๋‹ค๊ฐ€ ๊ธธ์„ ์žƒ์Œ.
    • Spatial Perception (๊ณต๊ฐ„): 2D ์ด๋ฏธ์ง€์—์„œ 3D ๊นŠ์ด๊ฐ์„ ์ดํ•ดํ•˜์ง€ ๋ชปํ•จ.

๐Ÿ† ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ํฐ ์„ฑ๊ณผ๋Š” โ€œAI๊ฐ€ ์‹œ๊ฐ์ ์œผ๋กœ ๋ฉ์ฒญํ•˜๋‹คโ€๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•œ ๊ฒƒ ๊ทธ ์ž์ฒด์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” AI๊ฐ€ ๋ณต์žกํ•œ ์ˆ˜ํ•™ ๋ฌธ์ œ๋‚˜ ์˜๋ฃŒ ์ง„๋‹จ์„ ์ž˜ ํ’€์–ด์„œ โ€œ์‹œ๊ฐ์ ์œผ๋กœ๋„ ๋›ฐ์–ด๋‚˜๊ฒ ๊ฑฐ๋‹ˆ ์ƒ๊ฐํ–ˆ๋‹คโ€๋Š” ์ฐฉ๊ฐ์„ ๋ถˆ์‹์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, BabyVision-Gen(๊ทธ๋ฆผ์œผ๋กœ ๋‹ตํ•˜๊ธฐ) ์‹œํ—˜์—์„œ๋„ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์˜ค๋ฅด์ง€ ์•Š์•˜๋‹ค๋Š” ์ ์€, ๋‹จ์ˆœํžˆ ๋‹ต๋ณ€ ๋ฐฉ์‹์ด ํ…์ŠคํŠธ๋ผ์„œ ์ ์ˆ˜๊ฐ€ ๋‚ฎ์€ ๊ฒŒ ์•„๋‹ˆ๋ผ, ๊ทผ๋ณธ์ ์œผ๋กœ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ(Visual Primitives)์ด ๋ถ€์กฑํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

โš ๏ธ ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

  • ํ˜„์žฌ์˜ BabyVision ๋ฒค์น˜๋งˆํฌ๊ฐ€ โ€œ์–ธ์–ด ์™„์ „ํžˆ ์—†๋Š”โ€ ์ƒํƒœ๋Š” ์•„๋‹™๋‹ˆ๋‹ค. ์งˆ๋ฌธ ์ž์ฒด๋Š” ์—ฌ์ „ํžˆ ์–ธ์–ด(ํ…์ŠคํŠธ)๋กœ ์ฃผ์–ด์ง€๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์ด ํ”„๋กฌํ”„ํŠธ์˜ ํ…์ŠคํŠธ๋ฅผ ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•  ์—ฌ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ‰๊ฐ€ ๋Œ€์ƒ์ด ๊ณ ์ •๋œ ๋ฐ์ดํ„ฐ์…‹(388๊ฐœ)์ด๋ผ๋Š” ์ ์—์„œ, ๋ชจ๋ธ์ด ์ด ๋ฐ์ดํ„ฐ์…‹์„ โ€˜ํ•™์Šตโ€™ํ•ด๋ฒ„๋ฆฌ๋ฉด ์ ์ˆ˜๊ฐ€ ์˜ค๋ฅผ ๊ฐ€๋Šฅ์„ฑ(Data Contamination)์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿš€ ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ

  • ์‹œ๊ฐ ์ค‘์‹ฌ ์•„ํ‚คํ…์ฒ˜ (Native Visual Reasoning): ์ด๋ฏธ์ง€๋ฅผ ๋ฐ”๋กœ ํ…์ŠคํŠธ๋กœ ๋ฒˆ์—ญํ•˜์ง€ ๋ง๊ณ , ์ด๋ฏธ์ง€ ์ž์ฒด์˜ ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š” ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. (์˜ˆ: CNN์ด๋‚˜ Visual Transformer์˜ ๊นŠ์€ ๋ ˆ์ด์–ด ์ •๋ณด๋ฅผ ์žƒ์ง€ ์•Š๊ณ  ํ™œ์šฉ)
  • ๋ณด๋‹ค ์—„๊ฒฉํ•œ ๋น„์–ธ์–ด์  ํ‰๊ฐ€: ์–ธ์–ด ํ”„๋กฌํ”„ํŠธ ์—†์ด ์˜ค์ง ์‹œ๊ฐ์  ์ž๊ทน๋งŒ์œผ๋กœ ๋‹ต์„ ์š”๊ตฌํ•˜๋Š” ์‹คํ—˜ ์„ค๊ณ„๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์‹œ๊ฐ ํ•™์Šต: ํ…์ŠคํŠธ๋ฅผ ์ฝ์œผ๋ฉฐ ๋ฐฐ์šฐ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์•„๊ธฐ์ฒ˜๋Ÿผ ๋ˆˆ์„ ๊ตด๋ฆฌ๋ฉฐ ์„ธ์ƒ์„ ๋ณด๊ณ  ์‹คํ—˜ํ•˜๋ฉฐ ์‹œ๊ฐ์  ๋Šฅ๋ ฅ์„ ํ‚ค์šฐ๋Š” ๊ฐ•ํ™” ํ•™์Šต ์ ‘๊ทผ๋ฒ•.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๐Ÿ›  ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

  • AI ๋ชจ๋ธ ์„ฑ๋Šฅ ์ง„๋‹จ ๋„๊ตฌ: ํšŒ์‚ฌ์—์„œ ๊ฐœ๋ฐœ ์ค‘์ธ ๋น„์ „ AI๊ฐ€ โ€œ์ฐฉ์‹œ ํ˜„์ƒโ€์ด๋‚˜ โ€œ๊ธฐ์ดˆ์ ์ธ ์‹œ๊ฐ ์˜ค๋ฅ˜โ€๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ฒ”ํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๋Š” ์ฒดํฌ๋ฆฌ์ŠคํŠธ๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • ์•ˆ์ „ ๋ฐ ๊ฒ€์ˆ˜ ์‹œ์Šคํ…œ: ํ˜„์žฅ์—์„œ AI๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •๋ฐ€ ๊ฒ€์‚ฌ(๋ฐ˜๋„์ฒด ๊ฒฐํ•จ ๊ฒ€์‚ฌ ๋“ฑ)๋ฅผ ํ•  ๋•Œ, โ€œ์ด ๋ชจ๋ธ์€ ๋ฏธ์„ธํ•œ ์ฐจ์ด๋Š” ๋ชป ๋ณผ ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๊ฒƒ์„ ์‚ฌ์ „์— ์ธ์ง€ํ•˜๊ฒŒ ํ•ด์ฃผ๋ฏ€๋กœ ๊ณผ์‹ ์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“ฆ ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • GPU: ์ถ”๋ก (Inference)๋งŒ ํ•œ๋‹ค๋ฉด ์ผ๋ฐ˜์ ์ธ ๋‹จ์ผ GPU(A100 ๋“ฑ)๋กœ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์ด ํฌ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ: ๋…ผ๋ฌธ์—์„œ ๊ณต๊ฐœ๋œ BabyVision ๋ฐ์ดํ„ฐ์…‹(์•ฝ 388๊ฐœ)์„ ๋‹ค์šด๋กœ๋“œํ•˜์—ฌ ์ฆ‰์‹œ ํ…Œ์ŠคํŠธ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋ณ„๋„์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ ํ•„์š” ์—†์Œ.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Multimodal LLMs (MLLMs): ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ ์—ฌ๋Ÿฌ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์ž…๋ ฅ ํ˜•ํƒœ)๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ (์˜ˆ: GPT-4V, Gemini).
  2. Visual Reasoning (์‹œ๊ฐ์  ์ถ”๋ก ): ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€ ์† ๊ฐ์ฒด๋ฅผ ์ธ์‹ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๊ทธ ๊ด€๊ณ„, ๋งฅ๋ฝ, ๋…ผ๋ฆฌ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฌ๋Š” ๊ณ ์ฐจ์›์ ์ธ ์‚ฌ๊ณ  ๊ณผ์ •.
  3. Linguistic Priors (์–ธ์–ด์  ์‚ฌ์ „ ์ง€์‹): ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์–ธ์–ด์™€ ๊ด€๋ จํ•˜์—ฌ ๋ฏธ๋ฆฌ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ํŽธํ–ฅ์ด๋‚˜ ์ง€์‹. (์˜ˆ: โ€œ์ฃผ๋ฐฉโ€์ด๋ž€ ๋‹จ์–ด๋ฅผ ๋“ค์œผ๋ฉด โ€œ๋ƒ‰์žฅ๊ณ โ€๊ฐ€ ์žˆ์„ ๊ฑฐ๋ผ ์ง€๋ ˆ์ง์ž‘ํ•˜๋Š” ๊ฒƒ)
  4. Verbalization Bottleneck (์–ธ์–ดํ™” ๋ณ‘๋ชฉ): ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ์–ธ์–ด(ํ…์ŠคํŠธ)๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ •๋ณด์˜ ์†์‹ค์ด๋‚˜ ์™œ๊ณก ํ˜„์ƒ.
  5. Fine-grained (๋ฏธ์„ธํ•œ): ์•„์ฃผ ์ž‘๊ณ  ์„ธ๋ถ€์ ์ธ ์ฐจ์ด๋‚˜ ๊ตฌ์กฐ๋ฅผ ์˜๋ฏธ. (๊ฑฐ์นœ ๋ถ„๋ฅ˜(Coarse)์˜ ๋ฐ˜๋Œ€๋ง)
  6. Zero-shot / Few-shot Learning: ๋ชจ๋ธ์ด ํ•ด๋‹น ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ถ”๊ฐ€์ ์ธ ํ•™์Šต ์—†์ด(Zero-shot) ๋˜๋Š” ์˜ˆ์‹œ๋ฅผ ๋ช‡ ๊ฐœ๋งŒ ๋ณด๊ณ (Few-shot) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋Šฅ๋ ฅ.
  7. Visual Primitives (์‹œ๊ฐ์  ์›์†Œ): ์ด๋ฏธ์ง€๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๊ฐ€์žฅ ๊ธฐ์ดˆ์ ์ธ ์ •๋ณด๋“ค(์„ , ๋ชจ์–‘, ์งˆ๊ฐ, ๊นŠ์ด ๋“ฑ)๋กœ, ๋ณต์žกํ•œ ์ธ์‹์„ ์œ„ํ•œ ๋ ˆ๊ณ  ๋ธ”๋ก๊ณผ ๊ฐ™์€ ๊ฐœ๋….

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Watching, Reasoning, and Searching:โ€ฆDD-006
๐ŸฅˆBabyVision: Visual Reasoning Beyondโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰STEP3-VL-10B Technical ReportDD-008
4.Thinking with Map: Reinforced Paralโ€ฆDD-009
5.Urban Socio-Semantic Segmentation wโ€ฆDD-010

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive