โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-007 BabyVision: Visual Reasoning Beyond Language
arXiv: 2601.06521 ์์: ์ด๋ฒ ์ฃผ Top 2 Upvotes: 193 | Comments: 6

[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] BabyVision: Visual Reasoning Beyond Language
์์ฝ: ์ต์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(MLLM)๋ค์ โ๋ง๋ก ์ค๋ช ๋ ์ง์โ์ ํ๋ถํ์ง๋ง, โ์ธ์ด ์ด์ ์ ์๊ฐ์ ์ง๊ดโ์ ๊ฐ๋์๊ธฐ ์์ค์๋ ๋ฏธ์น์ง ๋ชปํ๋ค๋ ๊ฒ์ ๋ฐํ๋ธ ๋ ผ๋ฌธ์ ๋๋ค.
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(MLLM) ํ๊ฐ๋ ์ฃผ๋ก ์ธ์ด์ ์ง์์ด๋ ๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ์ ์ง์ค๋์ด ์์ด์, ๋ชจ๋ธ์ด ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ๋ตํ๋ ์ฒํ๋ฉด์ ์ฌ์ค์ ํ ์คํธ ํํธ์๋ง ์์กดํ๋ โ์นํ โ์ ๋ชป ์ก์๋์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ **โ์ธ์ด๋ฅผ ๋ฐฐ์ฐ๊ธฐ ์ ์๊ธฐ๋ค์ด ๊ฐ์ง๋ ๊ธฐ์ด ์๊ฐ ๋ฅ๋ ฅโ**์ ์ธก์ ํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ(BabyVision)๋ฅผ ์ ์ํ์ฌ, ํ์ฌ AI๋ค์ด ๊ฐ์ง ์ฐฉ๊ฐ(์๊ฐ์ ์ํ๋ค๋ ์ฐฉ๊ฐ)์ ๊นจ๋ถ์์์ต๋๋ค. ์ด๋ ํฅํ AI๊ฐ ์ง์ ์ผ๋ก ์ธ์์ โ๋ณด๊ณ โ ์ดํดํ๋ ค๋ฉด ์ธ์ด ์ค์ฌ์ ์ํคํ ์ฒ๋ฅผ ๋์ด ์๊ฐ์ ์ ๋ณด๋ฅผ ์์์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ด ํ์ํจ์ ์์ฌํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ง ์ผ์์ํ ๋น์ : โ์ํ ์ฒ์ฌ ๊ต์๋ vs. ๋์ ํ ๊ฑฐ๋ฏธ์คโ
์ฐ๋ฆฌ๊ฐ ํํ ์ฐ๋ ์ต์ AI(GPT-4o, Claude ๋ฑ)๋ฅผ **โ๋ฐฉ๋ํ ์ง์์ ๊ฐ์ง ๊ต์๋โ**์ด๋ผ๊ณ ์๊ฐํด ๋ด ์๋ค. ์ด ๊ต์๋์ ๋ฏธ์ ๋ถํ์ด๋ ์ญ์ฌ ์ง์์ ํ์ํ์ง๋ง, ๋ง์ ์ค๋ฌผ๋ก ๋ **๋๋ฌด์ ๊ฐ๋ฝ์ผ๋ก ๋๊ฐ์ ๋ชจ์์ ๋ํ์ ๋ง์ถ๋ โํผ์ฆ ๋์ดโ**๋ฅผ ์ํค๋ฉด 3์ด ์์ด๋ณด๋ค ๋ชปํฉ๋๋ค.
๋ฐ๋ฉด์ 3์ด ์๊ธฐ๋ ๋ง์ ๋ชปํ์ง๋ง, ๋์์ ๊ณต์ด ์ฌ๋ผ์ง๋ฉด ์ด๋๋ก ๊ตด๋ฌ๊ฐ๋์ง ์๊ณ , ์๋ง ์ผ๊ตด์ ์์ ์ ํ๋๋ ๊ตฌ๋ณํด ๋ ๋๋ค. ์ด ๋ ผ๋ฌธ์ AI ๊ต์๋์๊ฒ โ์ธ์ด๋ก ์ค๋ช ํ์ง ๋ง๊ณ , ๋์ผ๋ก๋ง ๋ณด๊ณ ์ด ํผ์ฆ์ ๋ง์ถฐ๋ดโ๋ผ๊ณ ์ํค๋ ์ํ(BabyVision)์ ์น๋ฅธ ๊ฒ์ ๋๋ค.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
- ๋ถ๋ฅ ์ ์ (Taxonomy Definition): ์๊ธฐ๋ค์ด ์ธ์ด๋ฅผ ๋ฐฐ์ฐ๊ธฐ ์ ์ ํ ์ ์๋ ํ๋์ 4๊ฐ์ง ํต์ฌ ์นดํ
๊ณ ๋ฆฌ๋ก ๋๋๋๋ค.
- ๋ฏธ์ธํ ์ฐจ์ด ๊ตฌ๋ณ (Fine-grained Discrimination): โ๊ทธ๋ฆผ ์ ์ฌ๊ณผ ์ค์ ๋ฒ๋ ๋จน์ ๊ณณ ์ฐพ๊ธฐโ
- ์๊ฐ์ ์ถ์ (Visual Tracking): โ๋ฏธ๋ก ์ค ๋ฐ๋ผ๊ฐ๊ธฐโ, โ๊ณต์ ๊ถค์ ์ฐพ๊ธฐโ
- ๊ณต๊ฐ ์ง๊ฐ (Spatial Perception): โ๋ฌผ์ฒด๊ฐ ์์ฌ ์์ผ๋ฉด ๋ฌด๊ฒ ์ค์ฌ์ด ์ด๋์ธ์ง ์๊ธฐโ
- ์๊ฐ์ ํจํด (Visual Pattern Recognition): โ๋ํ์ ๊ท์น์ฑ ์ฐพ๊ธฐโ
- ๋ฐ์ดํฐ ์์ฑ (Data Curation): ์์ด๋ค์ ์ฌ๋ฆฌํ ํ ์คํธ ๋ฌธ์ ๋ค์ ์ฐธ๊ณ ํ์ฌ, ์ธ์ด์ ํํธ ์์ด ์ค์ง โ๋โ์ผ๋ก๋ง ํ ์ ์๋ ๋ฌธ์ 388๊ฐ๋ฅผ ๋ง๋ญ๋๋ค.
- ํ๊ฐ ๋ฐ ๋ถ์ (Evaluation): ์ต์ AI ๋ชจ๋ธ๋ค์๊ฒ ์ด ๋ฌธ์ ๋ฅผ ํ๊ฒ ํฉ๋๋ค. ์ฌ๊ธฐ์ ํฅ๋ฏธ๋ก์ด ์ ์, ๋ต์ ๋ง(ํ ์คํธ)๋ก ํ๊ฒ ํ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ, AI๊ฐ ์ง์ ๊ทธ๋ฆผ์ ๊ทธ๋ ค์ ๋ต์ ํํํ๊ฒ ํ๋ BabyVision-Gen์ด๋ผ๋ ์ํ๋ ์น๋ฅธ๋ค๋ ์ ์ ๋๋ค.
๐ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ๊ฐ๋
์ด ๋ ผ๋ฌธ์๋ ๋ณต์กํ ์์๋ณด๋ค๋ **โ์ธ์ด์ ๋ณ๋ชฉ ํ์(Verbalization Bottleneck)โ**์ด๋ผ๋ ์ค์ํ ๊ฐ๋ ์ด ๋ฑ์ฅํฉ๋๋ค.
- ๊ธฐ์กด AI๋ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด ๊ณง๋ฐ๋ก ํ ์คํธ(์ธ์ด)๋ก ๋ณํํด์ ์๊ฐํฉ๋๋ค.
- ํ์ง๋ง ์ด๋ฏธ์ง์ ๋ด๊ธด โ๋ฏธ์ธํ ์ง๊ฐโ, โ์ ํํ ์์นโ, โ๋ณต์กํ ๊ธฐํํ์ ๊ตฌ์กฐโ๋ ๋จ์ด๋ก ๋ฐ๊พธ๋ ์๊ฐ ์ ๋ณด๊ฐ ์์ค๋ฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, โ์ผ์ชฝ์ผ๋ก 2cm ์ด์ง ๊ธฐ์ธ์ด์ง ์ปตโ์ ์ธ์ด๋ก ๋ฐ๊พธ๋ฉด ๊ทธ๋ฅ โ๊ธฐ์ธ์ด์ง ์ปตโ์ด ๋์ด๋ฒ๋ฆฝ๋๋ค. AI๋ ์ด ์์ค๋ ์ ๋ณด ๋๋ฌธ์ ๋ฌธ์ ๋ฅผ ํ๋ฆฌ๊ฒ ๋ฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๐ ๋ฒค์น๋งํฌ ๋ฐ ์ฑ๋ฅ ์์น
๋ ผ๋ฌธ์์ ํ ์คํธํ ์ฃผ์ ๋ฒค์น๋งํฌ๋ BabyVision (ํ ์คํธ ๋ต๋ณ)๊ณผ BabyVision-Gen (์ด๋ฏธ์ง ์์ฑ ๋ต๋ณ)์ ๋๋ค.
- ์ฌ๋(Human) ๊ธฐ์ค:
- ์ฑ์ธ ํ๊ท ์ ์: 94.1%
- 6์ธ ์์ด: ์ต์์ ๋ชจ๋ธ๋ณด๋ค ์ฝ 20% ์ด์ ๋์ ์ฑ๋ฅ์ ๋ณด์.
- AI ๋ชจ๋ธ ๊ธฐ์ค:
- ์ต์์ ๋ชจ๋ธ (Gemini3-Pro-Preview): 49.7%
- ๊ธฐํ ์ต์ ๋ชจ๋ธ๋ค (GPT-4o ๋ฑ): ๋๋ถ๋ถ 50% ์๋๋ก ์ฉ์ฉ๋งค๋ ๋ชจ์ต.
- ์ธ๋ถ ๋ถ์ผ๋ณ ์คํจ:
- Fine-grained Discrimination (๋ฏธ์ธ ๊ตฌ๋ณ): AI๋ ์์ ์ฐจ์ด๋ฅผ ๊ฑฐ์ ๋ชป ์ก์๋. (์์์ด๋ ๋ชจ์์ด ๊ฑฐ์ ๊ฐ์ ๋ ๊ทธ๋ฆผ ๊ตฌ๋ณ ์คํจ)
- Visual Tracking (์ถ์ ): ๋ฏธ๋ก์ ๋ณต์กํ ์ ์ ๋ฐ๋ผ๊ฐ๋ค๊ฐ ๊ธธ์ ์์.
- Spatial Perception (๊ณต๊ฐ): 2D ์ด๋ฏธ์ง์์ 3D ๊น์ด๊ฐ์ ์ดํดํ์ง ๋ชปํจ.
๐ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ์ฑ๊ณผ๋ โAI๊ฐ ์๊ฐ์ ์ผ๋ก ๋ฉ์ฒญํ๋คโ๋ ๊ฒ์ ์ฆ๋ช ํ ๊ฒ ๊ทธ ์์ฒด์ ๋๋ค. ๊ธฐ์กด์๋ AI๊ฐ ๋ณต์กํ ์ํ ๋ฌธ์ ๋ ์๋ฃ ์ง๋จ์ ์ ํ์ด์ โ์๊ฐ์ ์ผ๋ก๋ ๋ฐ์ด๋๊ฒ ๊ฑฐ๋ ์๊ฐํ๋คโ๋ ์ฐฉ๊ฐ์ ๋ถ์์์ผฐ์ต๋๋ค. ํนํ, BabyVision-Gen(๊ทธ๋ฆผ์ผ๋ก ๋ตํ๊ธฐ) ์ํ์์๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ค๋ฅด์ง ์์๋ค๋ ์ ์, ๋จ์ํ ๋ต๋ณ ๋ฐฉ์์ด ํ ์คํธ๋ผ์ ์ ์๊ฐ ๋ฎ์ ๊ฒ ์๋๋ผ, ๊ทผ๋ณธ์ ์ผ๋ก ์๊ฐ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ(Visual Primitives)์ด ๋ถ์กฑํ๋ค๋ ๊ฒ์ ์ ์ฆํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
โ ๏ธ ์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
- ํ์ฌ์ BabyVision ๋ฒค์น๋งํฌ๊ฐ โ์ธ์ด ์์ ํ ์๋โ ์ํ๋ ์๋๋๋ค. ์ง๋ฌธ ์์ฒด๋ ์ฌ์ ํ ์ธ์ด(ํ ์คํธ)๋ก ์ฃผ์ด์ง๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ด ํ๋กฌํํธ์ ํ ์คํธ๋ฅผ ๊ณผ๋ํ๊ฒ ์์กดํ ์ฌ์ง๊ฐ ์์ต๋๋ค.
- ํ๊ฐ ๋์์ด ๊ณ ์ ๋ ๋ฐ์ดํฐ์ (388๊ฐ)์ด๋ผ๋ ์ ์์, ๋ชจ๋ธ์ด ์ด ๋ฐ์ดํฐ์ ์ โํ์ตโํด๋ฒ๋ฆฌ๋ฉด ์ ์๊ฐ ์ค๋ฅผ ๊ฐ๋ฅ์ฑ(Data Contamination)์ด ์์ต๋๋ค.
๐ ๊ฐ์ ๊ฐ๋ฅ์ฑ ๋ฐ ํฅํ ์ฐ๊ตฌ
- ์๊ฐ ์ค์ฌ ์ํคํ ์ฒ (Native Visual Reasoning): ์ด๋ฏธ์ง๋ฅผ ๋ฐ๋ก ํ ์คํธ๋ก ๋ฒ์ญํ์ง ๋ง๊ณ , ์ด๋ฏธ์ง ์์ฒด์ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ฉฐ ์ถ๋ก ํ ์ ์๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๊ฐ ํ์ํฉ๋๋ค. (์: CNN์ด๋ Visual Transformer์ ๊น์ ๋ ์ด์ด ์ ๋ณด๋ฅผ ์์ง ์๊ณ ํ์ฉ)
- ๋ณด๋ค ์๊ฒฉํ ๋น์ธ์ด์ ํ๊ฐ: ์ธ์ด ํ๋กฌํํธ ์์ด ์ค์ง ์๊ฐ์ ์๊ทน๋ง์ผ๋ก ๋ต์ ์๊ตฌํ๋ ์คํ ์ค๊ณ๊ฐ ํ์ํฉ๋๋ค.
- ์์ด์ ํธ ๊ธฐ๋ฐ ์๊ฐ ํ์ต: ํ ์คํธ๋ฅผ ์ฝ์ผ๋ฉฐ ๋ฐฐ์ฐ๋ ๊ฒ์ด ์๋๋ผ, ์๊ธฐ์ฒ๋ผ ๋์ ๊ตด๋ฆฌ๋ฉฐ ์ธ์์ ๋ณด๊ณ ์คํํ๋ฉฐ ์๊ฐ์ ๋ฅ๋ ฅ์ ํค์ฐ๋ ๊ฐํ ํ์ต ์ ๊ทผ๋ฒ.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๐ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
- AI ๋ชจ๋ธ ์ฑ๋ฅ ์ง๋จ ๋๊ตฌ: ํ์ฌ์์ ๊ฐ๋ฐ ์ค์ธ ๋น์ AI๊ฐ โ์ฐฉ์ ํ์โ์ด๋ โ๊ธฐ์ด์ ์ธ ์๊ฐ ์ค๋ฅโ๋ฅผ ์ผ๋ง๋ ๋ฒํ๋์ง ํ ์คํธํ๋ ์ฒดํฌ๋ฆฌ์คํธ๋ก ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
- ์์ ๋ฐ ๊ฒ์ ์์คํ : ํ์ฅ์์ AI๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ฐ ๊ฒ์ฌ(๋ฐ๋์ฒด ๊ฒฐํจ ๊ฒ์ฌ ๋ฑ)๋ฅผ ํ ๋, โ์ด ๋ชจ๋ธ์ ๋ฏธ์ธํ ์ฐจ์ด๋ ๋ชป ๋ณผ ์ ์๋คโ๋ ๊ฒ์ ์ฌ์ ์ ์ธ์งํ๊ฒ ํด์ฃผ๋ฏ๋ก ๊ณผ์ ์ ๋ฐฉ์งํ ์ ์์ต๋๋ค.
๐ฆ ํ์ํ ๋ฆฌ์์ค
- GPU: ์ถ๋ก (Inference)๋ง ํ๋ค๋ฉด ์ผ๋ฐ์ ์ธ ๋จ์ผ GPU(A100 ๋ฑ)๋ก ์ถฉ๋ถํฉ๋๋ค. ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ด ํฌ์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ๋ฐ์ดํฐ: ๋ ผ๋ฌธ์์ ๊ณต๊ฐ๋ BabyVision ๋ฐ์ดํฐ์ (์ฝ 388๊ฐ)์ ๋ค์ด๋ก๋ํ์ฌ ์ฆ์ ํ ์คํธ ๊ฐ๋ฅํฉ๋๋ค. ๋ณ๋์ ํ์ต ๋ฐ์ดํฐ ํ์ ์์.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Multimodal LLMs (MLLMs): ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ์ฌ๋ฌ ๋ชจ๋ฌ๋ฆฌํฐ(์ ๋ ฅ ํํ)๋ฅผ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ (์: GPT-4V, Gemini).
- Visual Reasoning (์๊ฐ์ ์ถ๋ก ): ๋จ์ํ ์ด๋ฏธ์ง ์ ๊ฐ์ฒด๋ฅผ ์ธ์ํ๋ ๊ฒ์ ๋์ด, ๊ทธ ๊ด๊ณ, ๋งฅ๋ฝ, ๋ ผ๋ฆฌ๋ฅผ ๋ฐํ์ผ๋ก ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๋ ๊ณ ์ฐจ์์ ์ธ ์ฌ๊ณ ๊ณผ์ .
- Linguistic Priors (์ธ์ด์ ์ฌ์ ์ง์): ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ํตํด ์ธ์ด์ ๊ด๋ จํ์ฌ ๋ฏธ๋ฆฌ ๊ฐ์ง๊ณ ์๋ ํธํฅ์ด๋ ์ง์. (์: โ์ฃผ๋ฐฉโ์ด๋ ๋จ์ด๋ฅผ ๋ค์ผ๋ฉด โ๋์ฅ๊ณ โ๊ฐ ์์ ๊ฑฐ๋ผ ์ง๋ ์ง์ํ๋ ๊ฒ)
- Verbalization Bottleneck (์ธ์ดํ ๋ณ๋ชฉ): ์๊ฐ์ ์ ๋ณด๋ฅผ ์ธ์ด(ํ ์คํธ)๋ก ๋ณํํ๋ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ ๋ณด์ ์์ค์ด๋ ์๊ณก ํ์.
- Fine-grained (๋ฏธ์ธํ): ์์ฃผ ์๊ณ ์ธ๋ถ์ ์ธ ์ฐจ์ด๋ ๊ตฌ์กฐ๋ฅผ ์๋ฏธ. (๊ฑฐ์น ๋ถ๋ฅ(Coarse)์ ๋ฐ๋๋ง)
- Zero-shot / Few-shot Learning: ๋ชจ๋ธ์ด ํด๋น ๋ฌธ์ ์ ๋ํด ์ถ๊ฐ์ ์ธ ํ์ต ์์ด(Zero-shot) ๋๋ ์์๋ฅผ ๋ช ๊ฐ๋ง ๋ณด๊ณ (Few-shot) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฅ๋ ฅ.
- Visual Primitives (์๊ฐ์ ์์): ์ด๋ฏธ์ง๋ฅผ ๊ตฌ์ฑํ๋ ๊ฐ์ฅ ๊ธฐ์ด์ ์ธ ์ ๋ณด๋ค(์ , ๋ชจ์, ์ง๊ฐ, ๊น์ด ๋ฑ)๋ก, ๋ณต์กํ ์ธ์์ ์ํ ๋ ๊ณ ๋ธ๋ก๊ณผ ๊ฐ์ ๊ฐ๋ .
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Watching, Reasoning, and Searching:โฆ | DD-006 |
| ๐ฅ | BabyVision: Visual Reasoning Beyondโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | STEP3-VL-10B Technical Report | DD-008 |
| 4. | Thinking with Map: Reinforced Paralโฆ | DD-009 |
| 5. | Urban Socio-Semantic Segmentation wโฆ | DD-010 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive