โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-035 From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

arXiv: 2602.22859 Upvotes: 143 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(Large Multimodal Models, LMM) ํ›ˆ๋ จ์€ ์ •์ ์ธ ๋ฐ์ดํ„ฐ์— ์˜์กดํ•˜๊ฑฐ๋‚˜ ๋ณต์žก์„ฑ(๋‚œ์ด๋„)๋งŒ์„ ๋†’์ด๋Š” ๋ฐฉ์‹์„ ์จ์„œ, ๋ชจ๋ธ์ด ์ •ํ™•ํžˆ ์–ด๋””์„œ๋ถ€ํ„ฐ ์‹ค์ˆ˜ํ•˜๋Š”์ง€ ๋ชจ๋ฅด๋Š” ์ƒํƒœ๋กœ ๋งน๋ชฉ์ ์ธ ํ•™์Šต์„ ๋ฐ˜๋ณตํ•œ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ชจ๋ธ์˜ ์•ฝ์ ์„ ์ •๋ฐ€ํ•˜๊ฒŒ ์ง„๋‹จํ•˜์—ฌ ๊ทธ์— ๋งž๋Š” ๋งž์ถคํ˜• ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด์ฃผ๋Š” ์ง„๋‹จ ๊ธฐ๋ฐ˜์˜ ์ˆœ์ฐจ์  ์ง„ํ™”(Diagnostic-driven Progressive Evolution, DPE) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋ชจ๋ธ์˜ ์‚ฌ๊ฐ์ง€๋Œ€๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์—†์• ๊ณ  ์„ฑ๋Šฅ์„ ์•ˆ์ •์ ์œผ๋กœ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : ๊ฐœ์ธ ๊ณผ์™ธ ์„ ์ƒ๋‹˜ ์ฒ˜๋ฐฉ๋ฒ•

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๋งน๋ชฉ์ ์œผ๋กœ ๋ฌธ์ œ์ง‘์„ ํ’€๊ฒŒ ํ•˜๋Š” ํ•™์Šต๋ฒ•์ด ์•„๋‹ˆ๋ผ, ๊ฐœ์ธ ๊ณผ์™ธ ์„ ์ƒ๋‹˜์ด ํ•™์ƒ์„ ๊ผผ๊ผผํžˆ ์ง„๋‹จํ•ด์„œ ์ฒ˜๋ฐฉํ•ด ์ฃผ๋Š” ๊ณผ์ •๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฐฉ์‹์€ ํ•™์ƒ์ด ์ˆ˜ํ•™์„ ๋ชปํ•˜๋“ , ์˜์–ด๋ฅผ ๋ชปํ•˜๋“  ์ƒ๊ด€์—†์ด ๊ทธ๋ƒฅ โ€˜์–ด๋ ค์šด ๋ฌธ์ œ์ง‘ ํ†ต์งธ๋กœโ€™ ์ฃผ๊ณ  ๋ฐ˜๋ณตํ•ด์„œ ํ’€๊ฒŒ ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌ๋ฉด ์ž˜ํ•˜๋Š” ๊ณผ๋ชฉ์€ ๋” ์ž˜ํ•ด์ง€์ง€๋งŒ, ์ •๋ง ํ•„์š”ํ•œ ์•ฝ์ ์€ ๊ทธ๋Œ€๋กœ ๋‚จ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์ด ๋…ผ๋ฌธ์˜ DPE ๋ฐฉ์‹์€ 1๋‹จ๊ณ„๋กœ ์‹œํ—˜์„ ์ณ์„œ ํ‹€๋ฆฐ ๋ฌธ์ œ ์œ ํ˜•์„ ๋ถ„์„(์ง„๋‹จ)ํ•˜๊ณ , 2๋‹จ๊ณ„๋กœ ๊ทธ ์œ ํ˜•๋งŒ ์ง‘์ค‘์ ์œผ๋กœ ๊ณต๋žตํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฌธ์ œ(๋ฐ์ดํ„ฐ)๋ฅผ ๋งŒ๋“ค์–ด์ค๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ 3๋‹จ๊ณ„๋กœ ํ•™์ƒ์ด ๊ทธ ๋ฌธ์ œ๋ฅผ ๋‹ค์‹œ ํ’€๋ฉด์„œ ๋ณด์™„(๊ฐ•ํ™” ํ•™์Šต)ํ•˜๊ฒŒ ํ•˜๊ณ , ์ด ๊ณผ์ •์„ ๋ฃจํ”„์ฒ˜๋Ÿผ ๊ณ„์† ๋Œ๋ฆฌ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋‹จ๊ณ„๊ฐ€ ๋‚˜์„ ํ˜•์œผ๋กœ ์—ฐ๊ฒฐ๋œ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

  1. ์ง„๋‹จ ๋‹จ๊ณ„(Diagnosis): ๋ชจ๋ธ์ด ํ˜„์žฌ ์‹œํ—˜ ๋ฌธ์ œ๋ฅผ ํ’€๊ฒŒ ํ•œ ๋’ค, ํ‹€๋ฆฐ ์ด์œ ๊ฐ€ โ€˜์ˆ˜ํ•™์  ๊ณ„์‚ฐ ์‹ค์ˆ˜โ€™์ธ์ง€ โ€˜์ด๋ฏธ์ง€๋ฅผ ์ž˜๋ชป ๋ด„โ€™์ธ์ง€ ๋“ฑ ์ •๋ฐ€ํ•œ ์›์ธ์„ ๋ถ„์„ํ•˜์—ฌ ๋ณด๊ณ ์„œ๋ฅผ ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์ ์ˆ˜๊ฐ€ ๋‚ฎ๋‹ค๋Š” ์‚ฌ์‹ค(ํžŒํŠธ์  ์‹ ํ˜ธ)์ด ์•„๋‹ˆ๋ผ ๋ฌด์—‡์ด ๋ถ€์กฑํ•œ์ง€ ๋ช…ํ™•ํžˆ ์•Œ์•„๋ƒ…๋‹ˆ๋‹ค.
  2. ์ƒ์„ฑ ๋‹จ๊ณ„(Generation): ์—ฌ๋Ÿฌ AI ์—์ด์ „ํŠธ๋“ค์ด ๋ชจ์—ฌ์„œ ๋ฐฉ๊ธˆ ์ง„๋‹จ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ์•ฝํ•œ ๋ถ€๋ถ„์„ ๊ณต๋žตํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฌธ์ œ์™€ ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ชจ๋ธ์ด โ€˜๊ทธ๋ž˜ํ”„ ํ•ด์„โ€™์— ์•ฝํ•˜๋‹ค๋ฉด ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๊ทธ๋ž˜ํ”„ ์ด๋ฏธ์ง€๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ฑฐ๋‚˜ ํŽธ์ง‘ํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ์ถœ์ œํ•ฉ๋‹ˆ๋‹ค.
  3. ๊ฐ•ํ™” ๋‹จ๊ณ„(Reinforcement): ์ด๋ ‡๊ฒŒ ๋งŒ๋“ค์–ด์ง„ ๋งž์ถคํ˜• ๋ฌธ์ œ์ง‘์œผ๋กœ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๋ชจ๋ธ์ด ํ•ด๋‹น ์•ฝ์ ์„ ๊ทน๋ณตํ•˜๊ฒŒ ๋˜๊ณ , ๋‹ค์‹œ 1๋‹จ๊ณ„๋กœ ๋Œ์•„๊ฐ€์„œ ์—…๊ทธ๋ ˆ์ด๋“œ๋œ ๋ชจ๋ธ์„ ์ƒˆ๋กญ๊ฒŒ ์ง„๋‹จํ•˜๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๊ณผ์ •์€ ์ˆ˜์‹์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

$\theta^{(k+1)} = \mathcal{A}_{\text{RL}}(\theta^{(k)}; \mathcal{T}^{(k)})$

์—ฌ๊ธฐ์„œ $\theta$๋Š” ๋ชจ๋ธ์˜ ์ง€๋Šฅ(ํŒŒ๋ผ๋ฏธํ„ฐ)์ด๊ณ , $k$๋Š” ๋ฐ˜๋ณต ํšŸ์ˆ˜์ž…๋‹ˆ๋‹ค.

  1. $\mathcal{A}{\text{diag}}(\pi{\theta^{(k)}})$: ํ˜„์žฌ ๋ชจ๋ธ $\pi$๋ฅผ ์ง„๋‹จํ•ด์„œ ์•ฝ์  ๋ณด๊ณ ์„œ $\mathcal{R}^{(k)}$๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  2. $\mathcal{A}_{\text{gen}}(\mathcal{R}^{(k)})$: ์ด ๋ณด๊ณ ์„œ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ $\mathcal{T}^{(k)}$๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. $\mathcal{A}_{\text{RL}}$: ์ด ๋ฐ์ดํ„ฐ๋กœ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ๋ชจ๋ธ์„ $\theta^{(k+1)}$๋กœ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ

์—ฐ๊ตฌ์ง„์€ 11๊ฐ€์ง€์˜ ๋‹ค์–‘ํ•œ ํ‘œ์ค€ ํ‰๊ฐ€ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ์˜์—ญ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • ๊ณผํ•™ ๋ฐ ๊ณตํ•™ ๊ธฐ์ดˆ(STEM): MMMU, MMVet, RealWorldQA ๋“ฑ
  • ์‹œ๊ฐ์  ์ˆ˜ํ•™(Visual Math): MathVerse, MathVista ๋“ฑ (๊ทธ๋ž˜ํ”„๋‚˜ ๋„ํ˜•์ด ํฌํ•จ๋œ ์ˆ˜ํ•™ ๋ฌธ์ œ)
  • ๊ด‘ํ•™ ๋ฌธ์ž ์ธ์‹(OCR): ChartQA, CharXiv ๋“ฑ (๋ฌธ์ž๊ฐ€ ๋“ค์–ด์žˆ๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ฝ๋Š” ๋Šฅ๋ ฅ)
  • ํ™˜๊ฐ(Hallucination): ๋ชจ๋ธ์ด ์‚ฌ์‹ค์ด ์•„๋‹Œ ๋‚ด์šฉ์„ ๊ทธ๋Ÿด์‹ธํ•˜๊ฒŒ ์ง€์–ด๋‚ด๋Š”์ง€ ํ‰๊ฐ€

๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์„ฑ๋Šฅ

๊ธฐ์กด ์ž๊ฐ€ ์ง„ํ™” ๋ฐฉ์‹์ธ VisPlay์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ, DPE๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ ์—์„œ ๋‘๋“œ๋Ÿฌ์ง„ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

  • ํฌ์†Œ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ: ๊ณ ์ž‘ 1,000๊ฐœ์˜ ์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ(์”จ์•— ๋ฐ์ดํ„ฐ)๋งŒ์œผ๋กœ๋„ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•์„ ๋›ฐ์–ด๋„˜๊ฑฐ๋‚˜ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋กฑํ…Œ์ผ(Long-tail) ๊ณผ๋ชฉ์—์„œ์˜ ์„ฑ๊ณผ: ์ˆ˜ํ•™์ด๋‚˜ OCR ๊ฐ™์ด ์ผ๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ๋“ค์ด ์–ด๋ ค์›Œํ•˜๋Š” ๋ถ„์•ผ์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ์„ฑ๋Šฅ์ด ์ •์ฒด๋˜๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ๋–จ์–ด์ง€๋Š” ํ˜„์ƒ์„ ๋ง‰๊ณ , ๊พธ์ค€ํžˆ ์„ฑ์žฅ์„ ์ด๋ค„๋ƒˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ํ›ˆ๋ จ์˜ โ€˜์•ˆ์ •์„ฑโ€™์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ํ›ˆ๋ จ์„ ๋ฐ˜๋ณตํ• ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋“ค์‘ฅ๋‚ ์‘ฅํ•˜๊ฑฐ๋‚˜ ํŠน์ • ์˜์—ญ์—์„œ ๊ธ‰๊ฒฉํžˆ ๋‚˜๋น ์ง€๋Š” ๋ถˆ์•ˆ์ •ํ•จ์ด ์žˆ์—ˆ์ง€๋งŒ, DPE๋Š” ์ง„๋‹จ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์„ฑ์„ ์กฐ์ ˆํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ „์ฒด์ ์ธ ๋ฐธ๋Ÿฐ์Šค๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ ๋Œ๊ณ  ์˜ฌ๋ผ๊ฐ”์Šต๋‹ˆ๋‹ค. ์ฆ‰, โ€œ๋ชจ๋ฅด๋Š” ๊ฒƒโ€์„ โ€œ์•„๋Š” ๊ฒƒโ€์œผ๋กœ ๋ฐ”๊พธ๋Š” ๊ณผ์ •์ด ์ฒด๊ณ„์ ์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

๋…ผ๋ฌธ์˜ ๊ฒฐ๋ก  ๋ถ€๋ถ„์—์„œ ์ €์ž๋“ค์€ ํ˜„์žฌ์˜ ์ง„๋‹จ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์ฃผ๋กœ ์‹คํŒจ ์›์ธ์„ ๋ถ„์„ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ์™œ ํ‹€๋ ธ๋Š”์ง€(Failure attribution)๋Š” ์ž˜ ํŒŒ์•…ํ•˜์ง€๋งŒ, ์„ฑ๊ณต์˜ ์‹ ํ˜ธ๋ฅผ ๋” ๋‹ค์–‘ํ•˜๊ฒŒ ํ•ด์„ํ•˜์—ฌ ๋” ํ’๋ถ€ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๋Š” ์ชฝ์œผ๋กœ๋Š” ํ™•์žฅ์ด ํ•„์š”ํ•ด ๋ณด์ž…๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ

ํ˜„์žฌ๋Š” ์ฃผ๋กœ ์ •๋‹ต ์—ฌ๋ถ€๋‚˜ ์˜ค๋ฅ˜ ์œ ํ˜•์— ๊ธฐ๋ฐ˜ํ•œ ์ง„๋‹จ์„ ํ•˜์ง€๋งŒ, ์•ž์œผ๋กœ๋Š” ๋” ํ’๋ถ€ํ•œ ์ง„๋‹จ ์‹ ํ˜ธ๋ฅผ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋น„์šฉ์ด๋‚˜ ์‹œ๊ฐ„ ์†Œ๋ชจ๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ์—ฐ๊ตฌ๋„ ํ•„์š”ํ•ด ๋ณด์ž…๋‹ˆ๋‹ค. ๋‚˜์•„๊ฐ€ ์ด๋ฏธ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋น„๋””์˜ค ๋“ฑ ๋” ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๋กœ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

์ด ๊ธฐ์ˆ ์€ ๋ ˆ์ด๋ธ”๋ง๋œ ๋ฐ์ดํ„ฐ(์ •๋‹ต์ด ๋‹ฌ๋ฆฐ ๋ฐ์ดํ„ฐ)๋ฅผ ๊ตฌํ•˜๊ธฐ ์–ด๋ ต๊ฑฐ๋‚˜ ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ํŠน์ˆ˜ ๋„๋ฉ”์ธ์— ๋ฐ”๋กœ ์ ์šฉํ•˜๊ธฐ ์ข‹์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜๋ฃŒ ์ด๋ฏธ์ง€ ๋ถ„์„์ด๋‚˜ ํŠน์ • ์ œ์กฐ์—…์˜ ๋ถˆ๋Ÿ‰ ๊ฒ€์ถœ, ๋ฒ•๋ฅ  ๋ฌธ์„œ์™€ ๊ด€๋ จ ๋„ํ‘œ ๋ถ„์„ ๋“ฑ ์ „๋ฌธ ์ง€์‹์ด ํ•„์š”ํ•œ ๋ถ„์•ผ์—์„œ ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ๋ ˆ๋ฒจ์—…์‹œํ‚ค๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ๋ฐฉ์‹์„ ์‹ค๋ฌด์— ์“ฐ๋ ค๋ฉด ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

  1. ๊ณ ํ’ˆ์งˆ ์—์ด์ „ํŠธ ๋ชจ๋ธ: ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ  ์ง„๋‹จ์„ ์ˆ˜ํ–‰ํ•  ์—ฌ๋Ÿฌ ๊ณ ์„ฑ๋Šฅ LMM(์˜ˆ: GPT-5.2 ์ˆ˜์ค€์˜ ๋ชจ๋ธ)๋“ค์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” API ํ˜ธ์ถœ ๋น„์šฉ์œผ๋กœ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ํ›ˆ๋ จ์šฉ GPU: ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋กœ ์‹ค์ œ๋กœ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ฐ•ํ™” ํ•™์Šต ๊ณผ์ •์ด ํ•„์š”ํ•˜๋ฏ€๋กœ, ์ ๋‹นํ•œ ๊ทœ๋ชจ์˜ GPU ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฐ์ดํ„ฐ ์ž์ฒด๋Š” ์ž๋™ ์ƒ์„ฑ๋˜๋ฏ€๋กœ ์‚ฌ๋žŒ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ๋งŒ๋“œ๋Š” ์ธ๊ฑด๋น„๋Š” ํš๊ธฐ์ ์œผ๋กœ ์ค„์—ฌ์ค๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(Large Multimodal Models, LMM): ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์ •๋ณด๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ฑฐ๋Œ€ AI ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning, RL): AI๊ฐ€ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ์ข…๋ฅ˜์ž…๋‹ˆ๋‹ค.
  • ๋กฑํ…Œ์ผ ๋ถ„ํฌ(Long-tail Distribution): ๋ฐ์ดํ„ฐ๊ฐ€ ํ‰๊ท ์ ์ธ ์ผ€์ด์Šค ๋Œ€๋น„ ๋งค์šฐ ๋“œ๋ฌผ๊ฒŒ ๋ฐœ์ƒํ•˜๋Š” ํฌ๊ท€ํ•œ ์ผ€์ด์Šค๋“ค์„ ์˜๋ฏธํ•˜๋ฉฐ, AI๊ฐ€ ์ด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š” ์˜์—ญ์ž…๋‹ˆ๋‹ค.
  • ํŒจ๋Ÿด๋ž™์‹œํ‹ฐ(Perplexity): ์–ธ์–ด ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์–ผ๋งˆ๋‚˜ ๋‹นํ™ฉ์Šค๋Ÿฌ์›Œํ•˜๋Š”์ง€(์ž˜ ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•˜๋Š”์ง€)๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ๋กœ, ๋‚ฎ์„์ˆ˜๋ก ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ž˜ ์ดํ•ดํ•œ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.
  • ํ™˜๊ฐ(Hallucination): AI๊ฐ€ ์‚ฌ์‹ค์ด ์•„๋‹Œ ๋‚ด์šฉ์„ ๋งˆ์น˜ ์ง„์‹ค์ธ ๊ฒƒ์ฒ˜๋Ÿผ ์ž์‹  ์žˆ๊ฒŒ ํ† ํ•ด๋‚ด๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค.
  • ์ž๊ฐ€ ์ง„ํ™”(Self-evolving): ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ ์—†์ด ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์งˆ๋ฌธ์„ ์ƒ์„ฑํ•˜๊ณ  ๋‹ต์„ ๋งŒ๋“ค์–ด๊ฐ€๋ฉฐ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ(Multi-agent System): ํ•˜๋‚˜์˜ AI๊ฐ€ ์•„๋‹ˆ๋ผ ์—ฌ๋Ÿฌ AI๊ฐ€ ๊ฐ์ž์˜ ์—ญํ• ์„ ๋‚˜๋ˆ„์–ด ํ˜‘๋ ฅํ•˜๋ฉฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡A Very Big Video Reasoning SuiteDD-031
๐ŸฅˆDoes Your Reasoning Model Implicitlโ€ฆDD-032
๐Ÿฅ‰VESPO: Variational Sequence-Level Sโ€ฆDD-033
4.The Trinity of Consistency as a Defโ€ฆDD-034
5.From Blind Spots to Gains: Diagnostโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-01 | ๐Ÿค– GLM-4.7 Deep Dive