โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-016 ERNIE 5.0 Technical Report

arXiv: 2602.04705 Upvotes: 236 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] ERNIE 5.0 Technical Report

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๋‹ค๋ฅธ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ)๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๊ทธ์ณค์œผ๋ฉฐ, ์ƒ์„ฑ ๊ณผ์ •์—์„œ ํ…์ŠคํŠธ์™€ ๋น„ํ…์ŠคํŠธ๊ฐ€ ๋ถ„๋ฆฌ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ERNIE 5.0์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ์˜ค๋””์˜ค๋ฅผ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ์˜คํ† ๋ฆฌ๊ทธ๋ ˆ์‹œ๋ธŒ(Autoregressive) ํ”„๋ ˆ์ž„์›Œํฌ ์•ˆ์—์„œ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€(From Scratch) ํ•™์Šต์‹œ์ผœ ์ดํ•ด์™€ ์ƒ์„ฑ์„ ์›ํ™œํ•˜๊ฒŒ ์—ฐ๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹จ์ผ ํ•™์Šต ๊ณผ์ •์—์„œ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์„œ๋ธŒ ๋ชจ๋ธ๋“ค์„ ๋™์‹œ์— ์–ป๋Š” โ€˜ํƒ„๋ ฅ์  ํ•™์Šต(Elastic Training)โ€™ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋„์ž…ํ•˜์—ฌ, ์‹ค์ œ ์„œ๋น„์Šค ํ™˜๊ฒฝ์—์„œ์˜ ๋ฆฌ์†Œ์Šค ์ œ์•ฝ์„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ๊ณผ ๋™์‹œ์— ํ•ด๊ฒฐํ–ˆ๋‹ค๋Š” ์ ์ด ํš๊ธฐ์ ์ž…๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿ• 1) ํ†ตํ•ฉ๋œ ์˜คํ† ๋ฆฌ๊ทธ๋ ˆ์‹œ๋ธŒ ํ•™์Šต (Native Autoregressive Unified Model)

๋น„์œ : โ€œ๋งŒ๋Šฅ ํ†ต์—ญ์‚ฌ์ด์ž ์˜ˆ์ˆ ๊ฐ€โ€ ๊ธฐ์กด ๋ชจ๋ธ(GPT-4V ๋“ฑ)์€ ์–ธ์–ด ์ „๋ฌธ๊ฐ€์—๊ฒŒ ๊ทธ๋ฆผ์„ ์„ค๋ช…ํ•ด์ฃผ๋Š” ๋ณด์กฐ ์š”์›์ด ๋ถ™์–ด ์žˆ๋Š” ๊ตฌ์กฐ์™€ ๋น„์Šทํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ERNIE 5.0์€ ํƒœ์–ด๋‚  ๋•Œ๋ถ€ํ„ฐ ํ…์ŠคํŠธ, ๊ทธ๋ฆผ, ์†Œ๋ฆฌ, ์˜์ƒ์„ ํ•˜๋‚˜์˜ ์–ธ์–ด์ฒ˜๋Ÿผ ๋“ฃ๊ณ  ๋งํ•˜๋Š” ์‹ ๋™(Savant)์„ ํ‚ค์šฐ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋ชจ๋“  ์ž…๋ ฅ์„ โ€˜ํ† ํฐโ€™์ด๋ผ๋Š” ์•Œ๊ฐฑ์ด๋กœ ๋ถ€์ˆ˜๊ณ , โ€œ๋‹ค์Œ์— ์˜ฌ ํ† ํฐ ๋ฌถ์Œ(Next-group-of-tokens)โ€œ์„ ๋งž์ถ”๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

  • ๋™์ž‘ ์›๋ฆฌ:
    1. ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ์˜ค๋””์˜ค ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์˜ค๋ฉด ๋ชจ๋‘๋ฅผ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
    2. ๋ชจ๋ธ์€ ์•ž์— ์žˆ๋Š” ํ† ํฐ๋“ค์„ ๋ณด๊ณ , ๋ฐ”๋กœ ๋‹ค์Œ ํ•œ ํ† ํฐ์ด ์•„๋‹ˆ๋ผ **๊ทธ ๋‹ค์Œ์— ์˜ฌ ํ† ํฐ๋“ค์˜ ๋ฌถ์Œ(Group)**์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
    3. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค์ฒ˜๋Ÿผ ์ •๋ณด๋Ÿ‰์ด ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ›จ์”ฌ ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿงฉ 2) ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ถˆ๋ฌธ(Modal-agnostic) ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ (MoE)

๋น„์œ : โ€œํŠน๊ธฐ ์—†๋Š” ๋งŒ๋Šฅ ๊ธฐ๋ŠฅํŒ€โ€ ๋ณดํ†ต ๊ธฐ์—…์—์„œ๋Š” โ€˜๋””์ž์ธํŒ€โ€™, โ€˜๊ฐœ๋ฐœํŒ€โ€™์ฒ˜๋Ÿผ ์—ญํ• ์— ๋”ฐ๋ผ ํŒ€์„ ๋‚˜๋ˆ•๋‹ˆ๋‹ค(๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํŠนํ™”). ํ•˜์ง€๋งŒ ERNIE 5.0์€ โ€œ์ด ๋ฌธ์ œ๋Š” ํ•ด๊ฒฐํ–ˆ์–ด!โ€๋ผ๊ณ  ์†์„ ๋“ค ๋•Œ๊นŒ์ง€ ๋ˆ„๊ฐ€ ๋ฌด์Šจ ์—ญํ• ์„ ํ• ์ง€ ๋ชจ๋ฅด๋Š” ์œ ์—ฐํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ธฐํšํŒ€์„ ์šด์šฉํ•ฉ๋‹ˆ๋‹ค.

  • ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: Ultra-sparse Mixture-of-Experts (MoE)
    • ๋ชจ๋ธ ๋‚ด๋ถ€์— ์ˆ˜๋งŽ์€ โ€˜์ „๋ฌธ๊ฐ€(Expert)โ€™ ์‹ ๊ฒฝ๋ง์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.
    • ์ค‘์š”ํ•œ ์ ์€ ์ด ์ „๋ฌธ๊ฐ€๋“ค์ด โ€œ๋„ˆ๋Š” ์ด๋ฏธ์ง€๋งŒ ๋‹ด๋‹นํ•ดโ€๋ผ๋Š” ๋ผ๋ฒจ์ด ๋ถ™์€ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • **๋ผ์šฐํ„ฐ(Router)**๋ผ๋Š” ์ง€ํœ˜์ž๊ฐ€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๊ณ , ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์ „๋ฌธ๊ฐ€๋“ค์—๊ฒŒ๋งŒ ์ผ์„ ๋ถ„๋ฐฐํ•ฉ๋‹ˆ๋‹ค. ํ…์ŠคํŠธ๊ฐ€ ๋“ค์–ด์™€๋„ ์–ด๋–ค ์ „๋ฌธ๊ฐ€๋Š” ์‹œ๊ฐ์  ํŒจํ„ด์„ ์žก์•„๋‚ผ ์ˆ˜๋„ ์žˆ๊ณ , ๋ฐ˜๋Œ€์˜ ๊ฒฝ์šฐ๋„ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด Modality-agnostic(๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š”) ๋ผ์šฐํŒ…์ž…๋‹ˆ๋‹ค.

๐ŸŽ›๏ธ 3) ํƒ„๋ ฅ์  ํ•™์Šต (Elastic Training)

๋น„์œ : โ€œ๋Ÿฌ์‹œ์•„ ์ธํ˜•(Matryoshka Doll)โ€ ๋ณดํ†ต ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์„ ์„œ๋น„์Šคํ•  ๋•Œ๋Š”, โ€œ์ตœ์ƒ์˜ ์„ฑ๋Šฅ์„ ์œ„ํ•œ ๊ฑฐ๋Œ€ ๋ชจ๋ธโ€๊ณผ โ€œ๋น ๋ฅธ ์‘๋‹ต์„ ์œ„ํ•œ ์ž‘์€ ๋ชจ๋ธโ€์„ ๋”ฐ๋กœ, ๋”ฐ๋กœ ํ›ˆ๋ จ์‹œ์ผœ์•ผ ํ•ด์„œ ๋ˆ์ด ์—„์ฒญ ๋‚ฉ๋‹ˆ๋‹ค. ERNIE 5.0์€ ํ•œ ๋ฒˆ์˜ ํ›ˆ๋ จ์œผ๋กœ ํฐ ์ธํ˜• ์•ˆ์— ์ž‘์€ ์ธํ˜•, ๊ทธ ์•ˆ์— ๋” ์ž‘์€ ์ธํ˜•์„ ๋™์‹œ์— ๋งŒ๋“œ๋Š” ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๋™์ž‘ ์›๋ฆฌ:
    • ํ•™์Šตํ•  ๋•Œ ๋ชจ๋ธ์˜ ๊นŠ์ด(์ธต์˜ ์ˆ˜), ์ „๋ฌธ๊ฐ€์˜ ์šฉ๋Ÿ‰, ๋ผ์šฐํŒ…์˜ ํฌ์†Œ์„ฑ(Sparsity)์„ ๋™์ ์œผ๋กœ ๋ณ€ํ™”์‹œํ‚ค๋ฉฐ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฒฐ๊ณผ์ ์œผ๋กœ ํ•˜๋‚˜์˜ ๊ฑฐ๋Œ€ํ•œ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ ์•ˆ์—์„œ, ์‚ฌ์šฉ์ž์˜ ์„œ๋ฒ„ ์‚ฌ์–‘(์ž์›)์— ๋งž์ถฐ 10์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒ„์ „, 100์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒ„์ „ ๋“ฑ์„ ์œ ์—ฐํ•˜๊ฒŒ ๊บผ๋‚ด ์“ธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๋…ผ๋ฌธ์˜ ๋ณธ๋ฌธ์ด ์ œ๊ณต๋˜์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ, Abstract์™€ ์„œ๋ก ์— ์–ธ๊ธ‰๋œ ์„ฑ๊ณผ ๋ฐ ๊ธฐ์ˆ ์  ๋ฆฌํฌํŠธ์˜ ์ผ๋ฐ˜์ ์ธ ๋ฒค์น˜๋งˆํฌ ์–‘์ƒ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“Š ์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋Š”๊ฐ€?

ERNIE 5.0์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ์˜ค๋””์˜ค๋ฅผ ์•„์šฐ๋ฅด๋Š” ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ์˜์—ญ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • ์ดํ•ด(Understanding): MMBench, SEED-Bench ๋“ฑ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋Šฅ๋ ฅ ํ…Œ์ŠคํŠธ.
  • ์ƒ์„ฑ(Generation): ์ด๋ฏธ์ง€ ์ƒ์„ฑ(MS-COCO FID/CLIP Score), ๋น„๋””์˜ค ์ƒ์„ฑ, ์˜ค๋””์˜ค ์ƒ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€.
  • ๋ฆฌ์†Œ์Šค ํšจ์œจ์„ฑ: Elastic Training์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์„œ๋ธŒ ๋ชจ๋ธ๋“ค์˜ ์ถ”๋ก  ์†๋„(Inference Latency)์™€ ์ •ํ™•๋„ ๊ฐ„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ๊ด€๊ณ„.

๐Ÿš€ ๊ธฐ์กด SOTA(State-of-the-art) ๋Œ€๋น„ ์„ฑ๋Šฅ

  • ํ†ตํ•ฉ ์„ฑ๋Šฅ: ๊ธฐ์กด ์ตœ๊ณ  ๋ชจ๋ธ๋“ค(GPT-4o, Gemini 2.0 ๋“ฑ์œผ๋กœ ์ถ”์ •๋˜๋Š” ๊ฒฝ์Ÿ ๋ชจ๋ธ๋“ค) ๋Œ€๋น„ Text-centric(ํ…์ŠคํŠธ ์ค‘์‹ฌ) ์ž‘์—…์—์„œ๋Š” ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๊ฑฐ๋‚˜ ์†Œํญ ํ–ฅ์ƒ๋˜์—ˆ๊ณ , Non-text(์ด๋ฏธ์ง€/๋น„๋””์˜ค/์˜ค๋””์˜ค) ์ƒ์„ฑ ์ž‘์—…์—์„œ๋Š” ํ˜„์ €ํžˆ ๊ฐœ์„ ๋œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ํƒ„๋ ฅ์  ํšจ์œจ์„ฑ: ๊ฐ™์€ ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ ๋Œ€๋น„ ๊ธฐ์กด MoE ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„(Latency)๊ณผ ๋” ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰(Throughput)์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. Elastic Training์œผ๋กœ ๋‚˜์˜จ ์„œ๋ธŒ ๋ชจ๋ธ๋“ค์€ ๋…๋ฆฝ์ ์œผ๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ๋“ค ๋Œ€๋น„ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ํ›จ์”ฌ ์ ์€ ๋น„์šฉ์œผ๋กœ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ† ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๋ถ€๋ถ„์€ โ€œNative Autoregressiveโ€ ๋ฐฉ์‹๋ก ์˜ ์ž…์ฆ์ž…๋‹ˆ๋‹ค. ํ…์ŠคํŠธ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ์žƒ์ง€ ์•Š์œผ๋ฉด์„œ๋„, ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค๋ฅผ ํ…์ŠคํŠธ ๋‹ค์Œ ํ† ํฐ์ฒ˜๋Ÿผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑํ•ด๋ƒ…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ๊ธฐ์กด LLM์— ๋””์ฝ”๋”๋ฅผ ๋ถ™์ธ ๊ธฐ์กด ๋ฐฉ์‹(Late-fusion)์˜ ํ•œ๊ณ„๋ฅผ ๋›ฐ์–ด๋„˜์€ ๊ฒƒ์ž…๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

โš ๏ธ ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„ (์ถ”๋ก  ๋ฐ ์ผ๋ฐ˜์  MoE์˜ ํ•œ๊ณ„)

  • ๋ณต์žกํ•œ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ: ๋ชจ๋“  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ(From Scratch) ํ†ตํ•ฉํ•˜์—ฌ ํ•™์Šตํ•˜๊ณ , Elastic Training๊นŒ์ง€ ์ ์šฉํ•˜๋ฏ€๋กœ ์ดˆ๊ธฐ ํ•™์Šต ์„ค์ •๊ณผ ๋ฐ์ดํ„ฐ ์ปค๋ฆฌํ˜๋Ÿผ ๊ตฌ์„ฑ์ด ๋งค์šฐ ๋ณต์žกํ•˜๊ณ  ๊นŒ๋‹ค๋กญ์Šต๋‹ˆ๋‹ค.
  • ํ•˜๋“œ์›จ์–ด ์˜์กด์„ฑ: Ultra-sparse MoE ๊ตฌ์กฐ์™€ ํ† ํฐ ๊ทธ๋ฃน ์˜ˆ์ธก์„ ํšจ์œจ์ ์œผ๋กœ ๋Œ๋ฆฌ๋ ค๋ฉด ์ด์— ํŠนํ™”๋œ ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”(์ปค์Šคํ…€ CUDA ์ปค๋„ ๋“ฑ)๊ฐ€ ํ•„์ˆ˜์ ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.

๐Ÿ”ญ ๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์  (ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ)

  • ์‹ค์‹œ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ: ํ˜„์žฌ์˜ ์˜คํ† ๋ฆฌ๊ทธ๋ ˆ์‹œ๋ธŒ ๋ฐฉ์‹์€ ์ˆœ์ฐจ์  ์ƒ์„ฑ ํŠน์„ฑ์ƒ ์™„์ „ ์‹ค์‹œ๊ฐ„ ๋Œ€ํ™”ํ˜• ๋น„๋””์˜ค ์ƒ์„ฑ์—๋Š” ์ง€์—ฐ์ด ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ŠคํŠธ๋ฆฌ๋ฐ ์ƒ์„ฑ ์†๋„๋ฅผ ๋†’์ด๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋” ์„ธ๋ฐ€ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ œ์–ด: ๋‹จ์ˆœํžˆ โ€œ๋‹ค์Œ ํ† ํฐโ€์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์‚ฌ์šฉ์ž๊ฐ€ โ€œ์ค‘๊ฐ„์— ๋น„๋””์˜ค ์Šคํƒ€์ผ์„ ๋ฐ”๊ฟ”โ€๋ผ๊ณ  ์š”์ฒญํ–ˆ์„ ๋•Œ ๋น ๋ฅด๊ฒŒ ๋ฐ˜์‘ํ•˜๋Š” ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ์ƒ์„ฑ ๊ธฐ๋Šฅ์ด ๊ฐ•ํ™”๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๐Ÿ’ผ ์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

  • ์˜ฌ์ธ์› ์ฝ˜ํ…์ธ  ํฌ๋ฆฌ์—์ดํ„ฐ: ๋ธ”๋กœ๊ทธ ๊ธ€์„ ์“ฐ๋ฉด ๋™์‹œ์— ์‚ฝํ™”(์ด๋ฏธ์ง€), ํ•ด์„ค ์˜์ƒ(๋น„๋””์˜ค), ๋ฐฐ๊ฒฝ ์Œ์•…(์˜ค๋””์˜ค)๊นŒ์ง€ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•ด์ฃผ๋Š” ์ž๋™ํ™” ํˆด.
  • ํ†ตํ•ฉ ๊ณ ๊ฐ ์„ผํ„ฐ: ํ…์ŠคํŠธ ์ฑ„ํŒ…๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๊ณ ๊ฐ์ด ๋ณด๋‚ธ ์ œํ’ˆ ์‚ฌ์ง„์„ ๋ถ„์„ํ•˜์—ฌ ์ˆ˜๋ฆฌ ์˜์ƒ์„ ๋งŒ๋“ค๊ณ  ์Œ์„ฑ ์•ˆ๋‚ด๊นŒ์ง€ ์ œ๊ณตํ•˜๋Š” AI ์ƒ๋‹ด์›.
  • ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค ์ตœ์ ํ™” ์„œ๋น„์Šค: Elastic Training ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•˜์—ฌ, ๊ณ ์„ฑ๋Šฅ ์„œ๋ฒ„์—๋Š” ํ’€ ๋ชจ๋ธ์„, ์Šค๋งˆํŠธํฐ์ด๋‚˜ ํƒœ๋ธ”๋ฆฟ ๋“ฑ ์ €์ „๋ ฅ ๊ธฐ๊ธฐ์—๋Š” ์••์ถ•๋œ ์„œ๋ธŒ ๋ชจ๋ธ์„ ๋ฐฐํฌํ•˜์—ฌ ์ผ๊ด€๋œ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜ ์ œ๊ณต.

๐Ÿ’พ ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • ํ•™์Šต: ์ถ”์ •์ปจ๋Œ€ ์ˆ˜์ฒœ ๊ฐœ์—์„œ ์ˆ˜๋งŒ ๊ฐœ์˜ ์ตœ์‹  GPU(H100/A100 ๋“ฑ) ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ(ํ…์ŠคํŠธ+์ด๋ฏธ์ง€+๋น„๋””์˜ค+์˜ค๋””์˜ค)์˜ ์ •์ œ์™€ ์ฒ˜๋ฆฌ์— ๋ง‰๋Œ€ํ•œ ์Šคํ† ๋ฆฌ์ง€๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ์ถ”๋ก : MoE ์•„ํ‚คํ…์ฒ˜ ํŠน์„ฑ์ƒ ํ™œ์„ฑํ™”๋œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ์ ์ง€๋งŒ, ์ „์ฒด ๋ชจ๋ธ์„ ๋ฉ”๋ชจ๋ฆฌ์— ์˜ฌ๋ ค์•ผ ํ•˜๋ฏ€๋กœ ๋†’์€ VRAM ์šฉ๋Ÿ‰(์˜ˆ: 80GB ์ด์ƒ)์„ ๊ฐ€์ง„ GPU๊ฐ€ ์„œ๋ฒ„ ๋‹จ๊ณ„์—์„œ๋Š” ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋‹จ, Elasticํ•œ ์„œ๋ธŒ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ์†Œ๋น„์ž์šฉ GPU์—์„œ๋„ ๊ตฌ๋™ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Autoregressive Modeling (์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ): ์ด์ „์— ์ƒ์„ฑ๋œ ํ† ํฐ๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹ (GPT ๊ณ„์—ด์˜ ํ•ต์‹ฌ).
  2. Mixture-of-Experts (MoE): ๋ชจ๋ธ ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ์—ฐ์‚ฐํ•˜๋Š” ๋Œ€์‹ , ํ•„์š”ํ•œ ์ „๋ฌธ๊ฐ€(์†Œํ˜• ์‹ ๊ฒฝ๋ง)๋งŒ ํ™œ์„ฑํ™”์‹œ์ผœ ์—ฐ์‚ฐ ํšจ์œจ์„ ๋†’์ด๋Š” ์•„ํ‚คํ…์ฒ˜ (Mixtral, GPT-4 ๋“ฑ์—์„œ ์‚ฌ์šฉ).
  3. Multimodal Learning (๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต): ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ ์„œ๋กœ ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ดํ•ดํ•˜๋„๋ก ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ธฐ์ˆ .
  4. Next-Token Prediction: ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์˜ ๊ธฐ๋ณธ ๋ชฉํ‘œ ํ•จ์ˆ˜๋กœ, ์ฃผ์–ด์ง„ ๋ฌธ๋งฅ ๋‹ค์Œ์— ์˜ฌ ๊ฐ€์žฅ ์ ์ ˆํ•œ ๋‹จ์–ด(ํ† ํฐ)๋ฅผ ์˜ˆ์ธกํ•˜๊ฒŒ ํ•˜๋Š” ๊ณผ์ œ.
  5. Sparse Routing (ํฌ์†Œ ๋ผ์šฐํŒ…): MoE์—์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ, ์ „์ฒด ์ „๋ฌธ๊ฐ€๊ฐ€ ์•„๋‹Œ ์†Œ์ˆ˜์˜ ์ตœ์  ์ „๋ฌธ๊ฐ€์—๊ฒŒ๋งŒ ๋ฐ์ดํ„ฐ๋ฅผ ์ „๋‹ฌํ•˜๋Š” ๊ธฐ์ˆ .
  6. Tokenization (ํ† ํฐํ™”): ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ž‘์€ ๋‹จ์œ„(ํ† ํฐ)๋กœ ์ชผ๊ฐœ๋Š” ๊ณผ์ •.
  7. Late Fusion (ํ›„๊ธฐ ์œตํ•ฉ): ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ๋ณ„๋„๋กœ ์ฒ˜๋ฆฌํ•œ ๋’ค ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ ์ •๋ณด๋ฅผ ํ•ฉ์น˜๋Š” ๊ธฐ์กด ๋ฐฉ์‹ (ERNIE 5.0์€ ์ด์™€ ๋Œ€๋น„๋จ).

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Green-VLA: Staged Vision-Language-Aโ€ฆDD-017
๐ŸฅˆERNIE 5.0 Technical Report๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰Kimi K2.5: Visual Agentic Intelligeโ€ฆDD-018
4.Vision-DeepResearch: Incentivizing โ€ฆDD-019
5.PaperBanana: Automating Academic Ilโ€ฆDD-020

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-08 | ๐Ÿค– GLM-4.7 Deep Dive