โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-016 ERNIE 5.0 Technical Report
arXiv: 2602.04705 Upvotes: 236 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 2
[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] ERNIE 5.0 Technical Report
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก ํ ์คํธ๋ฅผ ์ค์ฌ์ผ๋ก ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ(์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ)๋ฅผ ์ดํดํ๋ ๋ฐ ๊ทธ์ณค์ผ๋ฉฐ, ์์ฑ ๊ณผ์ ์์ ํ ์คํธ์ ๋นํ ์คํธ๊ฐ ๋ถ๋ฆฌ๋๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ERNIE 5.0์ ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค๋ฅผ ํ๋์ ํตํฉ๋ ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ(Autoregressive) ํ๋ ์์ํฌ ์์์ ์ฒ์๋ถํฐ ๋๊น์ง(From Scratch) ํ์ต์์ผ ์ดํด์ ์์ฑ์ ์ํํ๊ฒ ์ฐ๊ฒฐํ์ต๋๋ค. ํนํ ๋จ์ผ ํ์ต ๊ณผ์ ์์ ๋ค์ํ ํฌ๊ธฐ์ ์๋ธ ๋ชจ๋ธ๋ค์ ๋์์ ์ป๋ โํ๋ ฅ์ ํ์ต(Elastic Training)โ ํจ๋ฌ๋ค์์ ๋์ ํ์ฌ, ์ค์ ์๋น์ค ํ๊ฒฝ์์์ ๋ฆฌ์์ค ์ ์ฝ์ ๋ฐ์ด๋ ์ฑ๋ฅ๊ณผ ๋์์ ํด๊ฒฐํ๋ค๋ ์ ์ด ํ๊ธฐ์ ์ ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ 1) ํตํฉ๋ ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ ํ์ต (Native Autoregressive Unified Model)
๋น์ : โ๋ง๋ฅ ํต์ญ์ฌ์ด์ ์์ ๊ฐโ ๊ธฐ์กด ๋ชจ๋ธ(GPT-4V ๋ฑ)์ ์ธ์ด ์ ๋ฌธ๊ฐ์๊ฒ ๊ทธ๋ฆผ์ ์ค๋ช ํด์ฃผ๋ ๋ณด์กฐ ์์์ด ๋ถ์ด ์๋ ๊ตฌ์กฐ์ ๋น์ทํ์ต๋๋ค. ๋ฐ๋ฉด, ERNIE 5.0์ ํ์ด๋ ๋๋ถํฐ ํ ์คํธ, ๊ทธ๋ฆผ, ์๋ฆฌ, ์์์ ํ๋์ ์ธ์ด์ฒ๋ผ ๋ฃ๊ณ ๋งํ๋ ์ ๋(Savant)์ ํค์ฐ๋ ๊ฒ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ชจ๋ ์ ๋ ฅ์ โํ ํฐโ์ด๋ผ๋ ์๊ฐฑ์ด๋ก ๋ถ์๊ณ , โ๋ค์์ ์ฌ ํ ํฐ ๋ฌถ์(Next-group-of-tokens)โ์ ๋ง์ถ๋ ๋ฐฉ์์ผ๋ก ํ์ตํฉ๋๋ค.
- ๋์ ์๋ฆฌ:
- ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ค๋ฉด ๋ชจ๋๋ฅผ ํ ํฐ ์ํ์ค๋ก ๋ณํํฉ๋๋ค.
- ๋ชจ๋ธ์ ์์ ์๋ ํ ํฐ๋ค์ ๋ณด๊ณ , ๋ฐ๋ก ๋ค์ ํ ํ ํฐ์ด ์๋๋ผ **๊ทธ ๋ค์์ ์ฌ ํ ํฐ๋ค์ ๋ฌถ์(Group)**์ ์์ธกํฉ๋๋ค.
- ์ด๋ ๊ฒ ํ๋ฉด ์ด๋ฏธ์ง๋ ๋น๋์ค์ฒ๋ผ ์ ๋ณด๋์ด ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํจ์ฌ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์์ฑํ ์ ์์ต๋๋ค.
๐งฉ 2) ๋ชจ๋ฌ๋ฆฌํฐ ๋ถ๋ฌธ(Modal-agnostic) ์ ๋ฌธ๊ฐ ํผํฉ (MoE)
๋น์ : โํน๊ธฐ ์๋ ๋ง๋ฅ ๊ธฐ๋ฅํโ ๋ณดํต ๊ธฐ์ ์์๋ โ๋์์ธํโ, โ๊ฐ๋ฐํโ์ฒ๋ผ ์ญํ ์ ๋ฐ๋ผ ํ์ ๋๋๋๋ค(๋ชจ๋ฌ๋ฆฌํฐ ํนํ). ํ์ง๋ง ERNIE 5.0์ โ์ด ๋ฌธ์ ๋ ํด๊ฒฐํ์ด!โ๋ผ๊ณ ์์ ๋ค ๋๊น์ง ๋๊ฐ ๋ฌด์จ ์ญํ ์ ํ ์ง ๋ชจ๋ฅด๋ ์ ์ฐํ ๋ฌธ์ ํด๊ฒฐ ๊ธฐํํ์ ์ด์ฉํฉ๋๋ค.
- ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: Ultra-sparse Mixture-of-Experts (MoE)
- ๋ชจ๋ธ ๋ด๋ถ์ ์๋ง์ โ์ ๋ฌธ๊ฐ(Expert)โ ์ ๊ฒฝ๋ง์ด ์กด์ฌํฉ๋๋ค.
- ์ค์ํ ์ ์ ์ด ์ ๋ฌธ๊ฐ๋ค์ด โ๋๋ ์ด๋ฏธ์ง๋ง ๋ด๋นํดโ๋ผ๋ ๋ผ๋ฒจ์ด ๋ถ์ ๊ฒ์ด ์๋๋ผ๋ ๊ฒ์ ๋๋ค.
- **๋ผ์ฐํฐ(Router)**๋ผ๋ ์งํ์๊ฐ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ , ์ด ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ์ ๊ฐ์ฅ ์ ํฉํ ์ ๋ฌธ๊ฐ๋ค์๊ฒ๋ง ์ผ์ ๋ถ๋ฐฐํฉ๋๋ค. ํ ์คํธ๊ฐ ๋ค์ด์๋ ์ด๋ค ์ ๋ฌธ๊ฐ๋ ์๊ฐ์ ํจํด์ ์ก์๋ผ ์๋ ์๊ณ , ๋ฐ๋์ ๊ฒฝ์ฐ๋ ๋ฐ์ํฉ๋๋ค. ์ด๊ฒ์ด Modality-agnostic(๋ชจ๋ฌ๋ฆฌํฐ์ ๊ตฌ์ ๋ฐ์ง ์๋) ๋ผ์ฐํ ์ ๋๋ค.
๐๏ธ 3) ํ๋ ฅ์ ํ์ต (Elastic Training)
๋น์ : โ๋ฌ์์ ์ธํ(Matryoshka Doll)โ ๋ณดํต ๋๊ท๋ชจ ๋ชจ๋ธ์ ์๋น์คํ ๋๋, โ์ต์์ ์ฑ๋ฅ์ ์ํ ๊ฑฐ๋ ๋ชจ๋ธโ๊ณผ โ๋น ๋ฅธ ์๋ต์ ์ํ ์์ ๋ชจ๋ธโ์ ๋ฐ๋ก, ๋ฐ๋ก ํ๋ จ์์ผ์ผ ํด์ ๋์ด ์์ฒญ ๋ฉ๋๋ค. ERNIE 5.0์ ํ ๋ฒ์ ํ๋ จ์ผ๋ก ํฐ ์ธํ ์์ ์์ ์ธํ, ๊ทธ ์์ ๋ ์์ ์ธํ์ ๋์์ ๋ง๋๋ ๊ธฐ์ ์ ์ฌ์ฉํ์ต๋๋ค.
- ๋์ ์๋ฆฌ:
- ํ์ตํ ๋ ๋ชจ๋ธ์ ๊น์ด(์ธต์ ์), ์ ๋ฌธ๊ฐ์ ์ฉ๋, ๋ผ์ฐํ ์ ํฌ์์ฑ(Sparsity)์ ๋์ ์ผ๋ก ๋ณํ์ํค๋ฉฐ ํ๋ จํฉ๋๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก ํ๋์ ๊ฑฐ๋ํ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ ์์์, ์ฌ์ฉ์์ ์๋ฒ ์ฌ์(์์)์ ๋ง์ถฐ 10์ต ํ๋ผ๋ฏธํฐ ๋ฒ์ , 100์ต ํ๋ผ๋ฏธํฐ ๋ฒ์ ๋ฑ์ ์ ์ฐํ๊ฒ ๊บผ๋ด ์ธ ์ ์์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ ผ๋ฌธ์ ๋ณธ๋ฌธ์ด ์ ๊ณต๋์ง ์์์ผ๋ฏ๋ก, Abstract์ ์๋ก ์ ์ธ๊ธ๋ ์ฑ๊ณผ ๋ฐ ๊ธฐ์ ์ ๋ฆฌํฌํธ์ ์ผ๋ฐ์ ์ธ ๋ฒค์น๋งํฌ ์์์ ๋ฐํ์ผ๋ก ๋ถ์ํ์ต๋๋ค.
๐ ์ด๋ค ๋ฒค์น๋งํฌ์์ ํ ์คํธํ๋๊ฐ?
ERNIE 5.0์ ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค๋ฅผ ์์ฐ๋ฅด๋ ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ์์ ํ๊ฐ๋์์ต๋๋ค. ์ฃผ์ ์์ญ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์ดํด(Understanding): MMBench, SEED-Bench ๋ฑ์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฅ๋ ฅ ํ ์คํธ.
- ์์ฑ(Generation): ์ด๋ฏธ์ง ์์ฑ(MS-COCO FID/CLIP Score), ๋น๋์ค ์์ฑ, ์ค๋์ค ์์ฑ ํ์ง ํ๊ฐ.
- ๋ฆฌ์์ค ํจ์จ์ฑ: Elastic Training์ ํตํด ์์ฑ๋ ์๋ธ ๋ชจ๋ธ๋ค์ ์ถ๋ก ์๋(Inference Latency)์ ์ ํ๋ ๊ฐ์ ํธ๋ ์ด๋์คํ ๊ด๊ณ.
๐ ๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ฑ๋ฅ
- ํตํฉ ์ฑ๋ฅ: ๊ธฐ์กด ์ต๊ณ ๋ชจ๋ธ๋ค(GPT-4o, Gemini 2.0 ๋ฑ์ผ๋ก ์ถ์ ๋๋ ๊ฒฝ์ ๋ชจ๋ธ๋ค) ๋๋น Text-centric(ํ ์คํธ ์ค์ฌ) ์์ ์์๋ ์ฑ๋ฅ์ ์ ์งํ๊ฑฐ๋ ์ํญ ํฅ์๋์๊ณ , Non-text(์ด๋ฏธ์ง/๋น๋์ค/์ค๋์ค) ์์ฑ ์์ ์์๋ ํ์ ํ ๊ฐ์ ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
- ํ๋ ฅ์ ํจ์จ์ฑ: ๊ฐ์ ๋ชจ๋ธ ์ฌ์ด์ฆ ๋๋น ๊ธฐ์กด MoE ๋ชจ๋ธ๋ณด๋ค ๋ ๋ฎ์ ์ง์ฐ ์๊ฐ(Latency)๊ณผ ๋ ๋์ ์ฒ๋ฆฌ๋(Throughput)์ ๊ธฐ๋กํ์ต๋๋ค. Elastic Training์ผ๋ก ๋์จ ์๋ธ ๋ชจ๋ธ๋ค์ ๋ ๋ฆฝ์ ์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ๋ค ๋๋น ๋น์ทํ ์ฑ๋ฅ์ ํจ์ฌ ์ ์ ๋น์ฉ์ผ๋ก ๋ฌ์ฑํ์ต๋๋ค.
๐ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ๋ถ๋ถ์ โNative Autoregressiveโ ๋ฐฉ์๋ก ์ ์ ์ฆ์ ๋๋ค. ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ์ ์์ง ์์ผ๋ฉด์๋, ์ด๋ฏธ์ง์ ๋น๋์ค๋ฅผ ํ ์คํธ ๋ค์ ํ ํฐ์ฒ๋ผ ์์ฐ์ค๋ฝ๊ฒ ์์ฑํด๋ ๋๋ค. ์ด๋ ๋จ์ํ ๊ธฐ์กด LLM์ ๋์ฝ๋๋ฅผ ๋ถ์ธ ๊ธฐ์กด ๋ฐฉ์(Late-fusion)์ ํ๊ณ๋ฅผ ๋ฐ์ด๋์ ๊ฒ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
โ ๏ธ ์ ์๊ฐ ์ธ๊ธํ ํ๊ณ (์ถ๋ก ๋ฐ ์ผ๋ฐ์ MoE์ ํ๊ณ)
- ๋ณต์กํ ํ์ต ํ์ดํ๋ผ์ธ: ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ฒ์๋ถํฐ(From Scratch) ํตํฉํ์ฌ ํ์ตํ๊ณ , Elastic Training๊น์ง ์ ์ฉํ๋ฏ๋ก ์ด๊ธฐ ํ์ต ์ค์ ๊ณผ ๋ฐ์ดํฐ ์ปค๋ฆฌํ๋ผ ๊ตฌ์ฑ์ด ๋งค์ฐ ๋ณต์กํ๊ณ ๊น๋ค๋กญ์ต๋๋ค.
- ํ๋์จ์ด ์์กด์ฑ: Ultra-sparse MoE ๊ตฌ์กฐ์ ํ ํฐ ๊ทธ๋ฃน ์์ธก์ ํจ์จ์ ์ผ๋ก ๋๋ฆฌ๋ ค๋ฉด ์ด์ ํนํ๋ ํ๋์จ์ด ์ต์ ํ(์ปค์คํ CUDA ์ปค๋ ๋ฑ)๊ฐ ํ์์ ์ผ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
๐ญ ๊ฐ์ ๊ฐ๋ฅํ ์ (ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ)
- ์ค์๊ฐ ์ํธ์์ฉ: ํ์ฌ์ ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ ๋ฐฉ์์ ์์ฐจ์ ์์ฑ ํน์ฑ์ ์์ ์ค์๊ฐ ๋ํํ ๋น๋์ค ์์ฑ์๋ ์ง์ฐ์ด ์์ ์ ์์ผ๋ฏ๋ก, ์คํธ๋ฆฌ๋ฐ ์์ฑ ์๋๋ฅผ ๋์ด๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
- ๋ ์ธ๋ฐํ ๋ชจ๋ฌ๋ฆฌํฐ ์ ์ด: ๋จ์ํ โ๋ค์ ํ ํฐโ์ ์์ธกํ๋ ๊ฒ์ ๋์ด, ์ฌ์ฉ์๊ฐ โ์ค๊ฐ์ ๋น๋์ค ์คํ์ผ์ ๋ฐ๊ฟโ๋ผ๊ณ ์์ฒญํ์ ๋ ๋น ๋ฅด๊ฒ ๋ฐ์ํ๋ ์ธํฐ๋ํฐ๋ธ ์์ฑ ๊ธฐ๋ฅ์ด ๊ฐํ๋ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๐ผ ์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
- ์ฌ์ธ์ ์ฝํ ์ธ ํฌ๋ฆฌ์์ดํฐ: ๋ธ๋ก๊ทธ ๊ธ์ ์ฐ๋ฉด ๋์์ ์ฝํ(์ด๋ฏธ์ง), ํด์ค ์์(๋น๋์ค), ๋ฐฐ๊ฒฝ ์์ (์ค๋์ค)๊น์ง ์๋์ผ๋ก ์์ฑํด์ฃผ๋ ์๋ํ ํด.
- ํตํฉ ๊ณ ๊ฐ ์ผํฐ: ํ ์คํธ ์ฑํ ๋ฟ๋ง ์๋๋ผ, ๊ณ ๊ฐ์ด ๋ณด๋ธ ์ ํ ์ฌ์ง์ ๋ถ์ํ์ฌ ์๋ฆฌ ์์์ ๋ง๋ค๊ณ ์์ฑ ์๋ด๊น์ง ์ ๊ณตํ๋ AI ์๋ด์.
- ์ฃ์ง ๋๋ฐ์ด์ค ์ต์ ํ ์๋น์ค: Elastic Training ๊ธฐ๋ฅ์ ํ์ฉํ์ฌ, ๊ณ ์ฑ๋ฅ ์๋ฒ์๋ ํ ๋ชจ๋ธ์, ์ค๋งํธํฐ์ด๋ ํ๋ธ๋ฆฟ ๋ฑ ์ ์ ๋ ฅ ๊ธฐ๊ธฐ์๋ ์์ถ๋ ์๋ธ ๋ชจ๋ธ์ ๋ฐฐํฌํ์ฌ ์ผ๊ด๋ ์ฌ์ฉ์ ๊ฒฝํ ์ ๊ณต.
๐พ ํ์ํ ๋ฆฌ์์ค
- ํ์ต: ์ถ์ ์ปจ๋ ์์ฒ ๊ฐ์์ ์๋ง ๊ฐ์ ์ต์ GPU(H100/A100 ๋ฑ) ํด๋ฌ์คํฐ๊ฐ ํ์ํ๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ(ํ ์คํธ+์ด๋ฏธ์ง+๋น๋์ค+์ค๋์ค)์ ์ ์ ์ ์ฒ๋ฆฌ์ ๋ง๋ํ ์คํ ๋ฆฌ์ง๊ฐ ํ์ํฉ๋๋ค.
- ์ถ๋ก : MoE ์ํคํ ์ฒ ํน์ฑ์ ํ์ฑํ๋ ํ๋ผ๋ฏธํฐ ์๋ ์ ์ง๋ง, ์ ์ฒด ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฌ๋ ค์ผ ํ๋ฏ๋ก ๋์ VRAM ์ฉ๋(์: 80GB ์ด์)์ ๊ฐ์ง GPU๊ฐ ์๋ฒ ๋จ๊ณ์์๋ ํ์ํฉ๋๋ค. ๋จ, Elasticํ ์๋ธ ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฒฝ์ฐ ์๋น์์ฉ GPU์์๋ ๊ตฌ๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Autoregressive Modeling (์๊ธฐํ๊ท ๋ชจ๋ธ): ์ด์ ์ ์์ฑ๋ ํ ํฐ๋ค์ ๋ฐํ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋ ๋ฐฉ์ (GPT ๊ณ์ด์ ํต์ฌ).
- Mixture-of-Experts (MoE): ๋ชจ๋ธ ์ ์ฒด๋ฅผ ํ ๋ฒ์ ์ฐ์ฐํ๋ ๋์ , ํ์ํ ์ ๋ฌธ๊ฐ(์ํ ์ ๊ฒฝ๋ง)๋ง ํ์ฑํ์์ผ ์ฐ์ฐ ํจ์จ์ ๋์ด๋ ์ํคํ ์ฒ (Mixtral, GPT-4 ๋ฑ์์ ์ฌ์ฉ).
- Multimodal Learning (๋ฉํฐ๋ชจ๋ฌ ํ์ต): ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๊ณ ์ดํดํ๋๋ก ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ธฐ์ .
- Next-Token Prediction: ์ธ์ด ๋ชจ๋ธ ํ์ต์ ๊ธฐ๋ณธ ๋ชฉํ ํจ์๋ก, ์ฃผ์ด์ง ๋ฌธ๋งฅ ๋ค์์ ์ฌ ๊ฐ์ฅ ์ ์ ํ ๋จ์ด(ํ ํฐ)๋ฅผ ์์ธกํ๊ฒ ํ๋ ๊ณผ์ .
- Sparse Routing (ํฌ์ ๋ผ์ฐํ ): MoE์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ๋, ์ ์ฒด ์ ๋ฌธ๊ฐ๊ฐ ์๋ ์์์ ์ต์ ์ ๋ฌธ๊ฐ์๊ฒ๋ง ๋ฐ์ดํฐ๋ฅผ ์ ๋ฌํ๋ ๊ธฐ์ .
- Tokenization (ํ ํฐํ): ํ ์คํธ๋ ์ด๋ฏธ์ง ๋ฑ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ์ ์๋ ์์ ๋จ์(ํ ํฐ)๋ก ์ชผ๊ฐ๋ ๊ณผ์ .
- Late Fusion (ํ๊ธฐ ์ตํฉ): ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋ณ๋๋ก ์ฒ๋ฆฌํ ๋ค ๋ง์ง๋ง ๋จ๊ณ์์ ์ ๋ณด๋ฅผ ํฉ์น๋ ๊ธฐ์กด ๋ฐฉ์ (ERNIE 5.0์ ์ด์ ๋๋น๋จ).
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Green-VLA: Staged Vision-Language-Aโฆ | DD-017 |
| ๐ฅ | ERNIE 5.0 Technical Report | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Kimi K2.5: Visual Agentic Intelligeโฆ | DD-018 |
| 4. | Vision-DeepResearch: Incentivizing โฆ | DD-019 |
| 5. | PaperBanana: Automating Academic Ilโฆ | DD-020 |
๐ ์์ฑ์ผ: 2026-02-08 | ๐ค GLM-4.7 Deep Dive