β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-018 Kimi K2.5: Visual Agentic Intelligence
arXiv: 2602.02276 κΈ°κ΄: Moonshot AI Upvotes: 206 | Comments: 3 μμ: μ΄λ² μ£Ό Top 3

λ Όλ¬Έ 리뷰: Kimi K2.5 (Visual Agentic Intelligence)
μμ½: Kimi K2.5λ βν μ€νΈβμ βλΉμ (μκ°)β λ₯λ ₯μ νλλ‘ ν΅ν©νμ¬ μλ‘λ₯Ό λ°μ μν¨ λ©ν°λͺ¨λ¬ μμ΄μ νΈ λͺ¨λΈμ λλ€. μ¬κΈ°μ **Agent Swarm(μμ΄μ νΈ κ΅°μ§)**μ΄λΌλ κΈ°μ μ λμ νμ¬, 볡μ‘ν μμ μ μ¬λ¬ κ°μ μμ μμ΄μ νΈμκ² λλμ΄ λ³λ ¬λ‘ μ²λ¦¬ν¨μΌλ‘μ¨ μλμ μ±λ₯μ λμμ νκΈ°μ μΌλ‘ κ°μ νμ΅λλ€.
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄μ λ©ν°λͺ¨λ¬ λͺ¨λΈλ€μ ν μ€νΈλ₯Ό λ¨Όμ νμ΅νκ³ λΉμ κΈ°λ₯μ λμ€μ βλΆμ΄λβ λ°©μμ μ£Όλ‘ μ¬μ©νμ¬, λ λ₯λ ₯μ΄ μΆ©λνκ±°λ μλ‘λ₯Ό λμ§ λͺ»νλ νκ³κ° μμμ΅λλ€. λν, 볡μ‘ν μμ μ μνν λ νλμ μμ΄μ νΈκ° μμλλ‘(μ§λ ¬) μ²λ¦¬νλ€ λ³΄λ μλκ° λλ¦¬κ³ νκ³μ λΆλͺνμ΅λλ€.
μ΄ λ Όλ¬Έμ ν μ€νΈμ λΉμ μ μ²μλΆν° ν¨κ»(Joint Optimization) νμ΅μμΌ μνΈ λ³΄μμ μΌλ‘ λ°μ νκ² λ§λ€μκ³ , Agent Swarm κΈ°μ μ ν΅ν΄ μ¬λ¬ μμ΄μ νΈκ° μΌμ λμμ(λ³λ ¬) μ²λ¦¬νμ¬ μ΅λ 4.5λ°° λΉ λ₯Έ μλλ‘ SOTA(State-of-the-art) μ±λ₯μ λ¬μ±νμ΅λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
π§ μΌμμν λΉμ : βνΌμ νλ μ²μ¬ vs νμν¬κ° μ’μ λλ¦Όνβ
- κΈ°μ‘΄ λͺ¨λΈ (Sequential Agent): λ§μΉ μ€μμ€ μλ―Έ λμ΄ν κ°μ΅λλ€. νΌμμ μλ₯΄κΈ°, λ―κΈ°, μ‘°μ΄κΈ° λ€ νμ§λ§, 볡μ‘ν μ§μ§κΈ°λ₯Ό μν€λ©΄ ν λ²μ νλμ© λ°μ λͺ» ν©λλ€. (λ²½μ μΈμ°κ³ β λ¬Έμ λ¬κ³ β νμΈνΈλ₯Ό μΉ ν¨) μΌμ΄ λ¦μ΄μ§ μλ°μ μμ΅λλ€.
- Kimi K2.5 (Agent Swarm): **κ±΄μ€ νμ₯μ μ΄κ΄ κ°λ κ΄(Orchestrator)**μ΄ μμ΅λλ€. κ°λ κ΄μ μΌμ 보μλ§μ βλͺ©μλ λ¬Έ λ¬μ!β, βμ 기곡μ λ°°μ ν΄!β, βλμ₯곡μ νμΈνΈ μ€λΉν΄!βλΌκ³ μΈμΉ©λλ€. μ΄λ€μ μλ‘ λ€λ₯Έ μΌμ νμ§λ§ λμμ μ§νν©λλ€. λλΆμ μ§μ΄ ν¨μ¬ 빨리 μ§μ΄μ§λλ€.
π λ¨κ³λ³ λμ μ리
-
ν μ€νΈμ λΉμ μ ν΅ν© (Joint Optimization):
- μ΄μ λͺ¨λΈλ€μ κΈμ λ€ μ½κ³ λμ€μ κ·Έλ¦Όμ 보μ¬μ£Όλ μμ΄μμ΅λλ€. K2.5λ μκΈ°κ° λ§μ λ°°μΈ λ λμΌλ‘ λ³΄κ³ κ·λ‘ λ£λ κ²μ²λΌ, ν μ€νΈμ μ΄λ―Έμ§ λ°μ΄ν°λ₯Ό μΌμ ν λΉμ¨λ‘ μμ΄μ μ²μλΆν° ν¨κ» νμ΅μμΌ°μ΅λλ€.
- MoonViT-3D (λΉμ μΈμ½λ): μ΄λ―Έμ§μ λΉλμ€λ₯Ό 보λ λμ λλ€. νΉν λΉλμ€λ₯Ό μ²λ¦¬ν λ 4μ₯μ νλ μμ νκΊΌλ²μ λμ³μ 보기 λλ¬Έμ κΈ΄ μμλ λ μ μ μμμΌλ‘ μ΄ν΄ν μ μμ΅λλ€.
- Zero-Vision SFT (λ§λ² κ°μ νλ ¨λ²): νλ ¨ κ³Όμ μμ λλΌμ΄ λ°κ²¬μ νμ΅λλ€. μκ°μ μΈ λ¬Έμ λ₯Ό νκ² ν λ, κ΅³μ΄ μ΄λ―Έμ§λ₯Ό 보μ¬μ£Όμ§ μκ³ ν μ€νΈλ‘λ§ μ€λͺ ν΄λ μκ°μ μΆλ‘ λ₯λ ₯μ΄ ν₯μλμμ΅λλ€. λ§μΉ μ λ³΄κ³ λ μμν΄μ νΈλ νλ ¨μ΄ λ¨Έλ¦Ώμμ λ μ’κ² λ§λλ κ²κ³Ό λΉμ·ν©λλ€.
-
Agent Swarm (μμ΄μ νΈ κ΅°μ§) μ€ν:
- λ¨κ³ 1 (μν λΆλ΄): 볡μ‘ν μλ’°κ° λ€μ΄μ€λ©΄ λ©μΈ μμ΄μ νΈ(Orchestrator)λ μ΄λ₯Ό μ¬λ¬ κ°μ μμ μΌ(Sub-tasks)λ‘ μͺΌκ°λλ€.
- λ¨κ³ 2 (λ³λ ¬ μ€ν): μͺΌκ°μ§ μΌλ€μ κ°κ° μ λ¬Ένλ μλΈ μμ΄μ νΈλ€(Frozen Sub-agents)μκ² λμμ λ°°μ λ©λλ€.
- λ¨κ³ 3 (νμ΅): μΈμ λ³λ ¬λ‘ μ²λ¦¬νκ³ , μΈμ μμλλ‘ μ²λ¦¬ν΄μΌ ν¨μ¨μ μΈμ§ κ°ν νμ΅(Reinforcement Learning)μ ν΅ν΄ μ€μ€λ‘ νμ΅ν©λλ€.
βοΈ ν΅μ¬ μκ³ λ¦¬μ¦ λ° κΈ°μ
- PARL (Parallel Agent Reinforcement Learning): μμ΄μ νΈ κ΅°μ§μ΄ μΈμ μΌμ λλ μ λ§‘κΈΈμ§λ₯Ό νμ΅νλ μκ³ λ¦¬μ¦μ λλ€. λ¨μν λ³λ ¬λ‘ μ²λ¦¬νλ€κ³ 무쑰건 μ’μ κ²μ΄ μλλλ€. μλ‘ μμ‘΄ε ³η³»κ° μλ μΌμ μ΅μ§λ‘ λλλ©΄ μλ§μ΄ λλκΉ, νκ²½μΌλ‘λΆν° νΌλλ°±μ λ°μ μ΅μ μ μ λ΅μ μ°Ύμλ λλ€.
- MoE (Mixture of Experts): Kimi K2 κΈ°λ° λͺ¨λΈμ 1μ‘° κ°μ νλΌλ―Έν°λ₯Ό κ°μ§κ³ μμ§λ§, μ€μ λ‘ μΆλ‘ ν λλ κ·Έμ€ 320μ΅ κ°λ§ νμ±νν©λλ€. νμν μ λ¬Έκ°(Expert)λ§ λΆλ¬μ€λ κ΅¬μ‘°λΌ ν¨μ¨μ μ λλ€.
3. μ€ν κ²°κ³Ό λΆμ
μ΄ λ Όλ¬Έμ Kimi K2.5κ° λ¨μν μνλ κ²μ λμ΄, **βμΌλ§λ λΉ λ₯΄κ³ ν¨μ¨μ μΈκ°β**μ μ§μ€νμ΅λλ€.
- ν μ€νΈ λ²€μΉλ§ν¬: μ½λ©, λΉμ , μΆλ‘ , κ·Έλ¦¬κ³ μ€μ μμ΄μ νΈκ° λꡬλ₯Ό μ¨μ λ¬Έμ λ₯Ό νΈλ μμ΄μ νΈ μμ (Agentic tasks) λ± λ€μν λλ©μΈμμ νκ°νμ΅λλ€.
- κΈ°μ‘΄ SOTA(State-of-the-art) λλΉ μ±λ₯:
- μ νλ λ©΄μμ GPT-5.2, Claude Opus 4.5 λ±μ μΈκΈλ μ΅μ λͺ¨λΈλ€κ³Ό λΉκ΅νμ¬ κ²½μλ ₯ μκ±°λ μ΄λ₯Ό λ₯κ°νλ μ±λ₯(SOTA)μ κΈ°λ‘νμ΅λλ€.
- μ£Όλͺ©ν λ§ν μ±κ³Ό (μλ):
- μ§μ° μκ°(Latency) μ΅λ 4.5λ°° κ°μ: λ¨μΌ μμ΄μ νΈκ° μμ°¨μ μΌλ‘ μ²λ¦¬νλ λ°©μ λλΉ, Agent Swarmμ ν΅ν΄ 볡μ‘ν μμ μ μ²λ¦¬νλ μλκ° μ΅λ 4.5λ°° λΉ¨λΌμ‘μ΅λλ€. μ΄λ μ€μ μλΉμ€ νκ²½μμ λ§€μ° μ€μν μ²΄κ° μλ ν₯μμ λλ€.
- Zero-Vision SFTμ ν¨κ³Ό: ν μ€νΈλ§μΌλ‘ λ―ΈμΈ μ‘°μ (SFT)νμμλ λΆκ΅¬νκ³ μκ°μ μΆλ‘ λ₯λ ₯μ΄ μ νλμ§ μκ³ μ€νλ € ν₯μλλ κ²°κ³Όλ₯Ό 보μ¬μ£Όμμ΅λλ€. (μ΄λ μκ°κ³Ό μΈμ΄κ° λ΄λΆμ μΌλ‘ κΉκ² μ°κ²°λμ΄ μμμ μ¦λͺ )
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
νκ³μ
- ν¬λ λ§ ν λΉ(Credit Assignment)μ 볡μ‘μ±: μ¬λ¬ μμ΄μ νΈκ° λμμ μΌμ νμ λ, μ±κ³΅νλ€λ©΄ λꡬ λλΆμΈμ§, μ€ν¨νλ€λ©΄ λꡬ νμΈμ§λ₯Ό λͺ νν κ°λ¦¬κΈ° μ΄λ ΅μ΅λλ€. λ Όλ¬Έμμλ μ΄ λ¬Έμ λ₯Ό νΌνκΈ° μν΄ μλΈ μμ΄μ νΈλ κ³ μ (Frozen)μν€κ³ μ€μΌμ€νΈλ μ΄ν°λ§ νμ΅μν€λ μ°ν λ°©μμ μ¬μ©νμ΅λλ€.
- μμ μλͺ¨: μ 체 νλΌλ―Έν°κ° 1μ‘° κ°μ λ¬νλ κ±°λ λͺ¨λΈμ΄λ―λ‘, νμ΅κ³Ό λ°°ν¬μ λ€μ΄κ°λ μ»΄ν¨ν μμ(GPU λ±)μ΄ μμ²λ©λλ€. κ°μΈμ΄λ μκ·λͺ¨ μ€ννΈμ μ΄ λͺ¨λ κΈ°λ₯μ 100% νμ©νκΈ°λ μ΄λ €μΈ μ μμ΅λλ€.
ν₯ν μ°κ΅¬ λ°©ν₯
- General Agentic Intelligence (AGI)λ‘μ νμ₯: μ΄ λ Όλ¬Έμ AGI(λ²μ© μΈκ³΅μ§λ₯)λ₯Ό ν₯ν μ€μν λ°κ±ΈμμΌλ‘ κ°μ£Όλ©λλ€. λ 볡μ‘ν νμ€ μΈκ³μ λ¬Έμ λ₯Ό μμ¨μ μΌλ‘ ν΄κ²°νλ μμ΄μ νΈ μμ€ν μΌλ‘ λ°μ μν¬ κ²μ λλ€.
- End-to-End μ΅μ ν: νμ¬λ μλΈ μμ΄μ νΈλ₯Ό κ³ μ ν΄λμμ§λ§, ν₯νμλ μμ΄μ νΈ κ΅°μ§ μ 체λ₯Ό ν΅μ§Έλ‘ νμ΅μν€λ λ°©λ²μ μ°κ΅¬ν κ²μ λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄λμ λ°λ‘ μ μ© κ°λ₯νκ°?
- κ³ μ±λ₯ μ½λ© μ΄μμ€ν΄νΈ: μ½λλ₯Ό μ§λ©΄μ, λ¬Έμλ₯Ό μ°Ύκ³ , ν μ€νΈλ₯Ό λλ¦¬κ³ , 리ν©ν λ§ νλ κ³Όμ μ λμμ λ³λ ¬λ‘ μννμ¬ κ°λ° μλλ₯Ό νκΈ°μ μΌλ‘ λμΌ μ μμ΅λλ€.
- 볡μ‘ν λ°μ΄ν° λΆμ λ° μκ°ν: μμ μ₯μ PDF λ³΄κ³ μμ μμ μ°¨νΈλ₯Ό λμμ λΆμνμ¬ ν΅ν© μΈμ¬μ΄νΈλ₯Ό μ 곡νλ λΉμ μν μ μ ν©ν©λλ€.
- μ€μκ° λΉλμ€ λͺ¨λν°λ§: κΈ΄ λΉλμ€ μ€νΈλ¦Όμ MoonViT-3Dλ₯Ό ν΅ν΄ ν¨μ¨μ μΌλ‘ μ²λ¦¬νμ¬, μ΄μ μ§νλ₯Ό μ€μκ°μΌλ‘ κ°μ§νλ 보μ μμ€ν λ±μ νμ© κ°λ₯ν©λλ€.
νμν 리μμ€
- GPU: μΆλ‘ (Inference)μ μν΄ MoE ꡬ쑰λ₯Ό μ¨μ ν νμ©νλ €λ©΄ κ³ μ¬μ GPU ν΄λ¬μ€ν°(μ: H100 λ±)κ° νμνλ©°, λ©λͺ¨λ¦¬ μ©λλ μλΉν ν½λλ€.
- λ°μ΄ν°: λ©ν°λͺ¨λ¬ νμ΅μ΄ λμ΄ μμΌλ―λ‘ ν μ€νΈλΏλ§ μλλΌ μ΄λ―Έμ§/λΉλμ€ μ²λ¦¬κ° κ°λ₯ν μΈνλΌκ° μ€λΉλμ΄μΌ ν©λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- LLM (Large Language Model): λ°©λν ν μ€νΈ λ°μ΄ν°λ‘ νμ΅νμ¬ μΈκ°μ²λΌ κΈμ μ΄ν΄νκ³ μμ±νλ κ±°λμΈμ΄λͺ¨λΈμ λλ€.
- Multimodal Model (λ©ν°λͺ¨λ¬ λͺ¨λΈ): ν μ€νΈλΏλ§ μλλΌ μ΄λ―Έμ§, μ€λμ€, λΉλμ€ λ± μ¬λ¬ κ°μ§ ννμ μ 보λ₯Ό λμμ μ²λ¦¬νκ³ μ΄ν΄νλ AI λͺ¨λΈμ λλ€.
- Reinforcement Learning (κ°ν νμ΅, RL): μμ΄μ νΈκ° μνμ°©μ€λ₯Ό ν΅ν΄ 보μμ μ΅λννλ νλμ νμ΅νλ κΈ°κ³ νμ΅μ ν λΆμΌμ λλ€.
- MoE (Mixture of Experts): μ κ²½λ§μ νΉμ λ μ΄μ΄μ μ¬λ¬ μ λ¬Έκ°(Expert) λͺ¨λΈμ λκ³ , μ λ ₯μ λ°λΌ νμν μ λ¬Έκ°λ§ μ ννμ¬ νμ±ννλ κΈ°μ μ λλ€.
- SFT (Supervised Fine-Tuning): μ΄λ―Έ νμ΅λ λͺ¨λΈμ νΉμ λ°μ΄ν°μ μ λ΅μ μ¬μ©νμ¬ λ―ΈμΈνκ² μ‘°μ (Fine-tuning)νμ¬ μ±λ₯μ λμ΄λ κ³Όμ μ λλ€.
- Latency (μ§μ° μκ°): μ¬μ©μκ° μμ²μ λ³΄λΈ μμ λΆν° AIκ° μλ΅μ μλ£ν λκΉμ§ 걸리λ μκ°μ λλ€. μ§§μμλ‘ μ²΄κ° μλκ° λΉ λ¦ λλ€.
- In-context Learning / Reasoning Chain: λͺ¨λΈμ΄ μλ‘μ΄ μμλ₯Ό μ λ ₯μΌλ‘ μ£Όμμ λ λ§₯λ½μ νμ ν΄ λ¬Έμ λ₯Ό ν΄κ²°νκ±°λ, λ¨κ³λ³λ‘ μΆλ‘ κ³Όμ μ κ±°μ³ λ΅μ λμΆνλ λ₯λ ₯μ λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Green-VLA: Staged Vision-Language-Aβ¦ | DD-017 |
| π₯ | ERNIE 5.0 Technical Report | DD-016 |
| π₯ | Kimi K2.5: Visual Agentic Intelligeβ¦ | π νμ¬ λ¬Έμ |
| 4. | Vision-DeepResearch: Incentivizing β¦ | DD-019 |
| 5. | PaperBanana: Automating Academic Il⦠| DD-020 |
π μμ±μΌ: 2026-02-08 | π€ GLM-4.7 Deep Dive