β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-008 STEP3-VL-10B Technical Report
arXiv: 2601.09668 κΈ°κ΄: StepFun Upvotes: 190 | Comments: 6 μμ: μ΄λ² μ£Ό Top 3

π Paper Review: STEP3-VL-10B Technical Report
arXiv ID: 2601.09668
Subject: Compact 10B Multimodal LLM achieving Frontier-Level Performance
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°? (Significance)
κΈ°μ‘΄μ κ±°λ AI λͺ¨λΈ(100B μ΄μ)μ μ±λ₯μ λ°μ΄λμ§λ§ λ무 무κ²κ³ λΉμΈμ μ€μ νμ₯μ μ°κΈ° μ΄λ ΅λ€λ **βμ€μ©μ±μ νκ³β**κ° μμμ΅λλ€. λ°λ©΄, 10B μ΄νμ κ°λ²Όμ΄ λͺ¨λΈμ ν¨μ¨μ μ΄μ§λ§ 볡μ‘ν μΆλ‘ μ΄λ μ λ°ν μκ° μΈμ λ₯λ ₯μμ λΆμ‘±ν¨μ΄ λ§μμ΅λλ€. μ΄ λ Όλ¬Έμ λ¨ 10B νλΌλ―Έν°λ‘ 100B~200B κΈ λͺ¨λΈ(GPT-5.2, Gemini 3.0 λ±)μ λ₯κ°νκ±°λ λλ±ν μ±λ₯μ 보μ¬μ£Όλ©°, βν¬κΈ°κ° κ³§ μ±λ₯μ΄λ€βλΌλ ν΅λ μ κΉ¨κ³ ν¨μ¨μ±κ³Ό μ§λ₯μ μλ²½ν κ· νμ μ΄λ£° μ μμμ μ¦λͺ νμ΅λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ° (Core Idea)
π μΌμμν λΉμ : βμ²μ¬ ν΄μ»€ vs λλν μ€νμ΄β
λ³΄ν΅ AI λͺ¨λΈμ λ§λ€ λλ βν΄νΉ(λΆλΆ νμ΅)β λ°©μμ μλλ€. (λμ μ΄λ―Έ μ νλ ¨λ κ²μ μ°κ³ , λλ§ μλ‘ νλ ¨μν€λ μμ΄μ£ .) νμ§λ§ STEP3-VL-10Bλ βμ€νμ΄ μμ±(ν΅ν© νμ΅)β λ°©μμ μΌμ΅λλ€. λ(Perception Encoder)κ³Ό λ(Qwen3-8B)λ₯Ό μμ£Ό μ΄λ¦΄ λλΆν° μλ‘ λ§λ¬Όλ¦¬λλ‘ ν΅μ§Έλ‘ 1.2μ‘° κ°μ ν ν°μΌλ‘ κ΅μ‘νμ΅λλ€. λλΆμ λμ΄ λ³Έ κ²μ λκ° μ¦κ°μ μΌλ‘ μ΄ν΄νλ **βμ§κ΄μ μΈ μ΅ν© λ₯λ ₯β**μ΄ μκ²Όμ΅λλ€.
μ¬κΈ°μ λν΄, μ΄ λͺ¨λΈμ 볡μ‘ν λ¬Έμ λ₯Ό ν λ **βμ§λ¨ μ§μ±(PaCoRe)β**μ νμ©ν©λλ€. νΌμμ λ΅μ λ°λ‘ μ°λ κ² μλλΌ, λ¨Έλ¦Ώμμμ μ¬λ¬ κ°μ§ κ°λ₯μ±μ λμμ νμνκ³ κ°μ₯ κ·Έλ΄λ―ν κ²°λ‘ μ ν©μ³μ λ΄λλ λ°©μμ λλ€.
𧬠λ¨κ³λ³ λμ μ리
- ν΅ν©λ ν리νΈλ μ΄λ (Unified Pre-training)
- κΈ°μ‘΄: μκ° λͺ¨λΈ(λ)μ μΌλ €λκ³ (Frozen) μΈμ΄ λͺ¨λΈ(μ )λ§ νλ ¨μν΄ β λκ³Ό μ μ νλ ₯μ΄ μ΄μν¨.
- STEP3-VL: μκ° λͺ¨λΈκ³Ό μΈμ΄ λͺ¨λΈμ λͺ¨λ ν΄λ(Unfrozen) μν¨ μνμμ ν΅μ§Έλ‘ νλ ¨. 1.2T ν ν°μ 보며 λμΌλ‘ 보λ μκ° μΈμ΄λ‘ λ°λ‘ μ΄ν΄νλ μ κ²½ νλ‘λ₯Ό μ°κ²°ν¨.
- κ³ νμ§ SFT (Supervised Finetuning)
- μΈν°λ·μ μ°λ κΈ° λ°μ΄ν°λ₯Ό κ±·μ΄λ΄κ³ , μν, μ½λ©, κ³Όν λ± κ³ λλ λ¬Έμ μμ£Όμ βμμ λ κ΅κ³Όμβ λ°μ΄ν°λ‘ 곡λΆμν΄. νΉν ν μ€νΈμ μ΄λ―Έμ§κ° μμΈ λ°μ΄ν°λ₯Ό 9:1 λΉμ¨λ‘ μμ΄ λ Όλ¦¬λ ₯μ λ¨Όμ ν€μ°κ³ μκ° λ₯λ ₯μ λΆμ.
- κ°ν νμ΅ (RL) & PaCoRe (Parallel Coordinated Reasoning)
- RL: PPO μκ³ λ¦¬μ¦μ ν΅ν΄ 1,000λ² μ΄μμ λ°λ³΅ νλ ¨μΌλ‘ λͺ¨λΈμ΄ μ€μ€λ‘ λ΅μ κ°μ νκ² ν¨.
- PaCoRe (ν΅μ¬ κΈ°μ ): μΆλ‘ μ μ°μ°λμ λλ €(Thinking more time) μ±λ₯μ λμ΄μ¬λ¦Ό. μμ°¨μ μΌλ‘ μκ°νμ§ μκ³ , μ¬λ¬ κ°μ§ μκ°μ κ°μ€(κ°λ₯μ±)μ λ³λ ¬λ‘ νμν λ€ μ’ ν©νμ¬ λ΅μ λμΆν¨. (μ: βμ΄ κ·Έλ¦Όμ κ³ μμ΄ κ°κΈ°λ νκ³ κ°μμ§ κ°κΈ°λ νλ°, κ· λͺ¨μμ λ³λ ¬ λΆμν΄λ³΄λ κ³ μμ΄κ° νμ€νλ€β)
π ν΅μ¬ μκ³ λ¦¬μ¦: PPO (Proximal Policy Optimization)
λ Όλ¬Έμμ μΈκΈλ κ°ν νμ΅μ ν΅μ¬μΈ PPOλ λͺ¨λΈμ΄ λ무 νλ νλμ νμ§ μλλ‘ μμ μ₯μΉλ₯Ό κ±Έμ΄μ£Όλ κΈ°μ μ λλ€. $$ L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min \left( r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t \right) \right] $$
- μ½κ² μ€λͺ
νλ©΄: λͺ¨λΈμ΄ μ’μ λ΅μ νμ λλ 보μμ μ£Όλ, ν λ²μ λ무 λ§μ΄ λ°λμ§ μλλ‘
clipμ΄λΌλ μΈν리λ₯Ό μ³μ νμ΅μ΄ μμ μ μΌλ‘ μ§νλλλ‘ λλ λ°©λ²μ λλ€.
3. μ€ν κ²°κ³Ό λΆμ (Results)
π μ΄λ€ λ²€μΉλ§ν¬μμ ν μ€νΈνλ?
μ΄ 60κ° μ΄μμ λ²€μΉλ§ν¬μμ νκ°νμΌλ©°, νΉν μν, κ³Όν, λ Όλ¦¬μ μΆλ‘ , κ·Έλ¦¬κ³ μ λ°ν μκ° μΈμ(Counting, OCR)μ μ§μ€νμ΅λλ€.
- μν/κ³Όν μΆλ‘ : MathVision, MMMU, AIME2025
- μΌλ° μΈμ/OCR: MMBench, HallusionBench, CountBench
π κΈ°μ‘΄ SOTA λλΉ μΌλ§λ μ’μμ‘λ?
μμ μ λͺΈμ§(10B)μ λΉν΄ μμμ μ΄μνλ μ±λ₯μ 보μ¬μ£Όμμ΅λλ€.
| λ²€μΉλ§ν¬ | STEP3-VL-10B μ μ | μλ―Έ |
|---|---|---|
| MathVision | 75.95% | μν λ¬Έμ λ₯Ό κ·Έλ¦Όκ³Ό ν¨κ» νΈλ λ₯λ ₯ |
| MMMU | 80.11% | λν μμ€μ μ΄νμ κ°(Multidisciplinary) μ΄ν΄λ |
| AIME2025 | 94.43% | κ³ λμ΄λ μν μ¬λ¦ΌνΌμλ λ¬Έμ (κ²½μ ν μμ€) |
- λΉκ΅ λλΉ: μμ λ³΄λ€ 10λ°°~20λ°° ν° λͺ¨λΈλ€(μ: GLM-4.6V-106B, Qwen3-VL-235B)κ³Ό κ²½μνκ±°λ λ₯κ°νμΌλ©°, Gemini 2.5 Pro, Seed-1.5-VL κ°μ μ΅μμ νμν λͺ¨λΈκ³Όλ λλ±ν μ±κ³Όλ₯Ό λμ΅λλ€.
- μ£Όλͺ©ν λ§ν μ : λ¨μν μ΄λ―Έμ§μ β보λβ κ²μ λμ΄, μ΄λ―Έμ§ μ μ«μλ₯Ό μΈκ±°λ(Counting), κΈμλ₯Ό μ½κ³ (OCR) λ Όλ¦¬μ μΌλ‘ νλ¨νλ λ₯λ ₯μμ λ§€μ° λ°μ΄λ¨.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯ (Limitations)
β οΈ νκ³μ
- μΆλ‘ λΉμ©(Compute) μ¦κ°: PaCoRe(λ³λ ¬ μΆλ‘ )λ₯Ό μ¬μ©νλ©΄ μ±λ₯μ μ’μμ§μ§λ§, λ΅μ μμ±ν λ μκ°νλ μκ°μ΄λ μ°μ°λμ΄ λμ΄λ μλ°μ μμ΅λλ€. μμ£Ό λΉ λ₯Έ μ€μκ° μλ΅μ΄ νμν μλΉμ€μλ μ΅μ νκ° νμν μ μμ΅λλ€.
- κ±°λ λͺ¨λΈμ μ§μ μ©λ: 10B νλΌλ―Έν°λΌλ 물리μ νκ³ λλ¬Έμ, μΈμμ λͺ¨λ μ¬μ€ μ§μ(Trivia)μ 1μ‘° νλΌλ―Έν° λͺ¨λΈλ§νΌ λ€ λ΄μλ΄μ§λ λͺ»ν μ μμ΅λλ€. (νμ§λ§ μΆλ‘ λ₯λ ₯μΌλ‘ μ΄λ₯Ό 컀λ²ν¨)
π ν₯ν μ°κ΅¬ λ°©ν₯
- Test-time Compute μ΅μ ν: PaCoReμ λ³λ ¬ μΆλ‘ μ λ ν¨μ¨μ μΌλ‘ λ§λ€μ΄ μ±λ₯ μ ν μμ΄ μλ΅ μλλ₯Ό λμ΄λ μ°κ΅¬.
- Edge Device μ μ©: 10BλΌλ μμ ν¬κΈ°λ₯Ό νμ©νμ¬ μ€λ§νΈν°μ΄λ λ‘λ΄ κ°μ κΈ°κΈ° λ΄μμ λ μ μ 리μμ€λ‘ λμκ°κ² νλ κ²½λν κΈ°μ μ°κ΅¬.
5. μ€λ¬΄ μ μ© κ°λ₯μ± (Practicality)
πΌ μ΄λμ λ°λ‘ μ μ© κ°λ₯?
- κ΅μ‘μ© νν°λ§ λ΄: μν λ¬Έμ λ λνλ₯Ό μ°μ΄μ μ¬λ¦¬λ©΄ AIME 94% μ μμ κ±Έλ§μ μ΄κ³ λλ νμ΄μ μ€λͺ μ μ 곡.
- λ¬Έμ μ§λ₯ν RAG: κΈ΄ λ³΄κ³ μλ λ Όλ¬Έμ ν, κ·Έλνλ₯Ό μ΄ν΄νκ³ μμ½νμ¬ ν΅μ¬ λ΄μ©μ μΆμΆνλ κΈ°μ μ© λ¬Έμ λΆμ μμ€ν .
- λ‘λ΄ λΉμ : μλμ μΌλ‘ κ°λ²Όμ΄ λͺ¨λΈμ΄λ―λ‘, λ‘λ΄μ λμΌλ‘μ μ€μκ°μΌλ‘ μ¬λ¬Όμ μΈμνκ³ (Counting), 물체λ₯Ό μ‘°μνλ λ° νμν λ Όλ¦¬μ νλ¨μ λ΄λ¦¬λ νλμ¨μ΄ λ΄μ₯ν AI.
π₯οΈ νμν 리μμ€
- GPU: 10B νλΌλ―Έν° λͺ¨λΈμ΄λ―λ‘, μΌλ°μ μΈ μλΉμμ© GPU(μ: RTX 3090/4090 24GB)μμ μμν(Quantization, 4bit/8bit) κΈ°μ μ μ¬μ©νλ©΄ μΆ©λΆν μΆλ‘ μ΄ κ°λ₯ν©λλ€. (Full Precision νμ΅μ μν΄μλ A100 40GB μ΄μ κΆμ₯)
- λ°μ΄ν°: λ³λμ νΉν λ°μ΄ν° μμ΄λ λ²μ©μ μΌλ‘ μκ°-μΈμ΄ μμ μ λ°λ‘ ν¬μ κ°λ₯.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ (Prerequisites)
- MLLM (Multimodal Large Language Model): ν μ€νΈλΏλ§ μλλΌ μ΄λ―Έμ§, μ€λμ€ λ± λ€μν λͺ¨λ¬λ¦¬ν°λ₯Ό μ΄ν΄νκ³ μμ±νλ κ±°λ μΈμ΄ λͺ¨λΈ.
- Pre-training vs. SFT: Pre-trainingμ λ§ κ·Έλλ‘ κΈ°μ΄ μ§μμ μλ λ¨κ³(μ΄λ±νκ΅~κ³ λ±νκ΅), **SFT(Supervised Finetuning)**μ νΉμ μ무μ λ§κ² μ μ λ λ°μ΄ν°λ‘ μ¬κ΅μ‘νλ λ¨κ³(λνμ μ 곡).
- Frozen vs. Unfrozen Parameters: Frozenμ νμ΅ λμ€ κ°μ€μΉλ₯Ό μ λ°μ΄νΈνμ§ μκ³ κ³ μ νλ κ²(μ μ΄ νμ΅ μ μ£Όλ‘ μ¬μ©), Unfrozenμ λͺ¨λ κ°μ€μΉλ₯Ό μλ‘ μ λ°μ΄νΈνλ κ²μΌλ‘ λͺ¨λΈ κ°μ μ΅ν©μ λ κΉκ² ν μ μμ.
- Reinforcement Learning (RLHF): μΈκ°μ νΌλλ°±(μ’μ λ΅/λμ λ΅)μ ν΅ν΄ λͺ¨λΈμ΄ μ€μ€λ‘ μ μ± (Policy)μ μμ νλ©° νμ΅νλ κ°ν νμ΅ λ°©μ.
- Test-time Compute: νμ΅μ΄ λλ ν, μ€μ λ‘ μΆλ‘ (Inference)μ ν λ μΌλ§λ λ§μ μ°μ°(μκ°)μ μΈ κ²μΈκ°. λ μ€λ μκ°ν μλ‘ λ΅μ΄ μ λμ¬ μ μμ.
- PPO (Proximal Policy Optimization): κ°ν νμ΅μμ λͺ¨λΈμ΄ νμ΅νλ©΄μ λ무 ν° λ³νλ₯Ό μΌμΌν€μ§ μλλ‘ μ μ½μ κ±Έμ΄ μμ μ μΌλ‘ νμ΅μν€λ λνμ μΈ μκ³ λ¦¬μ¦.
- OCR (Optical Character Recognition): μ΄λ―Έμ§ μμ μλ λ¬Έμλ₯Ό ν μ€νΈ λ°μ΄ν°λ‘ λ³ννλ κΈ°μ .
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Watching, Reasoning, and Searching:β¦ | DD-006 |
| π₯ | BabyVision: Visual Reasoning Beyondβ¦ | DD-007 |
| π₯ | STEP3-VL-10B Technical Report | π νμ¬ λ¬Έμ |
| 4. | Thinking with Map: Reinforced Paral⦠| DD-009 |
| 5. | Urban Socio-Semantic Segmentation w⦠| DD-010 |
π μμ±μΌ: 2026-02-02 | π€ GLM-4.7 Deep Dive