← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-008 STEP3-VL-10B Technical Report

arXiv: 2601.09668 κΈ°κ΄€: StepFun Upvotes: 190 | Comments: 6 μˆœμœ„: 이번 μ£Ό Top 3

Figure 1


πŸ“„ Paper Review: STEP3-VL-10B Technical Report

arXiv ID: 2601.09668
Subject: Compact 10B Multimodal LLM achieving Frontier-Level Performance


1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€? (Significance)

기쑴의 κ±°λŒ€ AI λͺ¨λΈ(100B 이상)은 μ„±λŠ₯은 λ›°μ–΄λ‚˜μ§€λ§Œ λ„ˆλ¬΄ 무겁고 λΉ„μ‹Έμ„œ μ‹€μ œ ν˜„μž₯에 μ“°κΈ° μ–΄λ ΅λ‹€λŠ” **β€˜μ‹€μš©μ„±μ˜ ν•œκ³„β€™**κ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€. 반면, 10B μ΄ν•˜μ˜ κ°€λ²Όμš΄ λͺ¨λΈμ€ νš¨μœ¨μ μ΄μ§€λ§Œ λ³΅μž‘ν•œ μΆ”λ‘ μ΄λ‚˜ μ •λ°€ν•œ μ‹œκ° 인식 λŠ₯λ ₯μ—μ„œ 뢀쑱함이 λ§Žμ•˜μŠ΅λ‹ˆλ‹€. 이 논문은 단 10B νŒŒλΌλ―Έν„°λ‘œ 100B~200B κΈ‰ λͺ¨λΈ(GPT-5.2, Gemini 3.0 λ“±)을 λŠ₯κ°€ν•˜κ±°λ‚˜ λŒ€λ“±ν•œ μ„±λŠ₯을 보여주며, β€œν¬κΈ°κ°€ κ³§ μ„±λŠ₯μ΄λ‹€β€λΌλŠ” 톡념을 κΉ¨κ³  νš¨μœ¨μ„±κ³Ό μ§€λŠ₯의 μ™„λ²½ν•œ κ· ν˜•μ„ 이룰 수 μžˆμŒμ„ 증λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.


2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ° (Core Idea)

πŸ” μΌμƒμƒν™œ λΉ„μœ : β€œμ²œμž¬ 해컀 vs λ˜‘λ˜‘ν•œ μŠ€νŒŒμ΄β€

보톡 AI λͺ¨λΈμ„ λ§Œλ“€ λ•ŒλŠ” β€˜ν•΄ν‚Ή(λΆ€λΆ„ ν•™μŠ΅)’ 방식을 μ”λ‹ˆλ‹€. (λˆˆμ€ 이미 잘 ν›ˆλ ¨λœ 것을 μ“°κ³ , λ‡Œλ§Œ μƒˆλ‘œ ν›ˆλ ¨μ‹œν‚€λŠ” 식이죠.) ν•˜μ§€λ§Œ STEP3-VL-10BλŠ” β€˜μŠ€νŒŒμ΄ μ–‘μ„±(톡합 ν•™μŠ΅)’ 방식을 μΌμŠ΅λ‹ˆλ‹€. 눈(Perception Encoder)κ³Ό λ‡Œ(Qwen3-8B)λ₯Ό μ•„μ£Ό 어릴 λ•ŒλΆ€ν„° μ„œλ‘œ λ§žλ¬Όλ¦¬λ„λ‘ ν†΅μ§Έλ‘œ 1.2μ‘° 개의 ν† ν°μœΌλ‘œ κ΅μœ‘ν–ˆμŠ΅λ‹ˆλ‹€. 덕뢄에 눈이 λ³Έ 것을 λ‡Œκ°€ μ¦‰κ°μ μœΌλ‘œ μ΄ν•΄ν•˜λŠ” **β€˜μ§κ΄€μ μΈ μœ΅ν•© λŠ₯λ ₯’**이 μƒκ²ΌμŠ΅λ‹ˆλ‹€.

여기에 더해, 이 λͺ¨λΈμ€ λ³΅μž‘ν•œ 문제λ₯Ό ν’€ λ•Œ **β€˜μ§‘λ‹¨ μ§€μ„±(PaCoRe)β€˜**을 ν™œμš©ν•©λ‹ˆλ‹€. ν˜Όμžμ„œ 닡을 λ°”λ‘œ μ“°λŠ” 게 μ•„λ‹ˆλΌ, λ¨Έλ¦Ώμ†μ—μ„œ μ—¬λŸ¬ κ°€μ§€ κ°€λŠ₯성을 λ™μ‹œμ— νƒμƒ‰ν•˜κ³  κ°€μž₯ κ·ΈλŸ΄λ“―ν•œ 결둠을 ν•©μ³μ„œ λ‚΄λ†“λŠ” λ°©μ‹μž…λ‹ˆλ‹€.

🧬 단계별 λ™μž‘ 원리

  1. ν†΅ν•©λœ ν”„λ¦¬νŠΈλ ˆμ΄λ‹ (Unified Pre-training)
    • κΈ°μ‘΄: μ‹œκ° λͺ¨λΈ(눈)을 얼렀놓고(Frozen) μ–Έμ–΄ λͺ¨λΈ(μž…)만 ν›ˆλ ¨μ‹œν‚΄ β†’ 눈과 μž…μ˜ ν˜‘λ ₯이 어색함.
    • STEP3-VL: μ‹œκ° λͺ¨λΈκ³Ό μ–Έμ–΄ λͺ¨λΈμ„ λͺ¨λ‘ 해동(Unfrozen) μ‹œν‚¨ μƒνƒœμ—μ„œ ν†΅μ§Έλ‘œ ν›ˆλ ¨. 1.2T 토큰을 보며 눈으둜 λ³΄λŠ” μˆœκ°„ μ–Έμ–΄λ‘œ λ°”λ‘œ μ΄ν•΄ν•˜λŠ” μ‹ κ²½ 회둜λ₯Ό 연결함.
  2. κ³ ν’ˆμ§ˆ SFT (Supervised Finetuning)
    • μΈν„°λ„·μ˜ μ“°λ ˆκΈ° 데이터λ₯Ό κ±·μ–΄λ‚΄κ³ , μˆ˜ν•™, μ½”λ”©, κ³Όν•™ λ“± κ³ λ‚œλ„ 문제 μœ„μ£Όμ˜ β€˜μ—„μ„ λœ κ΅κ³Όμ„œβ€™ λ°μ΄ν„°λ‘œ κ³΅λΆ€μ‹œν‚΄. 특히 ν…μŠ€νŠΈμ™€ 이미지가 μ„žμΈ 데이터λ₯Ό 9:1 λΉ„μœ¨λ‘œ μ„žμ–΄ 논리λ ₯을 λ¨Όμ € ν‚€μš°κ³  μ‹œκ° λŠ₯λ ₯을 λΆ™μž„.
  3. κ°•ν™” ν•™μŠ΅ (RL) & PaCoRe (Parallel Coordinated Reasoning)
    • RL: PPO μ•Œκ³ λ¦¬μ¦˜μ„ 톡해 1,000번 μ΄μƒμ˜ 반볡 ν›ˆλ ¨μœΌλ‘œ λͺ¨λΈμ΄ 슀슀둜 닡을 κ°œμ„ ν•˜κ²Œ 함.
    • PaCoRe (핡심 기술): μΆ”λ‘  μ‹œ μ—°μ‚°λŸ‰μ„ 늘렀(Thinking more time) μ„±λŠ₯을 λŒμ–΄μ˜¬λ¦Ό. 순차적으둜 μƒκ°ν•˜μ§€ μ•Šκ³ , μ—¬λŸ¬ κ°€μ§€ μ‹œκ°μ  κ°€μ„€(κ°€λŠ₯μ„±)을 λ³‘λ ¬λ‘œ νƒμƒ‰ν•œ λ’€ μ’…ν•©ν•˜μ—¬ 닡을 λ„μΆœν•¨. (예: β€œμ΄ 그림은 고양이 같기도 ν•˜κ³  κ°•μ•„μ§€ 같기도 ν•œλ°, κ·€ λͺ¨μ–‘을 병렬 λΆ„μ„ν•΄λ³΄λ‹ˆ 고양이가 ν™•μ‹€ν•˜λ‹€β€)

πŸ“ 핡심 μ•Œκ³ λ¦¬μ¦˜: PPO (Proximal Policy Optimization)

λ…Όλ¬Έμ—μ„œ μ–ΈκΈ‰λœ κ°•ν™” ν•™μŠ΅μ˜ 핡심인 PPOλŠ” λͺ¨λΈμ΄ λ„ˆλ¬΄ νŠ€λŠ” 행동을 ν•˜μ§€ μ•Šλ„λ‘ μ•ˆμ „μž₯치λ₯Ό κ±Έμ–΄μ£ΌλŠ” κΈ°μˆ μž…λ‹ˆλ‹€. $$ L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min \left( r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t \right) \right] $$

  • μ‰½κ²Œ μ„€λͺ…ν•˜λ©΄: λͺ¨λΈμ΄ 쒋은 닡을 ν–ˆμ„ λ•ŒλŠ” 보상을 주되, ν•œ λ²ˆμ— λ„ˆλ¬΄ 많이 λ°”λ€Œμ§€ μ•Šλ„λ‘ clipμ΄λΌλŠ” μšΈνƒ€λ¦¬λ₯Ό μ³μ„œ ν•™μŠ΅μ΄ μ•ˆμ •μ μœΌλ‘œ μ§„ν–‰λ˜λ„λ‘ λ•λŠ” λ°©λ²•μž…λ‹ˆλ‹€.

3. μ‹€ν—˜ κ²°κ³Ό 뢄석 (Results)

πŸ† μ–΄λ–€ λ²€μΉ˜λ§ˆν¬μ—μ„œ ν…ŒμŠ€νŠΈν–ˆλ‚˜?

총 60개 μ΄μƒμ˜ λ²€μΉ˜λ§ˆν¬μ—μ„œ ν‰κ°€ν–ˆμœΌλ©°, 특히 μˆ˜ν•™, κ³Όν•™, 논리적 μΆ”λ‘ , 그리고 μ •λ°€ν•œ μ‹œκ° 인식(Counting, OCR)에 μ§‘μ€‘ν–ˆμŠ΅λ‹ˆλ‹€.

  • μˆ˜ν•™/κ³Όν•™ μΆ”λ‘ : MathVision, MMMU, AIME2025
  • 일반 인식/OCR: MMBench, HallusionBench, CountBench

πŸ“ˆ κΈ°μ‘΄ SOTA λŒ€λΉ„ μ–Όλ§ˆλ‚˜ μ’‹μ•„μ‘Œλ‚˜?

μžμ‹ μ˜ λͺΈμ§‘(10B)에 λΉ„ν•΄ 상상을 μ΄ˆμ›”ν•˜λŠ” μ„±λŠ₯을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

벀치마크STEP3-VL-10B 점수의미
MathVision75.95%μˆ˜ν•™ 문제λ₯Ό κ·Έλ¦Όκ³Ό ν•¨κ»˜ ν‘ΈλŠ” λŠ₯λ ₯
MMMU80.11%λŒ€ν•™ μˆ˜μ€€μ˜ μ΄ˆν•™μ œκ°„(Multidisciplinary) 이해도
AIME202594.43%κ³ λ‚œμ΄λ„ μˆ˜ν•™ μ˜¬λ¦Όν”Όμ•„λ“œ 문제 (κ²½μ•…ν•  μˆ˜μ€€)
  • 비ꡐ λŒ€λΉ„: μžμ‹ λ³΄λ‹€ 10λ°°~20λ°° 큰 λͺ¨λΈλ“€(예: GLM-4.6V-106B, Qwen3-VL-235B)κ³Ό κ²½μŸν•˜κ±°λ‚˜ λŠ₯κ°€ν–ˆμœΌλ©°, Gemini 2.5 Pro, Seed-1.5-VL 같은 μ΅œμƒμœ„ νμ‡„ν˜• λͺ¨λΈκ³Όλ„ λŒ€λ“±ν•œ μ„±κ³Όλ₯Ό λƒˆμŠ΅λ‹ˆλ‹€.
  • μ£Όλͺ©ν•  λ§Œν•œ 점: λ‹¨μˆœνžˆ 이미지을 β€œλ³΄λŠ”β€ 것을 λ„˜μ–΄, 이미지 속 숫자λ₯Ό μ„Έκ±°λ‚˜(Counting), κΈ€μžλ₯Ό 읽고(OCR) λ…Όλ¦¬μ μœΌλ‘œ νŒλ‹¨ν•˜λŠ” λŠ₯λ ₯μ—μ„œ 맀우 뛰어남.

4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯ (Limitations)

⚠️ ν•œκ³„μ 

  • μΆ”λ‘  λΉ„μš©(Compute) 증가: PaCoRe(병렬 μΆ”λ‘ )λ₯Ό μ‚¬μš©ν•˜λ©΄ μ„±λŠ₯은 μ’‹μ•„μ§€μ§€λ§Œ, 닡을 생성할 λ•Œ μƒκ°ν•˜λŠ” μ‹œκ°„μ΄λ‚˜ μ—°μ‚°λŸ‰μ΄ λŠ˜μ–΄λ‚  μˆ˜λ°–μ— μ—†μŠ΅λ‹ˆλ‹€. μ•„μ£Ό λΉ λ₯Έ μ‹€μ‹œκ°„ 응닡이 ν•„μš”ν•œ μ„œλΉ„μŠ€μ—λŠ” μ΅œμ ν™”κ°€ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • κ±°λŒ€ λͺ¨λΈμ˜ 지식 μš©λŸ‰: 10B νŒŒλΌλ―Έν„°λΌλŠ” 물리적 ν•œκ³„ λ•Œλ¬Έμ—, μ„Έμƒμ˜ λͺ¨λ“  사싀 지식(Trivia)을 1μ‘° νŒŒλΌλ―Έν„° λͺ¨λΈλ§ŒνΌ λ‹€ λ‹΄μ•„λ‚΄μ§€λŠ” λͺ»ν•  수 μžˆμŠ΅λ‹ˆλ‹€. (ν•˜μ§€λ§Œ μΆ”λ‘  λŠ₯λ ₯으둜 이λ₯Ό 컀버함)

πŸš€ ν–₯ν›„ 연ꡬ λ°©ν–₯

  • Test-time Compute μ΅œμ ν™”: PaCoRe의 병렬 좔둠을 더 효율적으둜 λ§Œλ“€μ–΄ μ„±λŠ₯ μ €ν•˜ 없이 응닡 속도λ₯Ό λ†’μ΄λŠ” 연ꡬ.
  • Edge Device 적용: 10BλΌλŠ” μž‘μ€ 크기λ₯Ό ν™œμš©ν•˜μ—¬ μŠ€λ§ˆνŠΈν°μ΄λ‚˜ λ‘œλ΄‡ 같은 κΈ°κΈ° λ‚΄μ—μ„œ 더 적은 λ¦¬μ†ŒμŠ€λ‘œ λŒμ•„κ°€κ²Œ ν•˜λŠ” κ²½λŸ‰ν™” 기술 연ꡬ.

5. 싀무 적용 κ°€λŠ₯μ„± (Practicality)

πŸ’Ό 어디에 λ°”λ‘œ 적용 κ°€λŠ₯?

  1. ꡐ윑용 νŠœν„°λ§ 봇: μˆ˜ν•™ λ¬Έμ œλ‚˜ λ„ν‘œλ₯Ό μ°μ–΄μ„œ 올리면 AIME 94% μ μˆ˜μ— κ±Έλ§žμ€ μ΄ˆκ³ λ‚œλ„ 풀이와 μ„€λͺ…을 제곡.
  2. λ¬Έμ„œ μ§€λŠ₯ν˜• RAG: κΈ΄ λ³΄κ³ μ„œλ‚˜ λ…Όλ¬Έμ˜ ν‘œ, κ·Έλž˜ν”„λ₯Ό μ΄ν•΄ν•˜κ³  μš”μ•½ν•˜μ—¬ 핡심 λ‚΄μš©μ„ μΆ”μΆœν•˜λŠ” κΈ°μ—…μš© λ¬Έμ„œ 뢄석 μ‹œμŠ€ν…œ.
  3. λ‘œλ΄‡ λΉ„μ „: μƒλŒ€μ μœΌλ‘œ κ°€λ²Όμš΄ λͺ¨λΈμ΄λ―€λ‘œ, λ‘œλ΄‡μ˜ λˆˆμœΌλ‘œμ„œ μ‹€μ‹œκ°„μœΌλ‘œ 사물을 μΈμ‹ν•˜κ³ (Counting), 물체λ₯Ό μ‘°μž‘ν•˜λŠ” 데 ν•„μš”ν•œ 논리적 νŒλ‹¨μ„ λ‚΄λ¦¬λŠ” ν•˜λ“œμ›¨μ–΄ λ‚΄μž₯ν˜• AI.

πŸ–₯️ ν•„μš”ν•œ λ¦¬μ†ŒμŠ€

  • GPU: 10B νŒŒλΌλ―Έν„° λͺ¨λΈμ΄λ―€λ‘œ, 일반적인 μ†ŒλΉ„μžμš© GPU(예: RTX 3090/4090 24GB)μ—μ„œ μ–‘μžν™”(Quantization, 4bit/8bit) κΈ°μˆ μ„ μ‚¬μš©ν•˜λ©΄ μΆ©λΆ„νžˆ 좔둠이 κ°€λŠ₯ν•©λ‹ˆλ‹€. (Full Precision ν•™μŠ΅μ„ μœ„ν•΄μ„œλŠ” A100 40GB 이상 ꢌμž₯)
  • 데이터: λ³„λ„μ˜ νŠΉν™” 데이터 없이도 λ²”μš©μ μœΌλ‘œ μ‹œκ°-μ–Έμ–΄ μž‘μ—…μ— λ°”λ‘œ νˆ¬μž… κ°€λŠ₯.

6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식 (Prerequisites)

  1. MLLM (Multimodal Large Language Model): ν…μŠ€νŠΈλΏλ§Œ μ•„λ‹ˆλΌ 이미지, μ˜€λ””μ˜€ λ“± λ‹€μ–‘ν•œ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό μ΄ν•΄ν•˜κ³  μƒμ„±ν•˜λŠ” κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈ.
  2. Pre-training vs. SFT: Pre-training은 말 κ·ΈλŒ€λ‘œ 기초 지식을 μŒ“λŠ” 단계(μ΄ˆλ“±ν•™κ΅~고등학ꡐ), **SFT(Supervised Finetuning)**은 νŠΉμ • μž„λ¬΄μ— 맞게 μ •μ œλœ λ°μ΄ν„°λ‘œ μž¬κ΅μœ‘ν•˜λŠ” 단계(λŒ€ν•™μ› 전곡).
  3. Frozen vs. Unfrozen Parameters: Frozen은 ν•™μŠ΅ 도쀑 κ°€μ€‘μΉ˜λ₯Ό μ—…λ°μ΄νŠΈν•˜μ§€ μ•Šκ³  κ³ μ •ν•˜λŠ” 것(전이 ν•™μŠ΅ μ‹œ 주둜 μ‚¬μš©), Unfrozen은 λͺ¨λ“  κ°€μ€‘μΉ˜λ₯Ό μƒˆλ‘œ μ—…λ°μ΄νŠΈν•˜λŠ” κ²ƒμœΌλ‘œ λͺ¨λΈ κ°„μ˜ μœ΅ν•©μ„ 더 깊게 ν•  수 있음.
  4. Reinforcement Learning (RLHF): μΈκ°„μ˜ ν”Όλ“œλ°±(쒋은 λ‹΅/λ‚˜μœ λ‹΅)을 톡해 λͺ¨λΈμ΄ 슀슀둜 μ •μ±…(Policy)을 μˆ˜μ •ν•˜λ©° ν•™μŠ΅ν•˜λŠ” κ°•ν™” ν•™μŠ΅ 방식.
  5. Test-time Compute: ν•™μŠ΅μ΄ λλ‚œ ν›„, μ‹€μ œλ‘œ μΆ”λ‘ (Inference)을 ν•  λ•Œ μ–Όλ§ˆλ‚˜ λ§Žμ€ μ—°μ‚°(μ‹œκ°„)을 μ“Έ 것인가. 더 였래 μƒκ°ν• μˆ˜λ‘ 닡이 잘 λ‚˜μ˜¬ 수 있음.
  6. PPO (Proximal Policy Optimization): κ°•ν™” ν•™μŠ΅μ—μ„œ λͺ¨λΈμ΄ ν•™μŠ΅ν•˜λ©΄μ„œ λ„ˆλ¬΄ 큰 λ³€ν™”λ₯Ό μΌμœΌν‚€μ§€ μ•Šλ„λ‘ μ œμ•½μ„ κ±Έμ–΄ μ•ˆμ •μ μœΌλ‘œ ν•™μŠ΅μ‹œν‚€λŠ” λŒ€ν‘œμ μΈ μ•Œκ³ λ¦¬μ¦˜.
  7. OCR (Optical Character Recognition): 이미지 속에 μžˆλŠ” 문자λ₯Ό ν…μŠ€νŠΈ λ°μ΄ν„°λ‘œ λ³€ν™˜ν•˜λŠ” 기술.

πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡Watching, Reasoning, and Searching:…DD-006
πŸ₯ˆBabyVision: Visual Reasoning Beyond…DD-007
πŸ₯‰STEP3-VL-10B Technical ReportπŸ“ ν˜„μž¬ λ¬Έμ„œ
4.Thinking with Map: Reinforced Paral…DD-009
5.Urban Socio-Semantic Segmentation w…DD-010

πŸ“… 생성일: 2026-02-02 | πŸ€– GLM-4.7 Deep Dive