β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-032 Does Your Reasoning Model Implicitly Know When to Stop Thinking?
arXiv: 2602.08354 κΈ°κ΄: ByteDance Upvotes: 246 | Comments: 8 μμ: μ΄λ² μ£Ό Top 2

μλ νμΈμ. AI/ML μ λ¬Έκ°λ‘μ μ΄ ν₯λ―Έλ‘μ΄ λ Όλ¬Έμ μμ£Ό μ½κ², κ·Έλ¦¬κ³ κΉμ΄ μκ² λΆμν΄ λλ¦¬κ² μ΅λλ€. μ΄ λ Όλ¬Έμ μ΅κ·Ό λν μΈμ΄ λͺ¨λΈ(LLM)μ μ¬κ³ λ°©μμΈ βChain of Thoughtβμ ν¨μ¨μ±μ λν κ·Όλ³Έμ μΈ μ§λ¬Έμ λμ§λ©° λ§€μ° μ€μν ν΅μ°°μ μ μν©λλ€.
μ£Όλμ΄ κ°λ°μλΆλ€λ μ§κ΄μ μΌλ‘ μ΄ν΄νμ€ μ μλλ‘ λ³΅μ‘ν μμμ μ¬μ΄ λΉμ λ‘ νμ΄λλ¦¬κ² μ΅λλ€.
λ Όλ¬Έ λΆμ: Does Your Reasoning Model Implicitly Know When to Stop Thinking?
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
μ΅κ·Ό λν μΆλ‘ λͺ¨λΈ(Large Reasoning Models, LRM)μΈ DeepSeek-R1μ΄λ OpenAIμ o3 κ°μ λͺ¨λΈλ€μ 볡μ‘ν λ¬Έμ λ₯Ό νκΈ° μν΄ μμ£Ό κΈ΄ βμ¬κ³ μ νλ¦(Chain of Thought, CoT)βμ μμ±ν©λλ€. κΈ°μ‘΄ μ°κ΅¬λ βμ€λ μκ°νλ©΄ μκ°ν μλ‘ μ λ΅μ λ§ν νλ₯ μ΄ λμμ§λ€βλ κ°μ νμ 무μμ κΈΈκ² μμ±νλ λ°©μμ μ νΈνμ΅λλ€. νμ§λ§ μ΄λ‘ μΈν΄ μ°μ° λΉμ©μ΄ νλ°νκ³ , λ΅λ³ μμ± μλκ° λ¦μ΄μ§λ λ± ν¨μ¨μ± λ¬Έμ κ° μ¬κ°νμ΅λλ€.
μ΄ λ Όλ¬Έμ βλͺ¨λΈμ΄ μ¬μ€μ μ΄λ―Έ λ΅μ μ°Ύμμμλ λΆκ΅¬νκ³ , κ΅³μ΄ λ λ©μ²νκ² κΈΈκ² μκ°νκ³ μλ€βλ λλΌμ΄ μ¬μ€μ λ°νλμ΅λλ€. μ μλ€μ λͺ¨λΈμ΄ λ΄λ©΄μ μΌλ‘ μΈμ μ¬κ³ λ₯Ό λ©μΆ°μΌ ν μ§ μκ³ μλ€λ μ μ λ°κ²¬νκ³ , SAGEλΌλ κΈ°λ²μ ν΅ν΄ μ΄ μ μ¬λ ₯μ λμ΄λ΄μ΄ ν¨μ¬ λ μ μ λΉμ©μΌλ‘λ λμ μ λ΅λ₯ μ μ μ§ν μ μμμ μ¦λͺ νμ΅λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μν μΉλ μνμ λΉμ
μ΄ λ Όλ¬Έμ ν΅μ¬μ μ΄ν΄νλ €λ©΄ βμν μΉλ μνμβμ λ μ¬λ¦¬λ©΄ λ©λλ€.
μ΄λ€ μνμμ μν λ¬Έμ λ₯Ό ν λ, μ΄λ―Έ λ΅μ΄ β5βλΌλ κ±Έ κ³μ° κ³Όμ μ€λ°μ νμ νλ κ²½μ°κ° μμ΅λλ€. νμ§λ§ μνμ§μ βλ Έλ ₯ν νμ βμ λ¨κ²¨μΌ νλ€λ κ°λ° λλ¬Έμ, μ΄λ―Έ λ΅μ μ°κ³ μλ ν νμ΄μ§ λ λΉ μΉΈμ μ±μ°λ©° μλ±ν κ³μ°μ μ΄μ΄κ°κΈ°λ ν©λλ€. μ΄ κ³Όμ μμ μ€νλ € κ³μ° μ€μκ° λμ λ΅μ΄ νλ €λ²λ¦¬κΈ°λ νμ£ .
μ§κΈκΉμ§μ AI λͺ¨λΈλ λ§μ°¬κ°μ§μμ΅λλ€. λͺ¨λΈμ μ€κ° λ¨κ³μμ μ΄λ―Έ βμ, λ΅μ΄ μ΄κ±°λ€!βλΌκ³ νμ (Confidence)μ κ°μ‘μ§λ§, μ°λ¦¬κ° μ ν΄λ ν ν° μκ° λ€ μ°° λκΉμ§ λ©μΆμ§ λͺ»νκ³ λ©μ²νκ² μ΄μ΄ λΆμ΄κΈ°λ₯Ό κ³μνμ΅λλ€. μ΄ λ Όλ¬Έμ μνμμ΄ βμ, μ¬κΈ°μ νμ€νμΌλ νμ λμβλΌκ³ νλ¨νλ μ§μ μ μ°Ύμλ΄λ κΈ°μ , μ¦ SAGEλ₯Ό μ μν©λλ€.
λ¨κ³λ³ λμ μ리
μ΄ κΈ°μ μ ν¬κ² λ κ°μ§ λ¨κ³λ‘ μ΄λ£¨μ΄μ Έ μμ΅λλ€. νλλ νμ(Discovery)μ΄κ³ , λ€λ₯Έ νλλ ν¨μ¨μ μμ±(Efficient Generation)μ λλ€.
첫 λ²μ§Έ λ¨κ³: λͺ¨λΈμ μμ κ°μ μΈ‘μ νλ νμ (TSearch) λͺ¨λΈμ΄ λ¨μ΄ νλνλλ₯Ό μμ±ν λλ§λ€ βμ΄ λ¨μ΄κ° μ λ΅μΌ νλ₯ βμ μμΉνν©λλ€. μ΄λ₯Ό νλ₯ μ μ(Phi)λΌκ³ λΆλ¦ λλ€. 보ν΅μ κ·Έλ₯ μμ λμκ°μ§λ§, μ΄ λ Όλ¬Έμμλ κ°μ§μΉκΈ°(Tree Search) λ°©μμ μ¬μ©ν©λλ€. λ¬Έμ λ₯Ό ν λ μ¬λ¬ κ°μ§ κ²½λ‘λ₯Ό λμμ μ‘°κΈμ© λμκ° λ³΄λ©΄μ, μ΄λ€ κ²½λ‘κ° λͺ¨λΈμ νλ₯ μ μκ° κ°μ₯ λκ² μ μ§λλμ§ νμΈν©λλ€.
λ λ²μ§Έ λ¨κ³: SAGE (Self-Aware Guided Efficient Reasoning) μ μ© νμ λ¨κ³μμ μ°λ¦¬λ μ€μν μ¬μ€μ λ°κ²¬ν©λλ€. λ°λ‘ βλͺ¨λΈμ μμ κ°(Phi)μ΄ λκ² μ μ§λλ κ²½λ‘λ, μ§§λλΌλ λλΆλΆ μ λ΅μ΄λ€βλΌλ μ μ λλ€. SAGEλ μ΄ μ μ μ΄μ©ν©λλ€. λͺ¨λΈμ΄ λ΅μ μμ±ν λ, νμ¬κΉμ§μ νκ· μμ κ°μ΄ λ§€μ° λλ€λ©΄ κ΅³μ΄ λ κΈΈκ² μκ°νμ§ μκ³ λ°λ‘ κ·Έκ³³μμ λ©μΆκ² ν©λλ€. μ΄κ²μ΄ λ°λ‘ βμ묡μ μΌλ‘ λ©μΆ°μΌ ν μκΈ°λ₯Ό μλβ λ₯λ ₯μ λμ΄λ΄λ λ°©μμ λλ€.
ν΅μ¬ μμ: μμ κ° μ μ (Phi)
λ Όλ¬Έμ λμ€λ ν΅μ¬ μμμ νκ· λμ λ‘κ·Έ νλ₯ μ λλ€. κ²λ¨Ήμ§ λ§μΈμ, μμ£Ό κ°λ¨ν©λλ€.
$\Phi(\mathbf{y}{\le k}) = \frac{1}{k} \sum{i=1}^{k} \log \pi_{\theta}(y_i | \mathbf{y}_{<i}, \mathbf{x})$
μ΄κ²μ νμ΄μ μ€λͺ νλ©΄ λ€μκ³Ό κ°μ΅λλ€. λͺ¨λΈμ΄ μ§κΈκΉμ§ kκ°μ ν ν°(λ¨μ΄ μ‘°κ°)μ λ§λ€μ΄λλ€κ³ μΉ©μλ€. κ° λ¨μ΄λ₯Ό λ§λ€ λλ§λ€ λͺ¨λΈμ βμ΄ λ¨μ΄κ° λ§μ νλ₯ βμ κ³μ°ν©λλ€. μ΄ νλ₯ λ€μ λ€ λ‘κ·Έ ν¨μλ‘ λ°κΎΈκ³ , λͺ¨λ λν λ€, λ¨μ΄ κ°μ kλ‘ λλ νκ· μ λΈ κ²μ΄ λ°λ‘ $\Phi$μ λλ€. μ΄ κ°μ΄ λλ€λ 건, λͺ¨λΈμ΄ μ§κΈκΉμ§ λ§λ λͺ¨λ λ¨μ΄μ λν΄ μ€κ³§ βμ΄κ² νμ€ν λ§μ!βλΌκ³ μμ κ° μκ² μκ°ν΄μλ€λ λ»μ λλ€. SAGEλ μ΄ $\Phi$κ° μΌμ μμ€ μ΄μ μ μ§λλ©΄ λ μ΄μ κ³ λ―Όνμ§ μκ³ λ©μΆ₯λλ€.
3. μ€ν κ²°κ³Ό λΆμ
ν μ€νΈ νκ²½
μ°κ΅¬μ§μ MATH-500 λ°μ΄ν°μ μ€ λ¬΄μμλ‘ μ νν 100κ°μ λ¬Έμ λ₯Ό μ¬μ©νμ¬ μ€νμ μ§ννμ΅λλ€. λͺ¨λΈμ DeepSeekμ 7B νλΌλ―Έν° λͺ¨λΈ(DS-7B)μ μ¬μ©νμΌλ©°, μ΅λ 1λ§ κ°μ ν ν°μ μ¬μ©ν μ μλ μμ°(Budget)μ λκ³ ν μ€νΈνμ΅λλ€.
λλΌμ΄ μ±κ³Ό
-
μμ κ°κ³Ό ν¨μ¨μ±μ μκ΄κ΄κ³ μ€ν κ²°κ³Ό, λͺ¨λΈμ΄ μμ κ° λκ² μμ±ν κ²½λ‘(Phiλ₯Ό μ¬μ©ν΄ νν°λ§λ κ²½λ‘)λ κ·Έλ μ§ μμ κ²½λ‘λ³΄λ€ ν¨μ¬ λ μ§§μ κΈΈμ΄λ‘ μ λ΅μ λμΆνμ΅λλ€. μ¦, βκΈΈμ΄λ μ€μνμ§ μλ€. μΌλ§λ μμ μκ² νμλλκ° μ€μνλ€βλ κ²μ΄ μ μ¦λμμ΅λλ€.
-
νμ ν(Width)μ λ°λ₯Έ μ±λ₯ ν₯μ λ¨μν 무μμλ‘ μνλ§νλ λ°©μ보λ€, λ Όλ¬Έμμ μ μν TSearch μκ³ λ¦¬μ¦μ μ¬μ©νμ¬ νμ ν(m)μ λνμλ‘ μ λ΅λ₯ μ΄ ν¬κ² ν₯μλμμ΅λλ€. μ΄λ λͺ¨λΈμ΄ μ€μ€λ‘ μΈμ λ©μΆ°μΌ ν μ§ λͺ¨λ₯Ό λ, λ€μν κ²½λ‘λ₯Ό μ κΉ μ΄ν΄λ³΄κ² ν¨μΌλ‘μ¨ μ΅μ μ λ΅μ μ°ΎμλΌ νλ₯ μ λμ΄κΈ° λλ¬Έμ λλ€.
-
κΈ°μ‘΄ λͺ¨λΈκ³Όμ λΉκ΅ (λ¬Έν μΈμ©) λ Όλ¬Έμμ μΈμ©ν λ€λ₯Έ μ°κ΅¬μ λ°λ₯΄λ©΄, DeepSeek-R1 λͺ¨λΈμ λ―Έκ΅ μν μ¬λ¦ΌνΌμλ(AIME) λ¬Έμ μμ Claude 3.7 Sonnetκ³Ό λΉμ·ν μ λ΅λ₯ μ 보μμ§λ§, λ΅λ³μ κΈΈμ΄λ λ¬΄λ € 5λ°°λ λ κΈΈμμ΅λλ€. λ°λ©΄, SAGE κ°μ λ°©μμ μ μ©νλ©΄ μ΄λ° λΆνμν κΈΈμ΄ λΆν리기λ₯Ό μ€μ΄λ©΄μλ μ±λ₯μ μ μ§ν μ μμμ μμ¬ν©λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μκ° μΈκΈν νκ³
TSearch μκ³ λ¦¬μ¦ μ체λ μ¬λ¬ κ°μ§ κ²½λ‘λ₯Ό λμμ νμν΄μΌ νλ―λ‘, μ°μ°λμ΄λ λ©λͺ¨λ¦¬ μ¬μ©λμ΄ μ¦κ°ν μ μμ΅λλ€. μ¦, μΆλ‘ (Inference) λ¨κ³μμ νλμ¨μ΄ 리μμ€λ₯Ό λ§μ΄ λ¨Ήλλ€λ μ μ΄ λ¨μν μνλ§ λ°©μμ λΉν΄ λ¨μ μΌ μ μμ΅λλ€. λν, μμ§μ SAGEκ° μνμ μΆλ‘ μ μ§μ€λμ΄ μμ΄ μΌλ°μ μΈ λνλ κΈμ°κΈ° μμμμμ ν¨κ³Όλ μΆκ° κ²μ¦μ΄ νμν©λλ€.
κ°μ κ°λ₯μ± λ° ν₯ν μ°κ΅¬
μ΄ λ Όλ¬Έμ κ°μ₯ ν° κΈ°μ¬ μ€ νλλ μ΄ λ°κ²¬μ κ°ν νμ΅(Reinforcement Learning)μ μ λͺ©ν κ²μ λλ€. μ μλ SAGE-RLμ΄λΌλ κ°λ μ μ μνλ©°, λͺ¨λΈμ΄ νλ ¨ λ¨κ³λΆν° βμ§§κ³ μμ κ° μλ λ΅λ³βμ λν΄ λ³΄μμ λ°λλ‘ νμ΅μν¬ κ²μ μ μν©λλ€. μ΄λ₯Ό ν΅ν΄ λͺ¨λΈμ΄ μ μ΄μ λΆνμν μκ°μ νμ§ μλλ‘ νλνλ λ°©ν₯μΌλ‘ μ°κ΅¬κ° νμ₯λ κ²μ λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
λ°λ‘ μ μ© κ°λ₯ν λΆμΌ
μ΄ κΈ°μ μ λΉμ©μ΄ μ€μν μ€μκ° AI μλΉμ€μ λ§€μ° μ μ©ν©λλ€.
- μ±λ΄ κ³ λν: μ¬μ©μκ° μ§λ¬Έμ νμ λ, 10μ΄ λμ μκ°ν΄μ λ΅νλ λμ , 2μ΄ λ§μ ν΅μ¬μ μ°Ύμ λ°λ‘ λ΅λ³μ μ€ μ μμ΅λλ€.
- μ½λ© μ΄μμ€ν΄νΈ: νλ‘κ·Έλλ° λ¬Έμ ν΄κ²° μ, λͺ¨λΈμ΄ μ΄λ―Έ μ νν μ½λλ₯Ό μ§°λλ°λ κ΅³μ΄ μ£Όμμ΄λ λΆνμν μ½λλ₯Ό μ€μ€μ΄ μμ±νλ κ²μ λ§μ μ μμ΅λλ€.
- μ리/λ Όλ¦¬ μΆλ‘ μλΉμ€: κ΅μ‘μ© νν°λ§ AIμμ νμλ€μκ² λ°λ‘ μ λ΅μ μ μνκ±°λ, μ€λ΅μ μ€μ΄κΈ° μν΄ μ μ©ν©λλ€.
νμν 리μμ€
μ΄ κΈ°μ μ μ μ©νλ €λ©΄ κΈ°μ‘΄ LLM μλΉ νκ²½ μΈμ μΆκ°μ μΈ κ³μ° λ‘μ§μ΄ νμν©λλ€.
- GPU λ©λͺ¨λ¦¬: μ¬λ¬ κ²½λ‘λ₯Ό λμμ νμ(TSearch)νλ €λ©΄ λ² μ΄μ€ λͺ¨λΈλ³΄λ€ λ λ§μ VRAMμ΄ νμν μ μμ΅λλ€. (νμ ν mμ λΉλ‘)
- μΆλ‘ μ΅μ ν: λ¨μν λͺ¨λΈμ λ리λ κ²μ΄ μλλΌ, μμ± κ³Όμ λ§λ€ λ‘κ·Έ νλ₯ μ μ€μκ°μΌλ‘ κ³μ°νκ³ νλ¨νλ λ‘μ§μ΄ μλ² λ 벨μ ꡬνλμ΄μΌ ν©λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
μ΄ λ Όλ¬Έμ μλ²½νκ² μ΄ν΄νκΈ° μν΄μ μλ 7κ°μ§ κ°λ μ μκ³ κ³μλ©΄ μ’μ΅λλ€.
-
Chain of Thought (CoT) λͺ¨λΈμ΄ λ΅μ λ°λ‘ λ§νλ λμ βμ¬κ³ κ³Όμ βμ λ¨κ³λ³λ‘ μμ νμ¬ μΆλ‘ λ₯λ ₯μ λμ΄λ ν둬ννΈ κΈ°λ² νΉμ μμ± λ°©μ.
-
Log-probability (λ‘κ·Έ νλ₯ ) λͺ¨λΈμ΄ νΉμ λ¨μ΄λ₯Ό λ€μ λ¨μ΄λ‘ μ νν νλ₯ μ λ‘κ·Έ κ°. νλ₯ μ 0~1 μ¬μ΄λΌμ κ³±νλ©΄ λ무 μμμ§λ―λ‘ λ‘κ·Έλ₯Ό μ·¨ν΄ λν΄μ£Όλ λ°©μμ μ£Όλ‘ μ¬μ©ν¨. λͺ¨λΈμ βμμ κ°βμ μμΉνν κ².
-
Sampling (μνλ§) λ€μ λ¨μ΄λ₯Ό κ³ λ₯Ό λ νλ₯ μ΄ κ°μ₯ λμ κ²λ§ κ³ λ₯΄λ κ²(Greedy) μΈμ, 무μμμ±(Randomness)μ μμ΄ μ ννλ λ°©μ(μ: Temperature, Top-p)μ ν΅νμ΄ μ΄λ₯΄λ λ§.
-
Tree Search / Beam Search λ―Έλ‘λ₯Ό νμΆν λ ν κΈΈλ§ μ κ°λ κ² μλλΌ, λμμ μ¬λ¬ κΈΈμ μ‘°κΈμ© νμνλ©΄μ κ°μ₯ μ λ§ν κΈΈμ μ νν΄ λμκ°λ νμ μκ³ λ¦¬μ¦.
-
Reinforcement Learning (κ°ν νμ΅) μνμ°©μ€λ₯Ό ν΅ν΄ λ°°μ°λ νμ΅ λ°©λ². μ¬λ°λ₯Έ νλμλ μ μλ₯Ό μ£Όκ³ (보μ), νλ¦° νλμλ μ μλ₯Ό κΉμμ λͺ¨λΈμ΄ μ€μ€λ‘ μ λ΅μ μΈμ°κ² ν¨.
-
Inference (μΆλ‘ ) νμ΅μ΄ λλ λͺ¨λΈμ΄ μ€μ λ‘ μλ‘μ΄ μ λ ₯μ λν΄ λ΅μ μμ±νλ κ³Όμ . μ¦, μ°λ¦¬κ° μ€μ λ‘ AIλ₯Ό μ¬μ©νλ λ¨κ³.
-
Pass@k λͺ¨λΈμ΄ λ¬Έμ λ₯Ό ν λ λ΅μ kλ² μμ±ν΄λ³΄κ³ , κ·Έμ€ μ μ΄λ νλλΌλ μ λ΅μ΄λ©΄ μ±κ³΅μΌλ‘ 보λ μ§ν. λ΅μ μ¬λ¬ λ² μλν μλ‘ μ±κ³΅ νλ₯ μ΄ λμμ§μ μλ―Έ.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | A Very Big Video Reasoning Suite | DD-031 |
| π₯ | Does Your Reasoning Model Implicitlβ¦ | π νμ¬ λ¬Έμ |
| π₯ | VESPO: Variational Sequence-Level Sβ¦ | DD-033 |
| 4. | The Trinity of Consistency as a Def⦠| DD-034 |
| 5. | From Blind Spots to Gains: Diagnost⦠| DD-035 |
π μμ±μΌ: 2026-03-01 | π€ GLM-4.7 Deep Dive