← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-032 Does Your Reasoning Model Implicitly Know When to Stop Thinking?

arXiv: 2602.08354 κΈ°κ΄€: ByteDance Upvotes: 246 | Comments: 8 μˆœμœ„: 이번 μ£Ό Top 2

Figure 1


μ•ˆλ…•ν•˜μ„Έμš”. AI/ML μ „λ¬Έκ°€λ‘œμ„œ 이 ν₯미둜운 논문을 μ•„μ£Ό μ‰½κ²Œ, 그리고 깊이 있게 뢄석해 λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€. 이 논문은 졜근 λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(LLM)의 사고 방식인 β€˜Chain of Thoughtβ€™μ˜ νš¨μœ¨μ„±μ— λŒ€ν•œ 근본적인 μ§ˆλ¬Έμ„ λ˜μ§€λ©° 맀우 μ€‘μš”ν•œ 톡찰을 μ œμ‹œν•©λ‹ˆλ‹€.

μ£Όλ‹ˆμ–΄ κ°œλ°œμžλΆ„λ“€λ„ μ§κ΄€μ μœΌλ‘œ μ΄ν•΄ν•˜μ‹€ 수 μžˆλ„λ‘ λ³΅μž‘ν•œ μˆ˜μ‹μ€ μ‰¬μš΄ λΉ„μœ λ‘œ ν’€μ–΄λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€.


λ…Όλ¬Έ 뢄석: Does Your Reasoning Model Implicitly Know When to Stop Thinking?

1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€?

졜근 λŒ€ν˜• μΆ”λ‘  λͺ¨λΈ(Large Reasoning Models, LRM)인 DeepSeek-R1μ΄λ‚˜ OpenAI의 o3 같은 λͺ¨λΈλ“€μ€ λ³΅μž‘ν•œ 문제λ₯Ό ν’€κΈ° μœ„ν•΄ μ•„μ£Ό κΈ΄ β€˜μ‚¬κ³ μ˜ 흐름(Chain of Thought, CoT)β€˜μ„ μƒμ„±ν•©λ‹ˆλ‹€. κΈ°μ‘΄ μ—°κ΅¬λŠ” β€œμ˜€λž˜ μƒκ°ν•˜λ©΄ μƒκ°ν• μˆ˜λ‘ 정닡을 맞힐 ν™•λ₯ μ΄ λ†’μ•„μ§„λ‹€β€λŠ” κ°€μ •ν•˜μ— λ¬΄μž‘μ • 길게 μƒμ„±ν•˜λŠ” 방식을 μ„ ν˜Έν–ˆμŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ 이둜 인해 μ—°μ‚° λΉ„μš©μ΄ ν­λ°œν•˜κ³ , λ‹΅λ³€ 생성 속도가 λŠ¦μ–΄μ§€λŠ” λ“± νš¨μœ¨μ„± λ¬Έμ œκ°€ μ‹¬κ°ν–ˆμŠ΅λ‹ˆλ‹€.

이 논문은 β€œλͺ¨λΈμ΄ 사싀은 이미 닡을 μ°Ύμ•˜μŒμ—λ„ λΆˆκ΅¬ν•˜κ³ , ꡳ이 더 λ©μ²­ν•˜κ²Œ 길게 μƒκ°ν•˜κ³  μžˆλ‹€β€λŠ” λ†€λΌμš΄ 사싀을 λ°ν˜€λƒˆμŠ΅λ‹ˆλ‹€. μ €μžλ“€μ€ λͺ¨λΈμ΄ λ‚΄λ©΄μ μœΌλ‘œ μ–Έμ œ 사고λ₯Ό λ©ˆμΆ°μ•Ό ν• μ§€ μ•Œκ³  μžˆλ‹€λŠ” 점을 λ°œκ²¬ν–ˆκ³ , SAGEλΌλŠ” 기법을 톡해 이 잠재λ ₯을 λŒμ–΄λ‚΄μ–΄ 훨씬 더 적은 λΉ„μš©μœΌλ‘œλ„ 높은 μ •λ‹΅λ₯ μ„ μœ μ§€ν•  수 μžˆμŒμ„ 증λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.

2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ°

μ‹œν—˜ μΉ˜λŠ” μˆ˜ν—˜μƒ λΉ„μœ 

이 λ…Όλ¬Έμ˜ 핡심을 μ΄ν•΄ν•˜λ €λ©΄ β€˜μ‹œν—˜ μΉ˜λŠ” μˆ˜ν—˜μƒβ€™μ„ λ– μ˜¬λ¦¬λ©΄ λ©λ‹ˆλ‹€.

μ–΄λ–€ μˆ˜ν—˜μƒμ€ μˆ˜ν•™ 문제λ₯Ό ν’€ λ•Œ, 이미 닡이 β€œ5β€λΌλŠ” κ±Έ 계산 κ³Όμ • μ€‘λ°˜μ— ν™•μ‹ ν•˜λŠ” κ²½μš°κ°€ μžˆμŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ μ‹œν—˜μ§€μ— β€œλ…Έλ ₯ν•œ 흔적”을 남겨야 ν•œλ‹€λŠ” κ°•λ°• λ•Œλ¬Έμ—, 이미 닡을 μ“°κ³ μ„œλ„ ν•œ νŽ˜μ΄μ§€ 더 빈 칸을 μ±„μš°λ©° μ—‰λš±ν•œ 계산을 이어가기도 ν•©λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ 였히렀 계산 μ‹€μˆ˜κ°€ λ‚˜μ™€ 닡이 틀렀버리기도 ν•˜μ£ .

μ§€κΈˆκΉŒμ§€μ˜ AI λͺ¨λΈλ„ λ§ˆμ°¬κ°€μ§€μ˜€μŠ΅λ‹ˆλ‹€. λͺ¨λΈμ€ 쀑간 λ‹¨κ³„μ—μ„œ 이미 β€œμ•„, 닡이 이거넀!”라고 ν™•μ‹ (Confidence)을 κ°€μ‘Œμ§€λ§Œ, μš°λ¦¬κ°€ μ •ν•΄λ‘” 토큰 μˆ˜κ°€ λ‹€ μ°° λ•ŒκΉŒμ§€ λ©ˆμΆ”μ§€ λͺ»ν•˜κ³  λ©μ²­ν•˜κ²Œ 이어 뢙이기λ₯Ό κ³„μ†ν–ˆμŠ΅λ‹ˆλ‹€. 이 논문은 μˆ˜ν—˜μƒμ΄ β€œμž, μ—¬κΈ°μ„œ ν™•μ‹€ν–ˆμœΌλ‹ˆ νŽœμ„ λ†“μžβ€λΌκ³  νŒλ‹¨ν•˜λŠ” 지점을 μ°Ύμ•„λ‚΄λŠ” 기술, 즉 SAGEλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

단계별 λ™μž‘ 원리

이 κΈ°μˆ μ€ 크게 두 κ°€μ§€ λ‹¨κ³„λ‘œ 이루어져 μžˆμŠ΅λ‹ˆλ‹€. ν•˜λ‚˜λŠ” 탐색(Discovery)이고, λ‹€λ₯Έ ν•˜λ‚˜λŠ” 효율적 생성(Efficient Generation)μž…λ‹ˆλ‹€.

첫 번째 단계: λͺ¨λΈμ˜ μžμ‹ κ°μ„ μΈ‘μ •ν•˜λŠ” 탐색 (TSearch) λͺ¨λΈμ΄ 단어 ν•˜λ‚˜ν•˜λ‚˜λ₯Ό 생성할 λ•Œλ§ˆλ‹€ β€œμ΄ 단어가 정닡일 ν™•λ₯ β€μ„ μˆ˜μΉ˜ν™”ν•©λ‹ˆλ‹€. 이λ₯Ό ν™•λ₯  점수(Phi)라고 λΆ€λ¦…λ‹ˆλ‹€. 보톡은 κ·Έλƒ₯ μ­‰μ­‰ λ‚˜μ•„κ°€μ§€λ§Œ, 이 λ…Όλ¬Έμ—μ„œλŠ” κ°€μ§€μΉ˜κΈ°(Tree Search) 방식을 μ‚¬μš©ν•©λ‹ˆλ‹€. 문제λ₯Ό ν’€ λ•Œ μ—¬λŸ¬ κ°€μ§€ 경둜λ₯Ό λ™μ‹œμ— μ‘°κΈˆμ”© λ‚˜μ•„κ°€ λ³΄λ©΄μ„œ, μ–΄λ–€ κ²½λ‘œκ°€ λͺ¨λΈμ˜ ν™•λ₯  μ μˆ˜κ°€ κ°€μž₯ λ†’κ²Œ μœ μ§€λ˜λŠ”μ§€ ν™•μΈν•©λ‹ˆλ‹€.

두 번째 단계: SAGE (Self-Aware Guided Efficient Reasoning) 적용 탐색 λ‹¨κ³„μ—μ„œ μš°λ¦¬λŠ” μ€‘μš”ν•œ 사싀을 λ°œκ²¬ν•©λ‹ˆλ‹€. λ°”λ‘œ β€œλͺ¨λΈμ˜ μžμ‹ κ°(Phi)이 λ†’κ²Œ μœ μ§€λ˜λŠ” κ²½λ‘œλŠ”, 짧더라도 λŒ€λΆ€λΆ„ μ •λ‹΅μ΄λ‹€β€λΌλŠ” μ μž…λ‹ˆλ‹€. SAGEλŠ” 이 점을 μ΄μš©ν•©λ‹ˆλ‹€. λͺ¨λΈμ΄ 닡을 생성할 λ•Œ, ν˜„μž¬κΉŒμ§€μ˜ 평균 μžμ‹ κ°μ΄ 맀우 λ†’λ‹€λ©΄ ꡳ이 더 길게 μƒκ°ν•˜μ§€ μ•Šκ³  λ°”λ‘œ κ·Έκ³³μ—μ„œ λ©ˆμΆ”κ²Œ ν•©λ‹ˆλ‹€. 이것이 λ°”λ‘œ β€œμ•”λ¬΅μ μœΌλ‘œ λ©ˆμΆ°μ•Ό ν•  μ‹œκΈ°λ₯Ό μ•„λŠ”β€ λŠ₯λ ₯을 λŒμ–΄λ‚΄λŠ” λ°©μ‹μž…λ‹ˆλ‹€.

핡심 μˆ˜μ‹: μžμ‹ κ° 점수 (Phi)

논문에 λ‚˜μ˜€λŠ” 핡심 μˆ˜μ‹μ€ 평균 λˆ„μ  둜그 ν™•λ₯ μž…λ‹ˆλ‹€. 겁먹지 λ§ˆμ„Έμš”, μ•„μ£Ό κ°„λ‹¨ν•©λ‹ˆλ‹€.

$\Phi(\mathbf{y}{\le k}) = \frac{1}{k} \sum{i=1}^{k} \log \pi_{\theta}(y_i | \mathbf{y}_{<i}, \mathbf{x})$

이것을 ν’€μ–΄μ„œ μ„€λͺ…ν•˜λ©΄ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. λͺ¨λΈμ΄ μ§€κΈˆκΉŒμ§€ k개의 토큰(단어 쑰각)을 λ§Œλ“€μ–΄λƒˆλ‹€κ³  μΉ©μ‹œλ‹€. 각 단어λ₯Ό λ§Œλ“€ λ•Œλ§ˆλ‹€ λͺ¨λΈμ€ β€œμ΄ 단어가 λ§žμ„ ν™•λ₯ β€μ„ κ³„μ‚°ν•©λ‹ˆλ‹€. 이 ν™•λ₯ λ“€μ„ λ‹€ 둜그 ν•¨μˆ˜λ‘œ λ°”κΎΈκ³ , λͺ¨λ‘ λ”ν•œ λ’€, 단어 개수 k둜 λ‚˜λˆ  평균을 λ‚Έ 것이 λ°”λ‘œ $\Phi$μž…λ‹ˆλ‹€. 이 값이 λ†’λ‹€λŠ” 건, λͺ¨λΈμ΄ μ§€κΈˆκΉŒμ§€ λ§Œλ“  λͺ¨λ“  단어에 λŒ€ν•΄ 쀄곧 β€œμ΄κ²Œ ν™•μ‹€νžˆ λ§žμ•„!”라고 μžμ‹ κ° 있게 μƒκ°ν•΄μ™”λ‹€λŠ” λœ»μž…λ‹ˆλ‹€. SAGEλŠ” 이 $\Phi$κ°€ 일정 μˆ˜μ€€ 이상 μœ μ§€λ˜λ©΄ 더 이상 κ³ λ―Όν•˜μ§€ μ•Šκ³  멈μΆ₯λ‹ˆλ‹€.

3. μ‹€ν—˜ κ²°κ³Ό 뢄석

ν…ŒμŠ€νŠΈ ν™˜κ²½

연ꡬ진은 MATH-500 데이터셋 쀑 λ¬΄μž‘μœ„λ‘œ μ„ νƒν•œ 100개의 문제λ₯Ό μ‚¬μš©ν•˜μ—¬ μ‹€ν—˜μ„ μ§„ν–‰ν–ˆμŠ΅λ‹ˆλ‹€. λͺ¨λΈμ€ DeepSeek의 7B νŒŒλΌλ―Έν„° λͺ¨λΈ(DS-7B)을 μ‚¬μš©ν–ˆμœΌλ©°, μ΅œλŒ€ 1만 개의 토큰을 μ‚¬μš©ν•  수 μžˆλŠ” μ˜ˆμ‚°(Budget)을 두고 ν…ŒμŠ€νŠΈν–ˆμŠ΅λ‹ˆλ‹€.

λ†€λΌμš΄ μ„±κ³Ό

  1. μžμ‹ κ°κ³Ό νš¨μœ¨μ„±μ˜ 상관관계 μ‹€ν—˜ κ²°κ³Ό, λͺ¨λΈμ΄ μžμ‹ κ° λ†’κ²Œ μƒμ„±ν•œ 경둜(Phiλ₯Ό μ‚¬μš©ν•΄ ν•„ν„°λ§λœ 경둜)λŠ” κ·Έλ ‡μ§€ μ•Šμ€ κ²½λ‘œλ³΄λ‹€ 훨씬 더 짧은 길이둜 정닡을 λ„μΆœν–ˆμŠ΅λ‹ˆλ‹€. 즉, β€œκΈΈμ΄λŠ” μ€‘μš”ν•˜μ§€ μ•Šλ‹€. μ–Όλ§ˆλ‚˜ μžμ‹  있게 ν’€μ—ˆλŠλƒκ°€ μ€‘μš”ν•˜λ‹€β€λŠ” 것이 μž…μ¦λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

  2. 탐색 폭(Width)에 λ”°λ₯Έ μ„±λŠ₯ ν–₯상 λ‹¨μˆœνžˆ λ¬΄μž‘μœ„λ‘œ μƒ˜ν”Œλ§ν•˜λŠ” 방식보닀, λ…Όλ¬Έμ—μ„œ μ œμ•ˆν•œ TSearch μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•˜μ—¬ 탐색 폭(m)을 λ„“νžμˆ˜λ‘ μ •λ‹΅λ₯ μ΄ 크게 ν–₯μƒλ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ΄ 슀슀둜 μ–Έμ œ λ©ˆμΆ°μ•Ό ν• μ§€ λͺ¨λ₯Ό λ•Œ, λ‹€μ–‘ν•œ 경둜λ₯Ό 잠깐 μ‚΄νŽ΄λ³΄κ²Œ ν•¨μœΌλ‘œμ¨ 졜적의 닡을 μ°Ύμ•„λ‚Ό ν™•λ₯ μ„ 높이기 λ•Œλ¬Έμž…λ‹ˆλ‹€.

  3. κΈ°μ‘΄ λͺ¨λΈκ³Όμ˜ 비ꡐ (λ¬Έν—Œ 인용) λ…Όλ¬Έμ—μ„œ μΈμš©ν•œ λ‹€λ₯Έ 연ꡬ에 λ”°λ₯΄λ©΄, DeepSeek-R1 λͺ¨λΈμ€ λ―Έκ΅­ μˆ˜ν•™ μ˜¬λ¦Όν”Όμ•„λ“œ(AIME) λ¬Έμ œμ—μ„œ Claude 3.7 Sonnetκ³Ό λΉ„μŠ·ν•œ μ •λ‹΅λ₯ μ„ λ³΄μ˜€μ§€λ§Œ, λ‹΅λ³€μ˜ κΈΈμ΄λŠ” 무렀 5λ°°λ‚˜ 더 κΈΈμ—ˆμŠ΅λ‹ˆλ‹€. 반면, SAGE 같은 방식을 μ μš©ν•˜λ©΄ 이런 λΆˆν•„μš”ν•œ 길이 뢀풀리기λ₯Ό μ€„μ΄λ©΄μ„œλ„ μ„±λŠ₯은 μœ μ§€ν•  수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯

μ €μžκ°€ μ–ΈκΈ‰ν•œ ν•œκ³„

TSearch μ•Œκ³ λ¦¬μ¦˜ μžμ²΄λŠ” μ—¬λŸ¬ κ°€μ§€ 경둜λ₯Ό λ™μ‹œμ— 탐색해야 ν•˜λ―€λ‘œ, μ—°μ‚°λŸ‰μ΄λ‚˜ λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰μ΄ 증가할 수 μžˆμŠ΅λ‹ˆλ‹€. 즉, μΆ”λ‘ (Inference) λ‹¨κ³„μ—μ„œ ν•˜λ“œμ›¨μ–΄ λ¦¬μ†ŒμŠ€λ₯Ό 많이 λ¨ΉλŠ”λ‹€λŠ” 점이 λ‹¨μˆœν•œ μƒ˜ν”Œλ§ 방식에 λΉ„ν•΄ 단점일 수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 아직은 SAGEκ°€ μˆ˜ν•™μ  좔둠에 μ§‘μ€‘λ˜μ–΄ μžˆμ–΄ 일반적인 λŒ€ν™”λ‚˜ κΈ€μ“°κΈ° μ˜μ—­μ—μ„œμ˜ νš¨κ³ΌλŠ” μΆ”κ°€ 검증이 ν•„μš”ν•©λ‹ˆλ‹€.

κ°œμ„  κ°€λŠ₯μ„± 및 ν–₯ν›„ 연ꡬ

이 λ…Όλ¬Έμ˜ κ°€μž₯ 큰 κΈ°μ—¬ 쀑 ν•˜λ‚˜λŠ” 이 λ°œκ²¬μ„ κ°•ν™” ν•™μŠ΅(Reinforcement Learning)에 μ ‘λͺ©ν•œ κ²ƒμž…λ‹ˆλ‹€. μ €μžλŠ” SAGE-RLμ΄λΌλŠ” κ°œλ…μ„ μ œμ•ˆν•˜λ©°, λͺ¨λΈμ΄ ν›ˆλ ¨ 단계뢀터 β€œμ§§κ³  μžμ‹ κ° μžˆλŠ” 닡변”에 λŒ€ν•΄ 보상을 받도둝 ν•™μŠ΅μ‹œν‚¬ 것을 μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ΄ μ• μ΄ˆμ— λΆˆν•„μš”ν•œ 생각을 ν•˜μ§€ μ•Šλ„λ‘ νŠœλ‹ν•˜λŠ” λ°©ν–₯으둜 연ꡬ가 ν™•μž₯될 κ²ƒμž…λ‹ˆλ‹€.

5. 싀무 적용 κ°€λŠ₯μ„±

λ°”λ‘œ 적용 κ°€λŠ₯ν•œ λΆ„μ•Ό

이 κΈ°μˆ μ€ λΉ„μš©μ΄ μ€‘μš”ν•œ μ‹€μ‹œκ°„ AI μ„œλΉ„μŠ€μ— 맀우 μœ μš©ν•©λ‹ˆλ‹€.

  • 챗봇 고도화: μ‚¬μš©μžκ°€ μ§ˆλ¬Έμ„ ν–ˆμ„ λ•Œ, 10초 λ™μ•ˆ μƒκ°ν•΄μ„œ λ‹΅ν•˜λŠ” λŒ€μ‹ , 2초 λ§Œμ— 핡심을 μ°Ύμ•„ λ°”λ‘œ 닡변을 쀄 수 μžˆμŠ΅λ‹ˆλ‹€.
  • μ½”λ”© μ–΄μ‹œμŠ€ν„΄νŠΈ: ν”„λ‘œκ·Έλž˜λ° 문제 ν•΄κ²° μ‹œ, λͺ¨λΈμ΄ 이미 μ •ν™•ν•œ μ½”λ“œλ₯Ό μ§°λŠ”λ°λ„ ꡳ이 μ£Όμ„μ΄λ‚˜ λΆˆν•„μš”ν•œ μ½”λ“œλ₯Ό 쀄쀄이 μƒμ„±ν•˜λŠ” 것을 막을 수 μžˆμŠ΅λ‹ˆλ‹€.
  • 수리/논리 μΆ”λ‘  μ„œλΉ„μŠ€: ꡐ윑용 νŠœν„°λ§ AIμ—μ„œ ν•™μƒλ“€μ—κ²Œ λ°”λ‘œ 정닡을 μ œμ‹œν•˜κ±°λ‚˜, μ˜€λ‹΅μ„ 쀄이기 μœ„ν•΄ μœ μš©ν•©λ‹ˆλ‹€.

ν•„μš”ν•œ λ¦¬μ†ŒμŠ€

이 κΈ°μˆ μ„ μ μš©ν•˜λ €λ©΄ κΈ°μ‘΄ LLM μ„œλΉ™ ν™˜κ²½ 외에 좔가적인 계산 둜직이 ν•„μš”ν•©λ‹ˆλ‹€.

  • GPU λ©”λͺ¨λ¦¬: μ—¬λŸ¬ 경둜λ₯Ό λ™μ‹œμ— 탐색(TSearch)ν•˜λ €λ©΄ 베이슀 λͺ¨λΈλ³΄λ‹€ 더 λ§Žμ€ VRAM이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. (탐색 폭 m에 λΉ„λ‘€)
  • μΆ”λ‘  μ΅œμ ν™”: λ‹¨μˆœνžˆ λͺ¨λΈμ„ λŒλ¦¬λŠ” 것이 μ•„λ‹ˆλΌ, 생성 κ³Όμ •λ§ˆλ‹€ 둜그 ν™•λ₯ μ„ μ‹€μ‹œκ°„μœΌλ‘œ κ³„μ‚°ν•˜κ³  νŒλ‹¨ν•˜λŠ” 둜직이 μ„œλ²„ λ ˆλ²¨μ— κ΅¬ν˜„λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€.

6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식

이 논문을 μ™„λ²½ν•˜κ²Œ μ΄ν•΄ν•˜κΈ° μœ„ν•΄μ„  μ•„λž˜ 7κ°€μ§€ κ°œλ…μ„ μ•Œκ³  κ³„μ‹œλ©΄ μ’‹μŠ΅λ‹ˆλ‹€.

  1. Chain of Thought (CoT) λͺ¨λΈμ΄ 닡을 λ°”λ‘œ λ§ν•˜λŠ” λŒ€μ‹  β€œμ‚¬κ³  과정”을 λ‹¨κ³„λ³„λ‘œ μ„œμˆ ν•˜μ—¬ μΆ”λ‘  λŠ₯λ ₯을 λ†’μ΄λŠ” ν”„λ‘¬ν”„νŠΈ 기법 ν˜Ήμ€ 생성 방식.

  2. Log-probability (둜그 ν™•λ₯ ) λͺ¨λΈμ΄ νŠΉμ • 단어λ₯Ό λ‹€μŒ λ‹¨μ–΄λ‘œ 선택할 ν™•λ₯ μ˜ 둜그 κ°’. ν™•λ₯ μ€ 0~1 μ‚¬μ΄λΌμ„œ κ³±ν•˜λ©΄ λ„ˆλ¬΄ μž‘μ•„μ§€λ―€λ‘œ 둜그λ₯Ό μ·¨ν•΄ λ”ν•΄μ£ΌλŠ” 방식을 주둜 μ‚¬μš©ν•¨. λͺ¨λΈμ˜ β€˜μžμ‹ κ°β€™μ„ μˆ˜μΉ˜ν™”ν•œ 것.

  3. Sampling (μƒ˜ν”Œλ§) λ‹€μŒ 단어λ₯Ό κ³ λ₯Ό λ•Œ ν™•λ₯ μ΄ κ°€μž₯ 높은 κ²ƒλ§Œ κ³ λ₯΄λŠ” 것(Greedy) 외에, λ¬΄μž‘μœ„μ„±(Randomness)을 μ„žμ–΄ μ„ νƒν•˜λŠ” 방식(예: Temperature, Top-p)을 톡틀어 이λ₯΄λŠ” 말.

  4. Tree Search / Beam Search 미둜λ₯Ό νƒˆμΆœν•  λ•Œ ν•œ 길만 μ­‰ κ°€λŠ” 게 μ•„λ‹ˆλΌ, λ™μ‹œμ— μ—¬λŸ¬ 길을 μ‘°κΈˆμ”© νƒμƒ‰ν•˜λ©΄μ„œ κ°€μž₯ μœ λ§ν•œ 길을 선택해 λ‚˜μ•„κ°€λŠ” 탐색 μ•Œκ³ λ¦¬μ¦˜.

  5. Reinforcement Learning (κ°•ν™” ν•™μŠ΅) μ‹œν–‰μ°©μ˜€λ₯Ό 톡해 λ°°μš°λŠ” ν•™μŠ΅ 방법. μ˜¬λ°”λ₯Έ ν–‰λ™μ—λŠ” 점수λ₯Ό μ£Όκ³ (보상), ν‹€λ¦° ν–‰λ™μ—λŠ” 점수λ₯Ό κΉŽμ•„μ„œ λͺ¨λΈμ΄ 슀슀둜 μ „λž΅μ„ μ„Έμš°κ²Œ 함.

  6. Inference (μΆ”λ‘ ) ν•™μŠ΅μ΄ λλ‚œ λͺ¨λΈμ΄ μ‹€μ œλ‘œ μƒˆλ‘œμš΄ μž…λ ₯에 λŒ€ν•΄ 닡을 μƒμ„±ν•˜λŠ” κ³Όμ •. 즉, μš°λ¦¬κ°€ μ‹€μ œλ‘œ AIλ₯Ό μ‚¬μš©ν•˜λŠ” 단계.

  7. Pass@k λͺ¨λΈμ΄ 문제λ₯Ό ν’€ λ•Œ 닡을 k번 생성해보고, 그쀑 적어도 ν•˜λ‚˜λΌλ„ 정닡이면 μ„±κ³΅μœΌλ‘œ λ³΄λŠ” μ§€ν‘œ. 닡을 μ—¬λŸ¬ 번 μ‹œλ„ν• μˆ˜λ‘ 성곡 ν™•λ₯ μ΄ 높아짐을 의미.


πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡A Very Big Video Reasoning SuiteDD-031
πŸ₯ˆDoes Your Reasoning Model Implicitlβ€¦πŸ“ ν˜„μž¬ λ¬Έμ„œ
πŸ₯‰VESPO: Variational Sequence-Level S…DD-033
4.The Trinity of Consistency as a Def…DD-034
5.From Blind Spots to Gains: Diagnost…DD-035

πŸ“… 생성일: 2026-03-01 | πŸ€– GLM-4.7 Deep Dive