โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-021 OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration
arXiv: 2602.05400 Upvotes: 279 | Comments: 0 ์์: ์ด๋ฒ ์ฃผ Top 1

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฐ์ดํฐ ์ ์ ๋ฐฉ์์ ๋ชจ๋ธ์ด ํ์ต๋๋ ๊ณผ์ ์ ๋ฌด์ํ ์ฑ ๊ณ ์ ๋ ๊ธฐ์ค์ ๋ฐ๋ฅด๊ฑฐ๋, ๋จ์ํ ๊ธฐ์ธ๊ธฐ(Gradient) ์ ๋ณด๋ง์ ์ฌ์ฉํ์ฌ ์ต์ ์ต์ ํ ๋๊ตฌ์ธ AdamW๋ Muon์ ํน์ฑ์ ๊ณ ๋ คํ์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ OPUS๋ผ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ์ค์ ๋ก ๋ชจ๋ธ์ด ์ด๋ค ์ต์ ํ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐฑ์ ํ๋์ง๋ฅผ ๊ณ ๋ คํ โ๊ฐฑ์ ๊ณต๊ฐ(Update Space)โ์์ ๋ฐ์ดํฐ์ ์ ์ฉ์ฑ์ ํ๊ฐํจ์ผ๋ก์จ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ณ ํ์ง ๋ฐ์ดํฐ๊ฐ ๊ณ ๊ฐ๋๋ ์๋์ ํจ์จ์ ์ด๊ณ ์์น์ ์ธ ๋ฐ์ดํฐ ์ ์ ์ด ๊ฐ๋ฅํด์ ธ, ๊ณ์ฐ ์์์ ๋ ๋ญ๋น ์์ด ์ฑ๋ฅ์ผ๋ก ์ ํํ ์ ์๊ฒ ๋์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์งํ์ ๊ณ ๋ คํ ์ฝ์น์ ์ ๋ต
๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ต์ํค๋ ๊ฒ์ ๊ฑฐ๋ํ ์ฐ์ ์งํ์์ ๋ชฉํ ์ง์ (์ต์ ์ ์ฑ๋ฅ)์ ์ฐพ์ ๋ด๋ ค๊ฐ๋ ๊ณผ์ ์ด๋ผ๊ณ ์์ํด ๋ด ์๋ค. ๊ธฐ์กด ๋ฐฉ์(๋์ ์ ์ )์ ๋จ์ํ โ๊ฐ์ฅ ๊ฐํ๋ฅธ ๊ณณ์ ์ฐพ์๋ผโ๋ผ๋ ์ง๋(๊ธฐ์ธ๊ธฐ, Gradient)๋ง ๋ณด๊ณ ๋ฑ์ฐ ์ฝ์ค๋ฅผ ์ ํ์ต๋๋ค. ํ์ง๋ง ์ค์ ๋ฑ๋ฐ๊ฐ๋ ๋งจ๋ชธ์ผ๋ก ๊ฑท๋ ๊ฒ์ด ์๋๋ผ, ํผํ ๋์ค๋ ๊ฐ์ ํน์ ์ฅ๋น(์ต์ ํ ๋๊ตฌ, Optimizer)๋ฅผ ์ฐฉ์ฉํ๊ณ ์์ต๋๋ค. ํ๋์ ์ต์ ํ ๋๊ตฌ์ธ AdamW๋ Muon์ ๋จ์ํ ๊ฐํ๋ฅธ ๊ณณ์ผ๋ก ๊ฐ๋ ๊ฒ๋ณด๋ค, ๊ณผ๊ฑฐ์ ๋ฐ์๊ตญ(๋ชจ๋ฉํ )์ด๋ ์งํ์ ๊ตด๊ณก์ ๊ณ ๋ คํ์ฌ ๋ณด์ ๋ ๊ฒฝ๋ก๋ก ์ด๋ํ๋๋ก ์ค๊ณ๋์ด ์์ต๋๋ค. ๋ฐ๋ผ์ ์ง๋(๊ธฐ์ธ๊ธฐ)๋ง ๋ณด๊ณ ๊ธธ์ ์ ํ๋ฉด, ์ฅ๋น์ ํน์ฑ์ ์ค์ ๋ก๋ ์ ํ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ํ๊ฒจ ๋๊ฐ๊ฑฐ๋ ํจ์จ์ด ๋จ์ด์ง ์ ์์ต๋๋ค.
OPUS๋ ์ด๋ฌํ ์ฅ๋น์ ํน์ฑ์ ์๋ฒฝํ ์ดํดํ๊ณ ์๋ ์ค๋งํธํ ์ฝ์น์ ๋๋ค. ์ฝ์น๋ ๋จ์ํ ์ง๋์ ๊ฐํ๋ฅธ ์ ๋๋ฅผ ๋ณด๋ ๊ฒ์ด ์๋๋ผ, โ์ด ์ฅ๋น๋ฅผ ์ฐฉ์ฉํ์ ๋ ์ด ๊ธธ์ ์ ํํ๋ฉด ์ค์ ๋ก ๋ชธ์ด ์ด๋๋ก ์ผ๋ง๋ ๋ง์ด ์์ง์ด๊ฒ ๋๋๊ฐ?โ๋ฅผ ์๋ฎฌ๋ ์ด์ ํฉ๋๋ค. ์ฆ, ๋ฐ์ดํฐ๊ฐ ์ฃผ๋ ์ํฅ๋ ฅ์ ์์์ ์ธ ๊ธฐ์ธ๊ธฐ๊ฐ ์๋, ์ต์ ํ ๋๊ตฌ๊ฐ ๋ณด์ ํ ํ์ โ์ค์ ๊ฐฑ์ ๋ฐฉํฅโ์ผ๋ก ๋ฐ๊พธ์ด ํ๋จํฉ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ๊ธฐ์ค ๋ฐฉํฅ ์ค์ : ๋จผ์ ์์ ๊ณ ํ์ง์ ๊ฒ์ฆ ๋ฐ์ดํฐ(Validation Set)๋ฅผ ํตํด โ์ง๊ธ ๋ชจ๋ธ์ด ๋์๊ฐ์ผ ํ ์ด์์ ์ธ ๋ฐฉํฅโ์ ๊ณ์ฐํฉ๋๋ค. ๋ง์น ์ฝ์น๊ฐ โ์ฐ๋ฆฌ๋ ๋ถ์ชฝ์ผ๋ก ๊ฐ์ผ ํดโ๋ผ๊ณ ์ ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
- ์ต์ ํ ๋๊ตฌ์ ๊ธฐํํ ์ดํด: ํ์ฌ ์ฌ์ฉ ์ค์ธ ์ต์ ํ ๋๊ตฌ(Optimizer, ์: AdamW)๊ฐ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ด๋ป๊ฒ ๋ณํ์ํค๋์ง ์ํ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค. SGD๋ผ๋ฉด ๊ทธ๋ฅ ์ง์งํ์ง๋ง, AdamW๋ผ๋ฉด ๋ฐฉํฅ์ ๋๋ฆฌ๊ฑฐ๋ ๋ณดํญ์ ์กฐ์ ํฉ๋๋ค.
- ์์ ๊ฒฝ๋ก ํฌ์(Projection): ํ์ต์ ์ฌ์ฉ๋ ํ๋ณด ๋ฐ์ดํฐ๋ค์ด ์ต์ ํ ๋๊ตฌ๋ฅผ ํตํด ์ค์ ๋ก ๋ชจ๋ธ์ ์ด๋๋ก ์ด๋์ํฌ์ง ์์ธกํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ์์ ๊ฒฝ๋ก๊ฐ ์์ ์ ํ โ์ด์์ ์ธ ๋ฐฉํฅโ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง(๋ด์ , Dot Product) ๊ณ์ฐํ์ฌ ์ ์๋ฅผ ๋งค๊น๋๋ค.
- ๋ค์์ฑ ์๋ ์ ํ: ์ ์๊ฐ ๋์ ๋ฐ์ดํฐ๋ง ๊ณจ๋ผ์ฐ๋ฉด ๋ชจ๋ธ์ด ํน์ ์ข ๋ฅ์ ๋ฌธ์ ์๋ง ์น์ฐ์น ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ง๊ธฐ ์ํด ๋ณผ์ธ ๋ง ์ํ๋ง(Boltzmann Sampling)์ ์ฌ์ฉํ์ฌ ์ ์๊ฐ ๋์ ๋ฐ์ดํฐ๊ฐ ๋ฝํ ํ๋ฅ ์ ๋์ง๋ง, ๋ค์ํ ๋ฐ์ดํฐ๋ ์ด๋ ์ ๋ ์์ฌ ๋ค์ด์ค๋๋ก ํฉ๋๋ค.
ํต์ฌ ์์ ๋ฐ ์๊ณ ๋ฆฌ์ฆ
ํต์ฌ์ โํจ๊ณผ์ ์ธ ๊ฐฑ์ (Effective Update)โ์ ๊ณ์ฐํ๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ๊ธฐ์ธ๊ธฐ $g$ ์์ฒด๋ฅผ ๋ณด์์ง๋ง, OPUS๋ ์ต์ ํ ๋๊ตฌ๊ฐ ๊ฐํ๋ ๋ณํ(Preconditioner, $P_t$)์ ์ ์ฉํ ๊ฐฑ์ ๋ฒกํฐ๋ฅผ ๋ด ๋๋ค.
$$ \Delta \theta_{target} = P_t \cdot g_{val} $$ $$ \Delta \theta_{candidate} = P_t \cdot g_{candidate} $$
์ฌ๊ธฐ์ ์ ์๋ ์ด ๋ ๊ฐฑ์ ๋ฒกํฐ ๊ฐ์ ์ ์ฌ๋(์ฝ์ฌ์ธ ์ ์ฌ๋ ๋ฑ)๋ก ์ ํด์ง๋๋ค. ์ฆ, $Score(\Delta \theta_{candidate}, \Delta \theta_{target})$๋ฅผ ๊ทน๋ํํ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์ต๋๋ค. ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด Ghost ๊ธฐ๋ฒ๊ณผ CountSketch๋ผ๋ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณ์ฐํ์ง ์๊ณ ๋ ๊ทผ์ฌ์น๋ฅผ ๋น ๋ฅด๊ฒ ๊ตฌํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
ํ ์คํธ ๋ฒค์น๋งํฌ ๋ฐ ํ๊ฒฝ
์ฐ๊ตฌ์ง์ ๋ค์ํ ๊ท๋ชจ์ ๋ชจ๋ธ(GPT-2 Large ๋ฐ XL)์ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ง๋ญ์น(Corpus)์ธ Dolma, C4, SlimPajama ๋ฑ์์ ์คํ์ ์งํํ์ต๋๋ค. ํนํ ๋ฐ์ดํฐ์ ํ์ง ์์ค์ด ๋ค๋ฅธ ๊ณ์ธต(Tier)๊ณผ ์๋ก ๋ค๋ฅธ ์ต์ ํ ๋๊ตฌ(SGD, AdamW, Muon)๋ฅผ ๋ชจ๋ ํ ์คํธํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ฑ๋ฅ
OPUS๋ ๊ธฐ์กด์ ๋์ ๋ฐ์ดํฐ ์ ์ ๋ฐฉ์๋ณด๋ค ์ผ๊ด๋๊ฒ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ AdamW๋ Muon๊ณผ ๊ฐ์ ์ ์ํ ์ต์ ํ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ ๋ ๊ธฐ์กด ๋ฐฉ์(๋จ์ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ ์ ์ )๊ณผ์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ๋ ๋ฒ์ด์ก์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋์ผํ ๊ณ์ฐ๋(Compute)์ ์๋นํ์ ๋ OPUS๋ฅผ ์ฌ์ฉํ๋ฉด ์ต์ข ๊ฒ์ฆ ์์ค(Validation Loss)์ด ๋ ๋ฎ์์ก๊ณ , ๋ค์ด์คํธ๋ฆผ ํ๊ฐ์์ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ๋ฐ์ดํฐ ํ์ง์ด ๋ฎ์(Dirty) ๋ฐ์ดํฐ์ ์์์ ์ฑ๋ฅ ํฅ์์ ๋๋ค. ์ข์ ๋ฐ์ดํฐ์ ๋์ ๋ฐ์ดํฐ๊ฐ ์์ฌ ์๋ ์ํฉ์์ OPUS๋ ํ์ต์ ์ ์ตํ ๋ฐ์ดํฐ๋ง ํจ๊ณผ์ ์ผ๋ก ๊ณจ๋ผ๋ด์ด, ์ ์ฒ๋ฆฌ๊ฐ ์ ๋ ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ ๊ฒ๊ณผ ์ ์ฌํ๊ฑฐ๋ ๊ทธ ์ด์์ ์ฑ๋ฅ์ ๋์ต๋๋ค. ๋ํ, ์ด๋ฌํ ์ ๊ตํ ์ ์ ๊ณผ์ ์๋ ๋ถ๊ตฌํ๊ณ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ์ค๋ฒํค๋๋ ๋จ 4.7% ์์ค์ผ๋ก ๋งค์ฐ ํจ์จ์ ์ด๋ผ๋ ์ ์ด ์ค์ฉ์ ์ผ๋ก ๋งค์ฐ ํฐ ๊ฐ์ ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
ํ์ฌ OPUS๋ ํ์ต ์ธํธ(Training Set)์ ๊ฒ์ฆ ์ธํธ(Validation Set)๊ฐ ์๋ก ๊ฒน์น์ง ์๋๋ค๋ ๊ฐ์ ํ์ ์๋ํฉ๋๋ค. ๋ง์ฝ ๊ฒ์ฆ ์ธํธ๊ฐ ํ์ต ์ธํธ์ ์๋ฒฝํ๊ฒ ๋ ๋ฆฝ์ ์ด์ง ์๊ฑฐ๋ ๋ํ์ฑ์ ์์ผ๋ฉด, ๋ชจ๋ธ์ด ์๋ชป๋ ๋ฐฉํฅ์ผ๋ก ์ ๋๋ ์ ์์ต๋๋ค. ๋ํ, ํ์ฌ๋ ๋ฌธ์(Document)๋ ๋ฐฐ์น(Batch) ๋จ์์ ์ ์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ด ํ ํฐ(Token) ๋จ์์ ๋ฏธ์ธํ ์ ์ ๊น์ง๋ ํ์ฅ๋์ง ์์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅ์ฑ ๋ฐ ํฅํ ์ฐ๊ตฌ
์ ์๋ OPUS์ ์์ด๋์ด๋ฅผ ๋จ์ผ ๋ฐ์ดํฐ์ ์ ์ ์ ๋์ด ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ์์ด์ ์ฐ๋ โ๋ฐ์ดํฐ ๋ฏน์ค์ฒ(Data Mixture)โ ์ต์ ํ ๋ฌธ์ ๋ก ํ์ฅํ๋ ๊ฒ์ ์ ์ํ์ต๋๋ค. ๋ํ, ํ์ต ์ด๋ฐ๋ฐ๊ณผ ํ๋ฐ๊ธฐ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ์ ์ฉ์ฑ์ด ๋ฌ๋ผ์ง๋ ์ปค๋ฆฌํ๋ผ ํ์ต(Curriculum Learning) ์ธก๋ฉด์์๋ ์ด ์ต์ ํ ๋๊ตฌ ๊ธฐ๋ฐ์ ์ ๊ทผ ๋ฐฉ์์ด ๋ ์ ๊ตํ๊ฒ ์ ์ฉ๋ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
OPUS๋ ํ์ฌ ๊ณ ํ์ง ๊ณต๊ฐ ํ ์คํธ๊ฐ ๋ถ์กฑํ์ฌ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ด๋ ค์ด ๊ธฐ์ ์ด๋ ์ฐ๊ตฌ์์์ LLM์ ์ฌ์ ํ์ต(Pre-training)ํ ๋ ์ฆ์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ํนํ ๋๋ฉ์ธ ํนํ ๋ฐ์ดํฐ(์๋ฃ, ๋ฒ๋ฅ ๋ฑ)๊ฐ ๋ค์์ธ ๊ฑฐ๋ ๋ฐ์ดํฐ ๋ ์ดํฌ์์ ์๋์ผ๋ก ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ์ฌ ํ์ต ํจ์จ์ ๋์ด๋ ๋ฐ ๋งค์ฐ ์ ์ฉํฉ๋๋ค.
ํ์ํ ๋ฆฌ์์ค
๊ธฐ์กด์ ๋๊ท๋ชจ LLM ํ์ต ํ์ดํ๋ผ์ธ์ ์ต์ ํ ๋๊ตฌ(Optimizer) ๋ถ๋ถ์ ๊ธฐ์ธ๊ธฐ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๋ก์ง๋ง ์ถ๊ฐํ๋ฉด ๋๋ฏ๋ก, ๋ณ๋์ ๊ฑฐ๋ํ ์ธํ๋ผ ๋ณ๊ฒฝ์ ํ์ ์์ต๋๋ค. ๋ค๋ง, ํ์ต ์ค ์ค์๊ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํด์ผ ํ๋ฏ๋ก ์ผ๋ฐ์ ์ธ ์ ์ ํํฐ๋ง๋ณด๋ค๋ ์ฝ๊ฐ์ CPU ๋ฐ GPU ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋๊ฐ ๋ฐ์ํ์ง๋ง(์ฝ 5%), ์ด๋ ์ ์ฒด ํ์ต ๋น์ฉ ๋๋น ๋ฏธ๋ฏธํ ์์ค์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Stochastic Gradient Descent, SGD): ๋ชจ๋ธ์ ์ค์ฐจ๋ฅผ ์ค์ด๊ธฐ ์ํด ๊ธฐ์ธ๊ธฐ๋ฅผ ๋ฐ๋ผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- ์ ์ํ ์ต์ ํ ๋๊ตฌ(Adaptive Optimizer, AdamW ๋ฑ): ํ๋ผ๋ฏธํฐ๋ง๋ค ํ์ต๋ฅ ์ ์กฐ์ ํ๊ฑฐ๋ ๊ณผ๊ฑฐ์ ๊ธฐ์ธ๊ธฐ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต ์๋์ ์์ ์ฑ์ ๋์ด๋ ๊ณ ๊ธ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- ์ฌ์ ํ์ต(Pre-training): ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ธ์ด ๋ชจ๋ธ์ด ์ธ์ด์ ์ผ๋ฐ์ ์ธ ํจํด๊ณผ ์ง์์ ํ์ตํ๋ ๋จ๊ณ์ ๋๋ค.
- ๋ฐ์ดํฐ ์ ์ (Data Selection/ Curation): ํ์ต์ ์ฌ์ฉํ ๋ฐ์ดํฐ ์ค ๊ฐ์ฅ ์ ์ฉํ ๋ฐ์ดํฐ๋ง ๊ณจ๋ผ๋ด๋ ๊ณผ์ ์ผ๋ก, ์ต๊ทผ LLM ์ฑ๋ฅ์ ์ง๋ํ ์ํฅ์ ๋ฏธ์น๋ ์์์ ๋๋ค.
- ํ๋ฆฌ์ปจ๋์ ๋(Preconditioning): ์ต์ ํ ๊ณผ์ ์์ ๊ธฐ์ธ๊ธฐ ๊ณต๊ฐ์ ๋ณํํ์ฌ ์๋ ด ์๋๋ฅผ ๋์ด๋ ๊ธฐ๋ฒ์ผ๋ก, AdamW์ ๊ฐ์ ๋๊ตฌ๋ค์ด ์ด๋ฅผ ์ํํฉ๋๋ค.
- ๊ฒ์ฆ ์ธํธ(Validation Set): ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ํ๋ํ๊ธฐ ์ํด ๋ณ๋๋ก ๋ผ์ด ๋์ ๋ฐ์ดํฐ์ ์ ๋๋ค.
- ๋ณผ์ธ ๋ง ์ํ๋ง(Boltzmann Sampling): ์๋์ง(๋๋ ์ ์)๊ฐ ๋ฎ์ ์ํ๋ ํ๋ฅ ์ ์ผ๋ก ์ ํํ ์ ์๊ฒ ํ์ฌ ๋ค์์ฑ์ ํ๋ณดํ๋ ์ํ๋ง ๋ฐฉ์์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | OPUS: Towards Efficient and Principโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Weak-Driven Learning: How Weak Agenโฆ | DD-022 |
| ๐ฅ | TermiGen: High-Fidelity Environmentโฆ | DD-023 |
| 4. | Code2World: A GUI World Model via Rโฆ | DD-024 |
| 5. | The Devil Behind Moltbook: Anthropiโฆ | DD-025 |
๐ ์์ฑ์ผ: 2026-02-15 | ๐ค GLM-4.7 Deep Dive