โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-021 OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

arXiv: 2602.05400 Upvotes: 279 | Comments: 0 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1

Figure 1


OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ ์„ ์ • ๋ฐฉ์‹์€ ๋ชจ๋ธ์ด ํ•™์Šต๋˜๋Š” ๊ณผ์ •์„ ๋ฌด์‹œํ•œ ์ฑ„ ๊ณ ์ •๋œ ๊ธฐ์ค€์— ๋”ฐ๋ฅด๊ฑฐ๋‚˜, ๋‹จ์ˆœํžˆ ๊ธฐ์šธ๊ธฐ(Gradient) ์ •๋ณด๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์‹  ์ตœ์ ํ™” ๋„๊ตฌ์ธ AdamW๋‚˜ Muon์˜ ํŠน์„ฑ์„ ๊ณ ๋ คํ•˜์ง€ ๋ชปํ–ˆ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ OPUS๋ผ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์‹ค์ œ๋กœ ๋ชจ๋ธ์ด ์–ด๋–ค ์ตœ์ ํ™” ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐฑ์‹ ํ•˜๋Š”์ง€๋ฅผ ๊ณ ๋ คํ•œ โ€˜๊ฐฑ์‹  ๊ณต๊ฐ„(Update Space)โ€˜์—์„œ ๋ฐ์ดํ„ฐ์˜ ์œ ์šฉ์„ฑ์„ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณ ๊ฐˆ๋˜๋Š” ์‹œ๋Œ€์— ํšจ์œจ์ ์ด๊ณ  ์›์น™์ ์ธ ๋ฐ์ดํ„ฐ ์„ ์ •์ด ๊ฐ€๋Šฅํ•ด์ ธ, ๊ณ„์‚ฐ ์ž์›์„ ๋” ๋‚ญ๋น„ ์—†์ด ์„ฑ๋Šฅ์œผ๋กœ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ง€ํ˜•์„ ๊ณ ๋ คํ•œ ์ฝ”์น˜์˜ ์ „๋žต

๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์„ ๊ฑฐ๋Œ€ํ•œ ์‚ฐ์•… ์ง€ํ˜•์—์„œ ๋ชฉํ‘œ ์ง€์ (์ตœ์ ์˜ ์„ฑ๋Šฅ)์„ ์ฐพ์•„ ๋‚ด๋ ค๊ฐ€๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ์ƒ์ƒํ•ด ๋ด…์‹œ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹(๋™์  ์„ ์ •)์€ ๋‹จ์ˆœํžˆ โ€œ๊ฐ€์žฅ ๊ฐ€ํŒŒ๋ฅธ ๊ณณ์„ ์ฐพ์•„๋ผโ€๋ผ๋Š” ์ง€๋„(๊ธฐ์šธ๊ธฐ, Gradient)๋งŒ ๋ณด๊ณ  ๋“ฑ์‚ฐ ์ฝ”์Šค๋ฅผ ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ ๋“ฑ๋ฐ˜๊ฐ€๋Š” ๋งจ๋ชธ์œผ๋กœ ๊ฑท๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ”ผํ† ๋‹ˆ์Šค๋‚˜ ๊ฐ™์€ ํŠน์ˆ˜ ์žฅ๋น„(์ตœ์ ํ™” ๋„๊ตฌ, Optimizer)๋ฅผ ์ฐฉ์šฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ˜„๋Œ€์˜ ์ตœ์ ํ™” ๋„๊ตฌ์ธ AdamW๋‚˜ Muon์€ ๋‹จ์ˆœํžˆ ๊ฐ€ํŒŒ๋ฅธ ๊ณณ์œผ๋กœ ๊ฐ€๋Š” ๊ฒƒ๋ณด๋‹ค, ๊ณผ๊ฑฐ์˜ ๋ฐœ์ž๊ตญ(๋ชจ๋ฉ˜ํ…€)์ด๋‚˜ ์ง€ํ˜•์˜ ๊ตด๊ณก์„ ๊ณ ๋ คํ•˜์—ฌ ๋ณด์ •๋œ ๊ฒฝ๋กœ๋กœ ์ด๋™ํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ง€๋„(๊ธฐ์šธ๊ธฐ)๋งŒ ๋ณด๊ณ  ๊ธธ์„ ์ •ํ•˜๋ฉด, ์žฅ๋น„์˜ ํŠน์„ฑ์ƒ ์‹ค์ œ๋กœ๋Š” ์ „ํ˜€ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ํŠ•๊ฒจ ๋‚˜๊ฐ€๊ฑฐ๋‚˜ ํšจ์œจ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

OPUS๋Š” ์ด๋Ÿฌํ•œ ์žฅ๋น„์˜ ํŠน์„ฑ์„ ์™„๋ฒฝํžˆ ์ดํ•ดํ•˜๊ณ  ์žˆ๋Š” ์Šค๋งˆํŠธํ•œ ์ฝ”์น˜์ž…๋‹ˆ๋‹ค. ์ฝ”์น˜๋Š” ๋‹จ์ˆœํžˆ ์ง€๋„์˜ ๊ฐ€ํŒŒ๋ฅธ ์ •๋„๋ฅผ ๋ณด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, โ€œ์ด ์žฅ๋น„๋ฅผ ์ฐฉ์šฉํ–ˆ์„ ๋•Œ ์ด ๊ธธ์„ ์„ ํƒํ•˜๋ฉด ์‹ค์ œ๋กœ ๋ชธ์ด ์–ด๋””๋กœ ์–ผ๋งˆ๋‚˜ ๋งŽ์ด ์›€์ง์ด๊ฒŒ ๋˜๋Š”๊ฐ€?โ€๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ๋Š” ์˜ํ–ฅ๋ ฅ์„ ์›์‹œ์ ์ธ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์•„๋‹Œ, ์ตœ์ ํ™” ๋„๊ตฌ๊ฐ€ ๋ณด์ •ํ•œ ํ›„์˜ โ€˜์‹ค์ œ ๊ฐฑ์‹  ๋ฐฉํ–ฅโ€™์œผ๋กœ ๋ฐ”๊พธ์–ด ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ๊ธฐ์ค€ ๋ฐฉํ–ฅ ์„ค์ •: ๋จผ์ € ์ž‘์€ ๊ณ ํ’ˆ์งˆ์˜ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ(Validation Set)๋ฅผ ํ†ตํ•ด โ€œ์ง€๊ธˆ ๋ชจ๋ธ์ด ๋‚˜์•„๊ฐ€์•ผ ํ•  ์ด์ƒ์ ์ธ ๋ฐฉํ–ฅโ€์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์ฝ”์น˜๊ฐ€ โ€œ์šฐ๋ฆฌ๋Š” ๋ถ์ชฝ์œผ๋กœ ๊ฐ€์•ผ ํ•ดโ€๋ผ๊ณ  ์ •ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.
  2. ์ตœ์ ํ™” ๋„๊ตฌ์˜ ๊ธฐํ•˜ํ•™ ์ดํ•ด: ํ˜„์žฌ ์‚ฌ์šฉ ์ค‘์ธ ์ตœ์ ํ™” ๋„๊ตฌ(Optimizer, ์˜ˆ: AdamW)๊ฐ€ ๊ธฐ์šธ๊ธฐ๋ฅผ ์–ด๋–ป๊ฒŒ ๋ณ€ํ˜•์‹œํ‚ค๋Š”์ง€ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. SGD๋ผ๋ฉด ๊ทธ๋ƒฅ ์ง์ง„ํ•˜์ง€๋งŒ, AdamW๋ผ๋ฉด ๋ฐฉํ–ฅ์„ ๋Œ๋ฆฌ๊ฑฐ๋‚˜ ๋ณดํญ์„ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค.
  3. ์˜ˆ์ƒ ๊ฒฝ๋กœ ํˆฌ์˜(Projection): ํ•™์Šต์— ์‚ฌ์šฉ๋  ํ›„๋ณด ๋ฐ์ดํ„ฐ๋“ค์ด ์ตœ์ ํ™” ๋„๊ตฌ๋ฅผ ํ†ตํ•ด ์‹ค์ œ๋กœ ๋ชจ๋ธ์„ ์–ด๋””๋กœ ์ด๋™์‹œํ‚ฌ์ง€ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ์˜ˆ์ƒ ๊ฒฝ๋กœ๊ฐ€ ์•ž์„œ ์ •ํ•œ โ€˜์ด์ƒ์ ์ธ ๋ฐฉํ–ฅโ€™๊ณผ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ํ•˜๋Š”์ง€(๋‚ด์ , Dot Product) ๊ณ„์‚ฐํ•˜์—ฌ ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค.
  4. ๋‹ค์–‘์„ฑ ์žˆ๋Š” ์„ ํƒ: ์ ์ˆ˜๊ฐ€ ๋†’์€ ๋ฐ์ดํ„ฐ๋งŒ ๊ณจ๋ผ์“ฐ๋ฉด ๋ชจ๋ธ์ด ํŠน์ • ์ข…๋ฅ˜์˜ ๋ฌธ์ œ์—๋งŒ ์น˜์šฐ์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ง‰๊ธฐ ์œ„ํ•ด ๋ณผ์ธ ๋งŒ ์ƒ˜ํ”Œ๋ง(Boltzmann Sampling)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ ์ˆ˜๊ฐ€ ๋†’์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฝ‘ํž ํ™•๋ฅ ์€ ๋†’์ง€๋งŒ, ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋„ ์–ด๋А ์ •๋„ ์„ž์—ฌ ๋“ค์–ด์˜ค๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜

ํ•ต์‹ฌ์€ โ€˜ํšจ๊ณผ์ ์ธ ๊ฐฑ์‹ (Effective Update)โ€˜์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ๊ธฐ์šธ๊ธฐ $g$ ์ž์ฒด๋ฅผ ๋ณด์•˜์ง€๋งŒ, OPUS๋Š” ์ตœ์ ํ™” ๋„๊ตฌ๊ฐ€ ๊ฐ€ํ•˜๋Š” ๋ณ€ํ™˜(Preconditioner, $P_t$)์„ ์ ์šฉํ•œ ๊ฐฑ์‹  ๋ฒกํ„ฐ๋ฅผ ๋ด…๋‹ˆ๋‹ค.

$$ \Delta \theta_{target} = P_t \cdot g_{val} $$ $$ \Delta \theta_{candidate} = P_t \cdot g_{candidate} $$

์—ฌ๊ธฐ์„œ ์ ์ˆ˜๋Š” ์ด ๋‘ ๊ฐฑ์‹  ๋ฒกํ„ฐ ๊ฐ„์˜ ์œ ์‚ฌ๋„(์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๋“ฑ)๋กœ ์ •ํ•ด์ง‘๋‹ˆ๋‹ค. ์ฆ‰, $Score(\Delta \theta_{candidate}, \Delta \theta_{target})$๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค. ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด Ghost ๊ธฐ๋ฒ•๊ณผ CountSketch๋ผ๋Š” ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณ„์‚ฐํ•˜์ง€ ์•Š๊ณ ๋„ ๊ทผ์‚ฌ์น˜๋ฅผ ๋น ๋ฅด๊ฒŒ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ ๋ฐ ํ™˜๊ฒฝ

์—ฐ๊ตฌ์ง„์€ ๋‹ค์–‘ํ•œ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ(GPT-2 Large ๋ฐ XL)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ง๋ญ‰์น˜(Corpus)์ธ Dolma, C4, SlimPajama ๋“ฑ์—์„œ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ ์ˆ˜์ค€์ด ๋‹ค๋ฅธ ๊ณ„์ธต(Tier)๊ณผ ์„œ๋กœ ๋‹ค๋ฅธ ์ตœ์ ํ™” ๋„๊ตฌ(SGD, AdamW, Muon)๋ฅผ ๋ชจ๋‘ ํ…Œ์ŠคํŠธํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด SOTA(State-of-the-art) ๋Œ€๋น„ ์„ฑ๋Šฅ

OPUS๋Š” ๊ธฐ์กด์˜ ๋™์  ๋ฐ์ดํ„ฐ ์„ ์ • ๋ฐฉ์‹๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ AdamW๋‚˜ Muon๊ณผ ๊ฐ™์€ ์ ์‘ํ˜• ์ตœ์ ํ™” ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ๊ธฐ์กด ๋ฐฉ์‹(๋‹จ์ˆœ ๊ธฐ์šธ๊ธฐ ๊ธฐ๋ฐ˜ ์„ ์ •)๊ณผ์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๊ฐ€ ๋” ๋ฒŒ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์ผํ•œ ๊ณ„์‚ฐ๋Ÿ‰(Compute)์„ ์†Œ๋น„ํ–ˆ์„ ๋•Œ OPUS๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ตœ์ข… ๊ฒ€์ฆ ์†์‹ค(Validation Loss)์ด ๋” ๋‚ฎ์•„์กŒ๊ณ , ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€์—์„œ ๋” ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์ด ๋‚ฎ์€(Dirty) ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ž…๋‹ˆ๋‹ค. ์ข‹์€ ๋ฐ์ดํ„ฐ์™€ ๋‚˜์œ ๋ฐ์ดํ„ฐ๊ฐ€ ์„ž์—ฌ ์žˆ๋Š” ์ƒํ™ฉ์—์„œ OPUS๋Š” ํ•™์Šต์— ์œ ์ตํ•œ ๋ฐ์ดํ„ฐ๋งŒ ํšจ๊ณผ์ ์œผ๋กœ ๊ณจ๋ผ๋‚ด์–ด, ์ „์ฒ˜๋ฆฌ๊ฐ€ ์ž˜ ๋œ ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉํ•œ ๊ฒƒ๊ณผ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ๊ทธ ์ด์ƒ์˜ ์„ฑ๋Šฅ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด๋Ÿฌํ•œ ์ •๊ตํ•œ ์„ ์ • ๊ณผ์ •์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๋Š” ๋‹จ 4.7% ์ˆ˜์ค€์œผ๋กœ ๋งค์šฐ ํšจ์œจ์ ์ด๋ผ๋Š” ์ ์ด ์‹ค์šฉ์ ์œผ๋กœ ๋งค์šฐ ํฐ ๊ฐ•์ ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

ํ˜„์žฌ OPUS๋Š” ํ•™์Šต ์„ธํŠธ(Training Set)์™€ ๊ฒ€์ฆ ์„ธํŠธ(Validation Set)๊ฐ€ ์„œ๋กœ ๊ฒน์น˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฐ€์ •ํ•˜์— ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๊ฒ€์ฆ ์„ธํŠธ๊ฐ€ ํ•™์Šต ์„ธํŠธ์™€ ์™„๋ฒฝํ•˜๊ฒŒ ๋…๋ฆฝ์ ์ด์ง€ ์•Š๊ฑฐ๋‚˜ ๋Œ€ํ‘œ์„ฑ์„ ์žƒ์œผ๋ฉด, ๋ชจ๋ธ์ด ์ž˜๋ชป๋œ ๋ฐฉํ–ฅ์œผ๋กœ ์œ ๋„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ๋Š” ๋ฌธ์„œ(Document)๋‚˜ ๋ฐฐ์น˜(Batch) ๋‹จ์œ„์˜ ์„ ์ •์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์–ด ํ† ํฐ(Token) ๋‹จ์œ„์˜ ๋ฏธ์„ธํ•œ ์„ ์ •๊นŒ์ง€๋Š” ํ™•์žฅ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ

์ €์ž๋Š” OPUS์˜ ์•„์ด๋””์–ด๋ฅผ ๋‹จ์ผ ๋ฐ์ดํ„ฐ์…‹ ์„ ์ •์„ ๋„˜์–ด ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์…‹์„ ์„ž์–ด์„œ ์“ฐ๋Š” โ€˜๋ฐ์ดํ„ฐ ๋ฏน์Šค์ฒ˜(Data Mixture)โ€™ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ•™์Šต ์ดˆ๋ฐ˜๋ฐ˜๊ณผ ํ›„๋ฐ˜๊ธฐ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ์˜ ์œ ์šฉ์„ฑ์ด ๋‹ฌ๋ผ์ง€๋Š” ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต(Curriculum Learning) ์ธก๋ฉด์—์„œ๋„ ์ด ์ตœ์ ํ™” ๋„๊ตฌ ๊ธฐ๋ฐ˜์˜ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋” ์ •๊ตํ•˜๊ฒŒ ์ ์šฉ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ถ„์•ผ

OPUS๋Š” ํ˜„์žฌ ๊ณ ํ’ˆ์งˆ ๊ณต๊ฐœ ํ…์ŠคํŠธ๊ฐ€ ๋ถ€์กฑํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ์–ด๋ ค์šด ๊ธฐ์—…์ด๋‚˜ ์—ฐ๊ตฌ์†Œ์—์„œ LLM์„ ์‚ฌ์ „ ํ•™์Šต(Pre-training)ํ•  ๋•Œ ์ฆ‰์‹œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋„๋ฉ”์ธ ํŠนํ™” ๋ฐ์ดํ„ฐ(์˜๋ฃŒ, ๋ฒ•๋ฅ  ๋“ฑ)๊ฐ€ ๋’ค์„ž์ธ ๊ฑฐ๋Œ€ ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ์—์„œ ์ž๋™์œผ๋กœ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ ๋†’์ด๋Š” ๋ฐ ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ LLM ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์— ์ตœ์ ํ™” ๋„๊ตฌ(Optimizer) ๋ถ€๋ถ„์˜ ๊ธฐ์šธ๊ธฐ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋กœ์ง๋งŒ ์ถ”๊ฐ€ํ•˜๋ฉด ๋˜๋ฏ€๋กœ, ๋ณ„๋„์˜ ๊ฑฐ๋Œ€ํ•œ ์ธํ”„๋ผ ๋ณ€๊ฒฝ์€ ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ํ•™์Šต ์ค‘ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„ํ„ฐ๋งํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์ผ๋ฐ˜์ ์ธ ์ •์  ํ•„ํ„ฐ๋ง๋ณด๋‹ค๋Š” ์•ฝ๊ฐ„์˜ CPU ๋ฐ GPU ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๋ฐœ์ƒํ•˜์ง€๋งŒ(์•ฝ 5%), ์ด๋Š” ์ „์ฒด ํ•™์Šต ๋น„์šฉ ๋Œ€๋น„ ๋ฏธ๋ฏธํ•œ ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Stochastic Gradient Descent, SGD): ๋ชจ๋ธ์˜ ์˜ค์ฐจ๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๊ธฐ์šธ๊ธฐ๋ฅผ ๋”ฐ๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  2. ์ ์‘ํ˜• ์ตœ์ ํ™” ๋„๊ตฌ(Adaptive Optimizer, AdamW ๋“ฑ): ํŒŒ๋ผ๋ฏธํ„ฐ๋งˆ๋‹ค ํ•™์Šต๋ฅ ์„ ์กฐ์ ˆํ•˜๊ฑฐ๋‚˜ ๊ณผ๊ฑฐ์˜ ๊ธฐ์šธ๊ธฐ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ์†๋„์™€ ์•ˆ์ •์„ฑ์„ ๋†’์ด๋Š” ๊ณ ๊ธ‰ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  3. ์‚ฌ์ „ ํ•™์Šต(Pre-training): ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ์ด ์–ธ์–ด์˜ ์ผ๋ฐ˜์ ์ธ ํŒจํ„ด๊ณผ ์ง€์‹์„ ํ•™์Šตํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.
  4. ๋ฐ์ดํ„ฐ ์„ ์ •(Data Selection/ Curation): ํ•™์Šต์— ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ ์ค‘ ๊ฐ€์žฅ ์œ ์šฉํ•œ ๋ฐ์ดํ„ฐ๋งŒ ๊ณจ๋ผ๋‚ด๋Š” ๊ณผ์ •์œผ๋กœ, ์ตœ๊ทผ LLM ์„ฑ๋Šฅ์— ์ง€๋Œ€ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ์š”์†Œ์ž…๋‹ˆ๋‹ค.
  5. ํ”„๋ฆฌ์ปจ๋””์…”๋‹(Preconditioning): ์ตœ์ ํ™” ๊ณผ์ •์—์„œ ๊ธฐ์šธ๊ธฐ ๊ณต๊ฐ„์„ ๋ณ€ํ˜•ํ•˜์—ฌ ์ˆ˜๋ ด ์†๋„๋ฅผ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, AdamW์™€ ๊ฐ™์€ ๋„๊ตฌ๋“ค์ด ์ด๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
  6. ๊ฒ€์ฆ ์„ธํŠธ(Validation Set): ๋ชจ๋ธ์˜ ํ•™์Šต ๊ณผ์ •์—์„œ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ณ  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํŠœ๋‹ํ•˜๊ธฐ ์œ„ํ•ด ๋ณ„๋„๋กœ ๋–ผ์–ด ๋†“์€ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค.
  7. ๋ณผ์ธ ๋งŒ ์ƒ˜ํ”Œ๋ง(Boltzmann Sampling): ์—๋„ˆ์ง€(๋˜๋Š” ์ ์ˆ˜)๊ฐ€ ๋‚ฎ์€ ์ƒํƒœ๋„ ํ™•๋ฅ ์ ์œผ๋กœ ์„ ํƒํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•˜๋Š” ์ƒ˜ํ”Œ๋ง ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡OPUS: Towards Efficient and Principโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆWeak-Driven Learning: How Weak Agenโ€ฆDD-022
๐Ÿฅ‰TermiGen: High-Fidelity Environmentโ€ฆDD-023
4.Code2World: A GUI World Model via Rโ€ฆDD-024
5.The Devil Behind Moltbook: Anthropiโ€ฆDD-025

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-15 | ๐Ÿค– GLM-4.7 Deep Dive