โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-026 Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

arXiv: 2602.10388 Upvotes: 219 | Comments: 5 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1

Figure 1


์•ˆ๋…•ํ•˜์„ธ์š”, AI/ML ์ „๋ฌธ๊ฐ€๋กœ์„œ ์ด ๋…ผ๋ฌธ์„ ์ฃผ๋‹ˆ์–ด ๊ฐœ๋ฐœ์ž์˜ ๊ด€์ ์—์„œ ๊นŠ์ด ์žˆ๊ฒŒ ๋ถ„์„ํ•ด ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค. ์š”์ฒญํ•˜์‹  ๋Œ€๋กœ ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šด ๋น„์œ ์™€ ๊ตฌ์ฒด์ ์ธ ์„ค๋ช…์„ ์ค‘์‹ฌ์œผ๋กœ ๋‚ด์šฉ์„ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ ์ธก์ • ๋ฐฉ์‹๋“ค์€ ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ์˜ ํ‘œ๋ฉด์  ์ฐจ์ด(๋‹จ์–ด๋‚˜ ๋ฌธ์žฅ ๊ตฌ์กฐ ๋“ฑ)๋งŒ์„ ๋ณด์•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐ ํ•„์š”ํ•œ ํ•ต์‹ฌ ๊ฐœ๋…๋“ค์„ ๋†“์น˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ํŠน์ง•(Feature) ๊ณต๊ฐ„์—์„œ ๋‹ค์–‘์„ฑ์„ ์ธก์ •ํ•˜๊ณ , ๋ถ€์กฑํ•œ ๋ถ€๋ถ„์„ ์ง‘์ค‘์ ์œผ๋กœ ์ฑ„์›Œ์ฃผ๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜์—ฌ ํ›จ์”ฌ ๋” ํšจ์œจ์ ์œผ๋กœ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์š”๋ฆฌ์‚ฌ ๋ ˆ์‹œํ”ผ ๋น„์œ 

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๋ ค๋ฉด โ€˜์š”๋ฆฌ์‚ฌ ์—ฐ์ˆ˜โ€™๋ฅผ ์ƒ์ƒํ•ด ๋ณด์„ธ์š”. ๊ธฐ์กด ๋ฐฉ์‹์€ ์š”๋ฆฌ์‚ฌ(๋ชจ๋ธ)์—๊ฒŒ ์ˆ˜์ฒœ ๊ฐ€์ง€์˜ ๋‹ค๋ฅธ ์žฌ๋ฃŒ(๋ฐ์ดํ„ฐ)๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋˜์ ธ์ฃผ๋ฉฐ โ€œ์ด๊ฑธ๋กœ ์š”๋ฆฌํ•ด ๋ดโ€๋ผ๊ณ  ์‹œํ‚ค๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ๊ฒ‰๋ณด๊ธฐ์—” ์žฌ๋ฃŒ๊ฐ€ ๋‹ค์–‘ํ•ด ๋ณด์—ฌ๋„, ๋ง›์„ ๋‚ด๋Š” ํ•ต์‹ฌ์ธ โ€˜์†Œ๊ธˆโ€™์ด๋‚˜ โ€˜ํ›„์ถ”โ€™ ๊ฐ™์€ ์กฐ๋ฏธ๋ฃŒ(ํŠน์ง•)๊ฐ€ ๋น ์ ธ ์žˆ๋‹ค๋ฉด ์š”๋ฆฌ์‚ฌ๋Š” ๋ง›์žˆ๋Š” ์š”๋ฆฌ(์ข‹์€ ์„ฑ๋Šฅ)๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•(FAC Synthesis)์€ ์š”๋ฆฌ์‚ฌ์˜ ํ˜€(ํŠน์ง• ๊ณต๊ฐ„)๋ฅผ ๋ถ„์„ํ•ด์„œ โ€œ์•„, ์ด ์š”๋ฆฌ์‚ฌ๋Š” ์‹ ๋ง›์„ ๋‚ด๋Š” ํŠน์ง•์ด ๋ถ€์กฑํ•˜๊ตฌ๋‚˜โ€๋ผ๊ณ  ์ •ํ™•ํžˆ ์ง„๋‹จํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„ ๋ถ€์กฑํ•œ ๋ง›์„ ๋‚ด๋Š” ์žฌ๋ฃŒ๋ฅผ ์ง‘์ค‘์ ์œผ๋กœ ๊ตฌํ•ด์„œ ์š”๋ฆฌ์‚ฌ์—๊ฒŒ ์ฃผ์–ด, ๋” ์ ์€ ์–‘์˜ ์žฌ๋ฃŒ๋กœ๋„ ์™„๋ฒฝํ•œ ๋ง›์„ ๋‚ด๊ฒŒ ๋งŒ๋“œ๋Š” ์ „๋žต์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

  1. ํŠน์ง• ๊ณต๊ฐ„ ๊ตฌ์„ฑ (Sparse Autoencoders ํ™œ์šฉ): ๋จผ์ € ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋‡Œ ์†์„ ๋“ค์—ฌ๋‹ค๋ณด๋Š” ๋„๊ตฌ์ธ ํฌ์†Œ ์ž๋™์ธ์ฝ”๋”(SAE)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์–ด๋–ค ๋‰ด๋Ÿฐ์ด ์–ด๋–ค ๊ฐœ๋…(์˜ˆ: ์•…์˜, ์ฝ”๋”ฉ, ์˜ˆ์˜ ๋“ฑ)์— ๋ฐ˜์‘ํ•˜๋Š”์ง€ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์ง€๋„๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  2. ๊ฒฐ์—ฌ๋œ ํŠน์ง• ์‹๋ณ„ (Missing Features): ํ˜„์žฌ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ(์‹œ๋“œ ๋ฐ์ดํ„ฐ)๋ฅผ ๋ชจ๋ธ์— ๋„ฃ์–ด๋ณด๊ณ , ์œ„ ์ง€๋„์ƒ์—์„œ ์–ด๋А ๋ถ€๋ถ„์ด ํ™œ์„ฑํ™”๋˜์ง€ ์•Š์•˜๋Š”์ง€(๋นˆ ๊ณต๊ฐ„) ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ๋ชจ๋ธ์ด ์•„์ง ๋ฐฐ์šฐ์ง€ ๋ชปํ•œ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค.
  3. ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ (Synthesis): โ€œ์ด ๊ฒฐ์—ฌ๋œ ํŠน์ง•์„ ํ™œ์„ฑํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์žฅ์„ ๋งŒ๋“ค์–ด ์ค˜โ€๋ผ๊ณ  ๋ชจ๋ธ์—๊ฒŒ ์š”์ฒญํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋งŒ๋“  ๋ฐ์ดํ„ฐ๋Š” ๊ธฐ์กด ๋ฐ์ดํ„ฐ์™€ ๊ฒน์น˜์ง€ ์•Š์œผ๋ฉด์„œ๋„ ๋ชจ๋ธ์—๊ฒŒ ๊ผญ ํ•„์š”ํ•œ ์ง€์‹์„ ์ฑ„์›Œ์ค๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์€ ํฌ์†Œ ์ž๋™์ธ์ฝ”๋”(SAE)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, SAE๋Š” ๋‹ค์Œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.

$$ \mathcal{L}{\mathrm{SAE}}=|\textbf{x}-\hat{\textbf{x}}|{2}^{2}+\lambda,|z|_{1} $$

์—ฌ๊ธฐ์„œ $|\textbf{x}-\hat{\textbf{x}}|{2}^{2}$๋Š” ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋ณต์›ํ–ˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , $\lambda,|z|{1}$๋Š” ํŠน์ง• ๋ฒกํ„ฐ $z$๋ฅผ ๊ฐ€๋Šฅํ•œ ํ•œ ํฌ์†Œํ•˜๊ฒŒ(0์ด ๋งŽ๊ฒŒ) ๋งŒ๋“ค์–ด ์ฃผ๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, โ€œ๋ฐ์ดํ„ฐ์˜ ํ•ต์‹ฌ ์˜๋ฏธ๋ฅผ ์žƒ์ง€ ์•Š์œผ๋ฉด์„œ, ๊ฐ€์žฅ ์ ์€ ์ˆ˜์˜ ๋‰ด๋Ÿฐ๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ์„ค๋ช…ํ•ด๋ผโ€๋ผ๊ณ  ๊ฐ•์ œํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๋…ผ๋ฌธ์˜ ๋ณธ๋ฌธ์— ์ œ์‹œ๋œ ์‹คํ—˜ ์„น์…˜(7. Experiments)์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ: ์—ฐ๊ตฌ์ง„์€ ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด 4๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ๊ณผ์ œ๋ฅผ ์„ค์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • Toxicity Detection (์œ ๋…์„ฑ ํƒ์ง€): ๋ชจ๋ธ์ด ์œ ํ•ดํ•œ ์–ธ์–ด๋ฅผ ์ž˜ ๊ฑธ๋Ÿฌ๋‚ด๋Š”์ง€ ํ…Œ์ŠคํŠธ
    • Reward Modeling (๋ณด์ƒ ๋ชจ๋ธ๋ง): ๋ชจ๋ธ์ด ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋ฅผ ์ž˜ ์˜ˆ์ธกํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธ
    • Behavior Steering (ํ–‰๋™ ์กฐ์ •): ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ํŠน์ • ๋ฐฉํ–ฅ์œผ๋กœ ์กฐ์ข…ํ•˜๋Š” ๋Šฅ๋ ฅ ํ…Œ์ŠคํŠธ
    • Instruction Following (๋ช…๋ น ์ˆ˜ํ–‰): ์‚ฌ์šฉ์ž์˜ ์ง€์‹œ๋ฅผ ์ •ํ™•ํžˆ ์ˆ˜ํ–‰ํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธ
  • ์„ฑ๊ณผ ๋น„๊ต: ๋ณธ๋ฌธ์—๋Š” ๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜ ํ…Œ์ด๋ธ”์ด ์ƒ๋žต๋˜์–ด ์žˆ์œผ๋‚˜, ์š”์•ฝ(Abstract)์— ๋”ฐ๋ฅด๋ฉด FAC Synthesis ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ๊ณผ์ œ์—์„œ ์ผ๊ด€๋˜๊ฒŒ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ๊ณผ ํ•˜๋ฅ˜(downstream) ์„ฑ๋Šฅ์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  • ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ: ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ ์–‘์„ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ(Diversity-driven)์ด ์•„๋‹ˆ๋ผ, ๋ชจ๋ธ ๋‚ด๋ถ€์—์„œ โ€˜์ •๋ง ํ•„์š”ํ•œ ํŠน์ง•โ€™์ด ๋ฌด์—‡์ธ์ง€๋ฅผ ์ฐพ์•„๋‚ด์–ด ์ฑ„์›Œ์ฃผ๊ธฐ ๋•Œ๋ฌธ์—, ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ํšจ์œจ์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Œ์ด ์ด๋ก ์ ์œผ๋กœๅ’Œๅฎž่ทต์ ์œผ๋กœ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„: ๋ณธ๋ฌธ์— ๋ช…์‹œ๋œ ์‹คํ—˜ ์„ค์ •(RQ5)์„ ํ†ตํ•ด ์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(ํŠนํžˆ ์ •๊ทœํ™” ๊ณ„์ˆ˜ $\lambda$ ๋“ฑ) ์„ ํƒ์— ์–ผ๋งˆ๋‚˜ ๋ฏผ๊ฐํ•œ์ง€ ํ™•์ธํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ์Šคํ…œ์ด ๋งค๊ฐœ๋ณ€์ˆ˜ ์„ค์ •์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐœ์„  ๊ฐ€๋Šฅ์ : SAE(ํฌ์†Œ ์ž๋™์ธ์ฝ”๋”) ์ž์ฒด์˜ ํ•™์Šต ๋น„์šฉ๊ณผ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ํ•œ๊ณ„๋„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. SAE๊ฐ€ ์ถ”์ถœํ•œ ํŠน์ง•์ด ํ•ญ์ƒ ์ธ๊ฐ„์ด ์ดํ•ดํ•˜๋Š” ์˜๋ฏธ์™€ ์™„๋ฒฝํžˆ ์ผ์น˜ํ•œ๋‹ค๋Š” ๋ณด์žฅ์€ ์—†์œผ๋ฏ€๋กœ, ํŠน์ง• ํ•ด์„์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ํ›„์† ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ์ ์šฉ ๋ถ„์•ผ: ๊ณ ํ’ˆ์งˆ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๊ธฐ ์–ด๋ ค์šด ๋„๋ฉ”์ธ(์˜๋ฃŒ, ๋ฒ•๋ฅ  ๋“ฑ)์ด๋‚˜, ๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ์„ ๊ฐ•ํ™”ํ•ด์•ผ ํ•˜๋Š” Safety Alignment ๋ถ„์•ผ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ ˆ์ด๋ธ”๋ง ๋น„์šฉ์ด ๋น„์‹ผ ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์„ฑํ•˜์—ฌ ๋ณด์™„ํ•  ๋•Œ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค: ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜๋ ค๋ฉด ํƒ€๊ฒŸ LLM์— ๋งž๋Š” SAE๋ฅผ ์‚ฌ์ „์— ํ•™์Šต์‹œ์ผœ์•ผ ํ•˜๋ฏ€๋กœ, ์ดˆ๊ธฐ์— ์ƒ๋‹นํ•œ GPU ์—ฐ์‚ฐ ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ•œ๋ฒˆ SAE๊ฐ€ ์ค€๋น„๋˜๋ฉด, ์ด๋ฅผ ํ™œ์šฉํ•ด ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋ฏ€๋กœ ์žฅ๊ธฐ์ ์œผ๋กœ๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ์„ ์ ˆ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. ํฌ์†Œ ์ž๋™์ธ์ฝ”๋” (Sparse Autoencoder, SAE): ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ–ˆ๋‹ค๊ฐ€ ๋‹ค์‹œ ๋ณต์›ํ•˜๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์˜ ์ผ์ข…์œผ๋กœ, ์ค‘๊ฐ„ ์ธต์˜ ํ™œ์„ฑํ™”๋ฅผ ํฌ์†Œํ•˜๊ฒŒ(0์ด ๋งŽ๊ฒŒ) ๋งŒ๋“ค์–ด ๋ฐ์ดํ„ฐ์˜ ํ•ต์‹ฌ ํŠน์ง•๋งŒ์„ ์ถ”์ถœํ•˜๋„๋ก ํ•™์Šต๋œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  2. ํŠน์ง• ๊ณต๊ฐ„ (Feature Space): ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์ง€๋Š” ๋‹ค์–‘ํ•œ ์†์„ฑ(ํŠน์ง•)๋“ค์„ ์ขŒํ‘œ๋กœ ํ‘œํ˜„ํ•œ ์ถ”์ƒ์ ์ธ ๊ณต๊ฐ„์œผ๋กœ, ์ด ๊ณต๊ฐ„์—์„œ์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์šฐ๋ฉด ๋‘ ๋ฐ์ดํ„ฐ๊ฐ€ ๋น„์Šทํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„๋‹ค๊ณ  ํ•ด์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ์ง€๋„ ํ•™์Šต (Supervised Fine-tuning, SFT): ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์— ๋งž์ถฐ ์ •๋‹ต์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์ถ”๊ฐ€์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  4. ํ™œ์„ฑํ™” (Activation): ์‹ ๊ฒฝ๋ง ๋‚ด์˜ ๋‰ด๋Ÿฐ(๋…ธ๋“œ)์ด ์ž…๋ ฅ์„ ๋ฐ›์•„ ์ถœ๋ ฅ๊ฐ’์„ ๋‚ด๋ณด๋‚ด๋Š” ์ƒํƒœ๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, ํŠน์ • ๊ฐœ๋…์ด ์ž…๋ ฅ๋˜์—ˆ์„ ๋•Œ ๊ด€๋ จ๋œ ๋‰ด๋Ÿฐ์ด ๊ฐ•ํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜๋Š” ๊ฒƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.
  5. ํ•˜์œ„ ๊ณผ์ œ (Downstream Task): ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚จ ํ›„ ์‹ค์ œ๋กœ ์ ์šฉํ•˜๊ณ ์ž ํ•˜๋Š” ์ตœ์ข… ๋ชฉํ‘œ์˜ ๊ณผ์ œ๋“ค์„ ๋งํ•ฉ๋‹ˆ๋‹ค.
  6. ์ž”์ฐจ ์—ฐ๊ฒฐ (Residual Connection): ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ ˆ์ด์–ด๋ฅผ ๊ฑด๋„ˆ๋›ฐ์–ด ๊ทธ๋Œ€๋กœ ์ „๋‹ฌ๋˜๋Š” ๊ตฌ์กฐ๋กœ, SAE ์„ค๋ช…์—์„œ ์–ธ๊ธ‰๋œ $x$์™€ $\hat{x}$์˜ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
  7. ์ผ๋ฐ˜ํ™” ์˜ค์ฐจ (Generalization Error): ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹Œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์—์„œ ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ์ž˜ ์ž‘๋™ํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ์˜ค์ฐจ์œจ์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Less is Enough: Synthesizing Diversโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆSQuTR: A Robustness Benchmark for Sโ€ฆDD-027
๐Ÿฅ‰GLM-5: from Vibe Coding to Agentic โ€ฆDD-028
4.Experiential Reinforcement LearningDD-029
5.MedXIAOHE: A Comprehensive Recipe fโ€ฆDD-030

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-22 | ๐Ÿค– GLM-4.7 Deep Dive