โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-026 Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs
arXiv: 2602.10388 Upvotes: 219 | Comments: 5 ์์: ์ด๋ฒ ์ฃผ Top 1

์๋ ํ์ธ์, AI/ML ์ ๋ฌธ๊ฐ๋ก์ ์ด ๋ ผ๋ฌธ์ ์ฃผ๋์ด ๊ฐ๋ฐ์์ ๊ด์ ์์ ๊น์ด ์๊ฒ ๋ถ์ํด ๋๋ฆฌ๊ฒ ์ต๋๋ค. ์์ฒญํ์ ๋๋ก ์ดํดํ๊ธฐ ์ฌ์ด ๋น์ ์ ๊ตฌ์ฒด์ ์ธ ์ค๋ช ์ ์ค์ฌ์ผ๋ก ๋ด์ฉ์ ๊ตฌ์ฑํ์ต๋๋ค.
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฐ์ดํฐ ๋ค์์ฑ ์ธก์ ๋ฐฉ์๋ค์ ๋จ์ํ ํ ์คํธ์ ํ๋ฉด์ ์ฐจ์ด(๋จ์ด๋ ๋ฌธ์ฅ ๊ตฌ์กฐ ๋ฑ)๋ง์ ๋ณด์๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ด ์ค์ ๋ก ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ํ์ํ ํต์ฌ ๊ฐ๋ ๋ค์ ๋์น๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ๋ด๋ถ ํน์ง(Feature) ๊ณต๊ฐ์์ ๋ค์์ฑ์ ์ธก์ ํ๊ณ , ๋ถ์กฑํ ๋ถ๋ถ์ ์ง์ค์ ์ผ๋ก ์ฑ์์ฃผ๋ ๋ฐฉ์์ ์ ์ํ์ฌ ํจ์ฌ ๋ ํจ์จ์ ์ผ๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆด ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์๋ฆฌ์ฌ ๋ ์ํผ ๋น์
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๋ ค๋ฉด โ์๋ฆฌ์ฌ ์ฐ์โ๋ฅผ ์์ํด ๋ณด์ธ์. ๊ธฐ์กด ๋ฐฉ์์ ์๋ฆฌ์ฌ(๋ชจ๋ธ)์๊ฒ ์์ฒ ๊ฐ์ง์ ๋ค๋ฅธ ์ฌ๋ฃ(๋ฐ์ดํฐ)๋ฅผ ๋ฌด์์๋ก ๋์ ธ์ฃผ๋ฉฐ โ์ด๊ฑธ๋ก ์๋ฆฌํด ๋ดโ๋ผ๊ณ ์ํค๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ๊ฒ๋ณด๊ธฐ์ ์ฌ๋ฃ๊ฐ ๋ค์ํด ๋ณด์ฌ๋, ๋ง์ ๋ด๋ ํต์ฌ์ธ โ์๊ธโ์ด๋ โํ์ถโ ๊ฐ์ ์กฐ๋ฏธ๋ฃ(ํน์ง)๊ฐ ๋น ์ ธ ์๋ค๋ฉด ์๋ฆฌ์ฌ๋ ๋ง์๋ ์๋ฆฌ(์ข์ ์ฑ๋ฅ)๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค.
๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ(FAC Synthesis)์ ์๋ฆฌ์ฌ์ ํ(ํน์ง ๊ณต๊ฐ)๋ฅผ ๋ถ์ํด์ โ์, ์ด ์๋ฆฌ์ฌ๋ ์ ๋ง์ ๋ด๋ ํน์ง์ด ๋ถ์กฑํ๊ตฌ๋โ๋ผ๊ณ ์ ํํ ์ง๋จํฉ๋๋ค. ๊ทธ ํ ๋ถ์กฑํ ๋ง์ ๋ด๋ ์ฌ๋ฃ๋ฅผ ์ง์ค์ ์ผ๋ก ๊ตฌํด์ ์๋ฆฌ์ฌ์๊ฒ ์ฃผ์ด, ๋ ์ ์ ์์ ์ฌ๋ฃ๋ก๋ ์๋ฒฝํ ๋ง์ ๋ด๊ฒ ๋ง๋๋ ์ ๋ต์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๊ณผ์
- ํน์ง ๊ณต๊ฐ ๊ตฌ์ฑ (Sparse Autoencoders ํ์ฉ): ๋จผ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ ์์ ๋ค์ฌ๋ค๋ณด๋ ๋๊ตฌ์ธ ํฌ์ ์๋์ธ์ฝ๋(SAE)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ๋ ์ด๋ค ๋ด๋ฐ์ด ์ด๋ค ๊ฐ๋ (์: ์ ์, ์ฝ๋ฉ, ์์ ๋ฑ)์ ๋ฐ์ํ๋์ง ํด์ ๊ฐ๋ฅํ ์ง๋๋ก ๋ง๋ญ๋๋ค.
- ๊ฒฐ์ฌ๋ ํน์ง ์๋ณ (Missing Features): ํ์ฌ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ(์๋ ๋ฐ์ดํฐ)๋ฅผ ๋ชจ๋ธ์ ๋ฃ์ด๋ณด๊ณ , ์ ์ง๋์์์ ์ด๋ ๋ถ๋ถ์ด ํ์ฑํ๋์ง ์์๋์ง(๋น ๊ณต๊ฐ) ์ฐพ์๋ ๋๋ค. ์ด๊ฒ์ด ๋ชจ๋ธ์ด ์์ง ๋ฐฐ์ฐ์ง ๋ชปํ ๊ฐ๋ ์ ๋๋ค.
- ๋ฐ์ดํฐ ํฉ์ฑ (Synthesis): โ์ด ๊ฒฐ์ฌ๋ ํน์ง์ ํ์ฑํ์ํฌ ์ ์๋ ๋ฌธ์ฅ์ ๋ง๋ค์ด ์คโ๋ผ๊ณ ๋ชจ๋ธ์๊ฒ ์์ฒญํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ ๊ฒ ๋ง๋ ๋ฐ์ดํฐ๋ ๊ธฐ์กด ๋ฐ์ดํฐ์ ๊ฒน์น์ง ์์ผ๋ฉด์๋ ๋ชจ๋ธ์๊ฒ ๊ผญ ํ์ํ ์ง์์ ์ฑ์์ค๋๋ค.
ํต์ฌ ์์ ๋ฐ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ํฌ์ ์๋์ธ์ฝ๋(SAE)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, SAE๋ ๋ค์ ์์ค ํจ์๋ฅผ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ํ์ต๋ฉ๋๋ค.
$$ \mathcal{L}{\mathrm{SAE}}=|\textbf{x}-\hat{\textbf{x}}|{2}^{2}+\lambda,|z|_{1} $$
์ฌ๊ธฐ์ $|\textbf{x}-\hat{\textbf{x}}|{2}^{2}$๋ ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ์ ๋ณต์ํ๋์ง๋ฅผ ๋ํ๋ด๊ณ , $\lambda,|z|{1}$๋ ํน์ง ๋ฒกํฐ $z$๋ฅผ ๊ฐ๋ฅํ ํ ํฌ์ํ๊ฒ(0์ด ๋ง๊ฒ) ๋ง๋ค์ด ์ฃผ๋ ์ญํ ์ ํฉ๋๋ค. ์ฆ, โ๋ฐ์ดํฐ์ ํต์ฌ ์๋ฏธ๋ฅผ ์์ง ์์ผ๋ฉด์, ๊ฐ์ฅ ์ ์ ์์ ๋ด๋ฐ๋ง ์ฌ์ฉํ์ฌ ์ค๋ช ํด๋ผโ๋ผ๊ณ ๊ฐ์ ํ๋ ๊ฒ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ ผ๋ฌธ์ ๋ณธ๋ฌธ์ ์ ์๋ ์คํ ์น์ (7. Experiments)์ ๋ฐํ์ผ๋ก ๋ถ์ํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ํ
์คํธ ๋ฒค์น๋งํฌ: ์ฐ๊ตฌ์ง์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด 4๊ฐ์ง ๋ํ์ ์ธ ๊ณผ์ ๋ฅผ ์ค์ ํ์ต๋๋ค.
- Toxicity Detection (์ ๋ ์ฑ ํ์ง): ๋ชจ๋ธ์ด ์ ํดํ ์ธ์ด๋ฅผ ์ ๊ฑธ๋ฌ๋ด๋์ง ํ ์คํธ
- Reward Modeling (๋ณด์ ๋ชจ๋ธ๋ง): ๋ชจ๋ธ์ด ์ธ๊ฐ์ ์ ํธ๋ฅผ ์ ์์ธกํ๋์ง ํ ์คํธ
- Behavior Steering (ํ๋ ์กฐ์ ): ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํน์ ๋ฐฉํฅ์ผ๋ก ์กฐ์ข ํ๋ ๋ฅ๋ ฅ ํ ์คํธ
- Instruction Following (๋ช ๋ น ์ํ): ์ฌ์ฉ์์ ์ง์๋ฅผ ์ ํํ ์ํํ๋์ง ํ ์คํธ
- ์ฑ๊ณผ ๋น๊ต: ๋ณธ๋ฌธ์๋ ๊ตฌ์ฒด์ ์ธ ์์น ํ ์ด๋ธ์ด ์๋ต๋์ด ์์ผ๋, ์์ฝ(Abstract)์ ๋ฐ๋ฅด๋ฉด FAC Synthesis ํ๋ ์์ํฌ๋ ์ด๋ฌํ ๋ค์ํ ๊ณผ์ ์์ ์ผ๊ด๋๊ฒ ๋ฐ์ดํฐ ๋ค์์ฑ๊ณผ ํ๋ฅ(downstream) ์ฑ๋ฅ์ ๋ชจ๋ ํฅ์์์ผฐ์ต๋๋ค.
- ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ: ๋จ์ํ ๋ฐ์ดํฐ ์์ ๋๋ฆฌ๋ ๊ฒ(Diversity-driven)์ด ์๋๋ผ, ๋ชจ๋ธ ๋ด๋ถ์์ โ์ ๋ง ํ์ํ ํน์งโ์ด ๋ฌด์์ธ์ง๋ฅผ ์ฐพ์๋ด์ด ์ฑ์์ฃผ๊ธฐ ๋๋ฌธ์, ์ ์ ๋ฐ์ดํฐ๋ก๋ ํจ์จ์ ์ผ๋ก ์ฑ๋ฅ์ ๋์ผ ์ ์์์ด ์ด๋ก ์ ์ผ๋กๅๅฎ่ทต์ ์ผ๋ก ์ ์ฆ๋์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ ์๊ฐ ์ธ๊ธํ ํ๊ณ: ๋ณธ๋ฌธ์ ๋ช ์๋ ์คํ ์ค์ (RQ5)์ ํตํด ์ ์๋ ํ๋ ์์ํฌ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ(ํนํ ์ ๊ทํ ๊ณ์ $\lambda$ ๋ฑ) ์ ํ์ ์ผ๋ง๋ ๋ฏผ๊ฐํ์ง ํ์ธํ๊ณ ์์ต๋๋ค. ์ด๋ ์์คํ ์ด ๋งค๊ฐ๋ณ์ ์ค์ ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์์์ ์์ฌํฉ๋๋ค.
- ๊ฐ์ ๊ฐ๋ฅ์ : SAE(ํฌ์ ์๋์ธ์ฝ๋) ์์ฒด์ ํ์ต ๋น์ฉ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ ํ๊ณ๋ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. SAE๊ฐ ์ถ์ถํ ํน์ง์ด ํญ์ ์ธ๊ฐ์ด ์ดํดํ๋ ์๋ฏธ์ ์๋ฒฝํ ์ผ์นํ๋ค๋ ๋ณด์ฅ์ ์์ผ๋ฏ๋ก, ํน์ง ํด์์ ์ ํ๋๋ฅผ ๋์ด๋ ํ์ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
- ์ ์ฉ ๋ถ์ผ: ๊ณ ํ์ง์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๊ธฐ ์ด๋ ค์ด ๋๋ฉ์ธ(์๋ฃ, ๋ฒ๋ฅ ๋ฑ)์ด๋, ๋ชจ๋ธ์ ์์ ์ฑ์ ๊ฐํํด์ผ ํ๋ Safety Alignment ๋ถ์ผ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ ๋ ์ด๋ธ๋ง ๋น์ฉ์ด ๋น์ผ ๋ฐ์ดํฐ๋ฅผ ํฉ์ฑํ์ฌ ๋ณด์ํ ๋ ์ ์ฉํฉ๋๋ค.
- ํ์ํ ๋ฆฌ์์ค: ์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ๋ ค๋ฉด ํ๊ฒ LLM์ ๋ง๋ SAE๋ฅผ ์ฌ์ ์ ํ์ต์์ผ์ผ ํ๋ฏ๋ก, ์ด๊ธฐ์ ์๋นํ GPU ์ฐ์ฐ ์์์ด ํ์ํฉ๋๋ค. ํ์ง๋ง ํ๋ฒ SAE๊ฐ ์ค๋น๋๋ฉด, ์ด๋ฅผ ํ์ฉํด ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ฏ๋ก ์ฅ๊ธฐ์ ์ผ๋ก๋ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ์ ๊ฐํ ์ ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ํฌ์ ์๋์ธ์ฝ๋ (Sparse Autoencoder, SAE): ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์์ถํ๋ค๊ฐ ๋ค์ ๋ณต์ํ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ผ์ข ์ผ๋ก, ์ค๊ฐ ์ธต์ ํ์ฑํ๋ฅผ ํฌ์ํ๊ฒ(0์ด ๋ง๊ฒ) ๋ง๋ค์ด ๋ฐ์ดํฐ์ ํต์ฌ ํน์ง๋ง์ ์ถ์ถํ๋๋ก ํ์ต๋ ๋ชจ๋ธ์ ๋๋ค.
- ํน์ง ๊ณต๊ฐ (Feature Space): ๋ฐ์ดํฐ๊ฐ ๊ฐ์ง๋ ๋ค์ํ ์์ฑ(ํน์ง)๋ค์ ์ขํ๋ก ํํํ ์ถ์์ ์ธ ๊ณต๊ฐ์ผ๋ก, ์ด ๊ณต๊ฐ์์์ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ฐ๋ฉด ๋ ๋ฐ์ดํฐ๊ฐ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค๊ณ ํด์ํ ์ ์์ต๋๋ค.
- ์ง๋ ํ์ต (Supervised Fine-tuning, SFT): ์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ์์ ์ ๋ง์ถฐ ์ ๋ต์ด ์๋ ๋ฐ์ดํฐ์ ์ผ๋ก ์ถ๊ฐ์ ์ผ๋ก ํ์ต์ํค๋ ๊ณผ์ ์ ๋๋ค.
- ํ์ฑํ (Activation): ์ ๊ฒฝ๋ง ๋ด์ ๋ด๋ฐ(๋ ธ๋)์ด ์ ๋ ฅ์ ๋ฐ์ ์ถ๋ ฅ๊ฐ์ ๋ด๋ณด๋ด๋ ์ํ๋ฅผ ์๋ฏธํ๋ฉฐ, ํน์ ๊ฐ๋ ์ด ์ ๋ ฅ๋์์ ๋ ๊ด๋ จ๋ ๋ด๋ฐ์ด ๊ฐํ๊ฒ ๋ฐ์ํ๋ ๊ฒ์ ๋งํฉ๋๋ค.
- ํ์ ๊ณผ์ (Downstream Task): ๋ชจ๋ธ์ ํ์ต์ํจ ํ ์ค์ ๋ก ์ ์ฉํ๊ณ ์ ํ๋ ์ต์ข ๋ชฉํ์ ๊ณผ์ ๋ค์ ๋งํฉ๋๋ค.
- ์์ฐจ ์ฐ๊ฒฐ (Residual Connection): ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์ ๋ฐ์ดํฐ๊ฐ ๋ ์ด์ด๋ฅผ ๊ฑด๋๋ฐ์ด ๊ทธ๋๋ก ์ ๋ฌ๋๋ ๊ตฌ์กฐ๋ก, SAE ์ค๋ช ์์ ์ธ๊ธ๋ $x$์ $\hat{x}$์ ๊ด๊ณ๋ฅผ ์ดํดํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
- ์ผ๋ฐํ ์ค์ฐจ (Generalization Error): ํ์ต ๋ฐ์ดํฐ๊ฐ ์๋ ์๋ก์ด ๋ฐ์ดํฐ์์ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ์๋ํ๋์ง๋ฅผ ์ธก์ ํ๋ ์ค์ฐจ์จ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Less is Enough: Synthesizing Diversโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | SQuTR: A Robustness Benchmark for Sโฆ | DD-027 |
| ๐ฅ | GLM-5: from Vibe Coding to Agentic โฆ | DD-028 |
| 4. | Experiential Reinforcement Learning | DD-029 |
| 5. | MedXIAOHE: A Comprehensive Recipe fโฆ | DD-030 |
๐ ์์ฑ์ผ: 2026-02-22 | ๐ค GLM-4.7 Deep Dive