โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-004 daVinci-Dev: Agent-native Mid-training for Software Engineering
arXiv: 2601.18418 ๊ธฐ๊ด: SII - GAIR Upvotes: 123 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 4
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: daVinci-Dev (Agent-native Mid-training for Software Engineering)
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํต์ฌ ์์ฝ: ๊ธฐ์กด์ ์ฝ๋ฉ ๋ชจ๋ธ๋ค์ โ์ฝ๋๋ฅผ ์์ฑํ๋ ๊ฒโ์๋ง ์ง์คํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ ๊ฑฐ๋ํ ์ ์ฅ์๋ฅผ ํ์ํ๊ณ ์์ ํ๊ณ ํ ์คํธํ๋ **โ์ํํธ์จ์ด ์์ง๋์ด๋ก์์ ํ๋โ**์ ๋ชจ๋ธ์ ๊ธฐ๋ณธ ๋ฅ๋ ฅ์ผ๋ก ์ฌ์ด์ฃผ๋ ์๋ก์ด ํ์ต ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
- ๊ธฐ์กด ์ฐ๊ตฌ์ ํ๊ณ: ์ง๊ธ๊น์ง์ AI ์ฝ๋ฉ ๋๊ตฌ๋ ์ฃผ๋ก
์ฌํ ํ์ต(Post-training)์ ์์กดํ์ต๋๋ค. ์ฆ, ์ด๋ฏธ ๊ธฐ์ด ์ง์์ด ํ์ต๋ ๋ชจ๋ธ์ โ์ข์ ์์ โ๋ฅผ ๋ช ๊ฐ ๋ณด์ฌ์ฃผ๊ณ ํ๋ จ์ํค๋ ๋ฐฉ์์ด์์ต๋๋ค. ํ์ง๋ง ์ด ๋ฐฉ์์ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๊ณ , ๋น์ฉ์ด ๋น์ธ๋ฉฐ, ๋ชจ๋ธ์ด ๊ทผ๋ณธ์ ์ธ โ์ฌ๊ณ ๋ฐฉ์โ์ ๋ฐ๊พธ๋ ๋ฐ ํ๊ณ๊ฐ ์์์ต๋๋ค. - ์ด ๋ ผ๋ฌธ์ ํด๊ฒฐ์ฑ : ๋ณธ๊ฒฉ์ ์ธ ํ๋ จ์ด ๋๋ ๋ค๊ฐ ์๋๋ผ, **์ค๊ฐ ๋จ๊ณ(Mid-training)**์์ ๊ฑฐ๋ํ ๊ท๋ชจ์ โ์์ด์ ํธ์ฒ๋ผ ํ๋ํ๋ ๋ฐ์ดํฐโ๋ฅผ ๋ฏธ๋ฆฌ ํ์ต์ํต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ๋ณต์กํ ๊ฐ๋ฐ ํ๊ฒฝ์ ์ค์ค๋ก ํค์ณ๋๊ฐ๋ ๊ธฐ๋ณธ์ ์ธ ์ง๊ด๊ณผ ํ๋ ์์์ ๋ฏธ๋ฆฌ ์ฒดํ์ํค๋, ๋ ํ์ฅ ๊ฐ๋ฅํ๊ณ ๊ทผ๋ณธ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ณ ์ผ์์ํ ๋น์ : โ์๋ฆฌ์ฌ ์์ฑ๋ฒโ
์ด ๋ ผ๋ฌธ์ ์ ๊ทผ ๋ฐฉ์์ ์๋ฆฌ์ฌ๋ฅผ ํค์ฐ๋ ๊ณผ์ ์ ๋น์ ํด ๋ณด๊ฒ ์ต๋๋ค.
- Pre-training (์ฌ์ ํ์ต): ์๋ฆฌ ์ฌ๋ฃ์ ์ข ๋ฅ, ์นผ ์ฌ์ฉ๋ฒ, ๊ธฐ๋ณธ์ ์ธ ํํ ์๋ฆฌ ๋ฑ์ ๋ฐฐ์ฐ๋ ๊ณผ์ ์ ๋๋ค. (๋ชจ๋ ๊ธฐ์ด ์ง์ ์ต๋)
- Post-training (์ฌํ ํ์ต - ๊ธฐ์กด ๋ฐฉ์): ์ด๋ฏธ ์ ฐํ๊ฐ ๋ ์ฌ๋์๊ฒ โ์ด ํ๋ฅดํ๋ฅด ์คํ ์ดํฌ๋ ์ด๋ ๊ฒ ์ฐ์ดโ๋ผ๊ณ ๊ตฌ์ฒด์ ์ธ ๋ ์ํผ๋ฅผ 1:1๋ก ๋ฐ๋ผ ํ๊ฒ ๊ฐ๋ฅด์น๋ ๊ณผ์ ์ ๋๋ค. ํจ์จ์ ์ด์ง๋ง, ๋ ์ํผ์ ์๋ ์ํฉ์ด ์ค๋ฉด ๋นํฉํฉ๋๋ค.
- Agentic Mid-training (์ด ๋
ผ๋ฌธ์ ๋ฐฉ์): ๋ณธ๊ฒฉ์ ์ผ๋ก ์๋ฆฌ๋ฅผ ๋ฐฐ์ฐ๊ธฐ ์ ์, **โ์ฃผ๋ฐฉ์ด๋ผ๋ ํผ๋์ค๋ฌ์ด ๊ณต๊ฐ์์ ์ด๋ป๊ฒ ์์ง์ฌ์ผ ํ๋๊ฐโ**๋ฅผ ๋ฏธ๋ฆฌ ํ๋ จ์ํค๋ ๊ณผ์ ์
๋๋ค.
- โ๋ถ์ด ๋ฌ์ ๋ ์ํ๊ธฐ ์ด๋์ ์๋์ง ์ฐพ๋ ๋ฒโ
- โ๋ค๋ฅธ ์๋ฆฌ์ฌ์ ๋ถ๋ชํ์ ๋ ์ด๋ป๊ฒ ํผํ๋ ๋ฒโ
- โ์ฌ๋ฃ๊ฐ ๋จ์ด์ก์ ๋ ์ด๋ป๊ฒ ๋์ฒํ๋ ๋ฒโ
โ๏ธ ๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
-
์ ์ ์ธ ๋ฐ์ดํฐ vs ๋์ ์ธ ํ๊ฒฝ (๋ฌธ์ ์ ์):
- ๊ธฐ์กด ํ์ต์ ์ฑ (์ ์ ์ธ ์ฝ๋ ํ์ผ)๋ง ๋ณด๊ณ ๊ณต๋ถํ์ต๋๋ค. ํ์ง๋ง ์ค์ ๊ฐ๋ฐ์ ๋ถ์(IDE, ํฐ๋ฏธ๋, ํ ์คํธ ํ๊ฒฝ)์ ๋์๋ค๋๋ฉฐ ์ผํด์ผ ํฉ๋๋ค. ์ด ๋ ์ฌ์ด์ ๊ฐ๊ทน(Distribution Mismatch)์ ํด๊ฒฐํด์ผ ํฉ๋๋ค.
-
์์ด์ ํธ ๋ค์ดํฐ๋ธ ๋ฐ์ดํฐ ํฉ์ฑ (Agentic Data Synthesis):
- ์ค์ ๊ฐ๋ฐ์๊ฐ ์ผํ๋ ํ์ (์ฝ๋ ์์ , ํ์ผ ์ด๋, ํ ์คํธ ์คํ, ์๋ฌ ํ์ธ ๋ฑ)์ ๋๊ท๋ชจ๋ก ์ธ์์ ์ผ๋ก ๋ง๋ค์ด๋ ๋๋ค. ๋ง์น ์ฃผ๋ฐฉ์์ ๋ฐ์ํ๋ ์๋ง์ ์ฌ๊ฑด๋ค์ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ก ๋ง๋๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
-
์ค๊ฐ ํ์ต (Mid-training):
- ๋ชจ๋ธ์ด ๋จ์ํ โ๋ฌธ๋งฅ ์์ธกโ์ ๋์ด, โ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ฉด ์ ํ์ผ์ ๋จผ์ ๋ด์ผ์งโ์ ๊ฐ์ **๊ธฐ์ด์ ์ธ ์์ด์ ํธ ํ๋(Foundation Agentic Behaviors)**์ ๋ด์ฌํํ๋๋ก ๊ฑฐ๋ํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
๐งฎ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ์ ๋ต
์ด ๋ ผ๋ฌธ์ ๋ณต์กํ ์์ ํ๋๋ฅผ ์ ์ํ๋ค๊ธฐ๋ณด๋ค๋, ๋ฐ์ดํฐ ๊ตฌ์ฑ ์ ๋ต์ด ํต์ฌ์ ๋๋ค.
- Data Synthesis Principles: ์ค์ ๊ฐ๋ฐ ํ๋ฆ์ ๋ชจ๋ฐฉํ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค ๋, ๋จ์ํ โ์ฝ๋ A โ ์ฝ๋ Bโ ๋ณํ์ด ์๋๋ผ, โํ์(Navigate) โ ํธ์ง(Edit) โ ํ ์คํธ(Test)โ์ ํผ๋๋ฐฑ ๋ฃจํ๊ฐ ํฌํจ๋ ๊ถค์ (Trajectory) ๋ฐ์ดํฐ๋ฅผ ๋๋ ์์ฑํ๋ ์์น์ ์ธ์๋๋ค.
- Training Methodology: ๋ฐฉ๋ํ ์์ ์ด๋ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ ์ค๊ฐ ๋จ๊ณ์ ์ฃผ์ ํ์ฌ, ๋ชจ๋ธ์ ๊ฐ์ค์น(Weights) ์์ฒด์ โ๊ฐ๋ฐ ํ๊ฒฝ์ ๋ํ ์ ์๋ ฅโ์ ๊น์ด ์๊ธฐ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
โ ๏ธ ์ฐธ๊ณ : ์ ๊ณต๋ ์๋ฌธ ํ ์คํธ์
Results์น์ ์ ๊ตฌ์ฒด์ ์ธ ์์น๊ฐ ํฌํจ๋์ด ์์ง ์์ผ๋ฏ๋ก, Abstract์ Introduction์ ์ธ๊ธ๋ ์ฑ๊ณผ์ ๋ ผ๋ฆฌ์ ๋ฐฉํฅ์ฑ์ ๋ฐํ์ผ๋ก ๋ถ์ํฉ๋๋ค.
- ํ
์คํธ ๋์ (๋ฒค์น๋งํฌ):
- ๋
ผ๋ฌธ์ Repository-level Software Engineering ์์
์ ๋์์ผ๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด
SWE-Bench๋TIO-Bench์ ๊ฐ์ด, ๋จ์ํ ํจ์ ํ๋๋ฅผ ์ง๋ ๊ฒ์ด ์๋๋ผ ์ฌ๋ฌ ํ์ผ์ด ์ฝํ ์๋ ์ค์ ์คํ์์ค ํ๋ก์ ํธ์ ๋ฒ๊ทธ๋ฅผ ์์ ํ๋ ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ ์ ์ฆํ๋ ค ํ์ ๊ฒ์ ๋๋ค.
- ๋
ผ๋ฌธ์ Repository-level Software Engineering ์์
์ ๋์์ผ๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด
- ๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ฑ๊ณผ:
- ๋จ์ํ Post-training(SFT) ๋ฐฉ์๋ณด๋ค **ํ์ต ํจ์จ์ฑ(Efficiency)**๊ณผ **์ฑ๋ฅ ์ํ์ (Capacity Ceiling)**์์ ์ ์๋ฏธํ ํฅ์์ด ์์ ๊ฒ์ผ๋ก ์ถ๋ก ๋ฉ๋๋ค.
- Introduction์์ ์ธ๊ธ๋ โhigh-quality agentic trajectories are expensiveโ๋ผ๋ ๋ฌธ์ ์ ์ Mid-training์ผ๋ก ํด๊ฒฐํ์ผ๋ฏ๋ก, ์ ์ ๋น์ฉ์ผ๋ก ๋ ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
- ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ:
- Foundation Instillation: ๋ชจ๋ธ์ด ๊ตฌ์ฒด์ ์ธ ํ๋ จ์ ๋ฐ์ง ์์ ์๋ก์ด ์ ์ฅ์(Unseen Repo)์์๋, ๋ง์น ์ต์ํ ๊ฐ๋ฐ์์ฒ๋ผ ํ์ผ์ ํ์ํ๊ณ ์์กด์ฑ์ ํ์ ํ๋ ํ๋(Fundamental agentic reasoning)์ ๋ณด์์ ๊ฒ์ ๋๋ค. ์ด๋ โํ๋์ ์ ์ด ํ์ต(Transfer Learning of Behavior)โ์ด ์ฑ๊ณตํ์์ ์๋ฏธํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
-
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ:
- ์์ ์๊ตฌ๋ (Resource Requirements): Mid-training ์์ฒด๊ฐ ๊ฑฐ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ ์ฌ์ด์ฆ๋งํผ ๋ค์ ํ์ต์ํค๋ ๊ฒ์ด๋ฏ๋ก, ์ด๊ธฐ์ ์์ฒญ๋ ์ปดํจํ ํ์(GPU ํด๋ฌ์คํฐ)๊ฐ ํ์ํฉ๋๋ค.
- ๋ถํฌ ๋ถ์ผ์น (Distribution Mismatch): ์๋ฒฝํ๊ฒ ์ค์ ํ๊ฒฝ๊ณผ ๋์ผํ ๋ฐ์ดํฐ๋ฅผ ํฉ์ฑํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์ ํผ๋๋ฐฑ ํ๊ฒฝ ์ฌ์ด์ ๊ฐ๊ทน์ด ์ฌ์ ํ ์กด์ฌํ ์ ์์ต๋๋ค.
-
๊ฐ์ ๊ฐ๋ฅ์ฑ (ํฅํ ์ฐ๊ตฌ):
- Interactive Mid-training: ์ ์ ์ธ ๋ฐ์ดํฐ๋ง ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ, ํ์ต ์ค์ ๋ชจ๋ธ์ด ์ค์ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ํผ๋๋ฐฑ์ ๋ฐ๋ ๋ฐฉ์์ผ๋ก ๋ฐ์ ๊ฐ๋ฅํฉ๋๋ค.
- Cost-Efficient Synthesis: ๋ ์ ์ ๋น์ฉ์ผ๋ก ๋ ๊ณ ํ์ง์ ์์ด์ ํธ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ์ด ํ์ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
-
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
- ์ง๋ฅํ IDE ๋ฐ ์ฝ๋ฉ ์์ด์ ํธ: ๋จ์ํ ์ฝ๋๋ฅผ ์์ฑํด์ฃผ๋ ์์ค์ ๋์ด, โ์ด ๊ธฐ๋ฅ์ ๊ตฌํํ๋ ค๋ฉด ํ๋ก์ ํธ์ ์ด ๋ถ๋ถ์ ์์ ํด์ผ ํดโ๋ผ๊ณ ์ ์ํ๊ฑฐ๋, ์ค์ ๋ก ์ฝ๋๋ฅผ ์์ ํ๊ณ ํ ์คํธ๊น์ง ์๋์ผ๋ก ์ํํ๋ ์์จํ AI ๊ฐ๋ฐ์(Copilot++) ๊ตฌ์ถ์ ํต์ฌ์ ์ผ๋ก ์ฌ์ฉ๋ ๊ฒ์ ๋๋ค.
- ๋ ๊ฑฐ์ ์ฝ๋ ๋ง์ด๊ทธ๋ ์ด์ : ์์ฒ ๊ฐ์ ํ์ผ๋ก ๋ ๊ฑฐ๋ํ ๋ ๊ฑฐ์ ์์คํ ์ ๋ถ์ํ๊ณ ์์ ํ ๋, ์ ์ฒด์ ์ธ ๋งฅ๋ฝ์ ํ์ ํ๋ ๋ฅ๋ ฅ์ด ํ์์ ์ด๋ฏ๋ก ํฐ ํจ๊ณผ๋ฅผ ๋ณผ ์ ์์ต๋๋ค.
-
ํ์ํ ๋ฆฌ์์ค:
- GPU: Mid-training์ ์ํํ๋ ค๋ฉด ์์ฒ ๊ฐ์ H100/A100 GPU๊ฐ ํ์ํ ๋๊ท๋ชจ ์ปดํจํ ํด๋ฌ์คํฐ ํ๊ฒฝ์ด ํ์์ ์ ๋๋ค. (๊ฐ๋ฐ์ ํผ์๋ ์คํํธ์ ์ด๊ธฐ ๋จ๊ณ์์๋ ์ ๊ทผํ๊ธฐ ์ด๋ ค์ด ๊ธฐ์ ์ผ ์ ์์ต๋๋ค.)
- ๋ฐ์ดํฐ: ๊นจ๋ํ๊ฒ ์ ์ ๋ ์คํ์์ค ์ ์ฅ์ ๋ฐ์ดํฐ์, ๊ทธ๊ฒ์ ์์ด์ ํธ ํ๋์ผ๋ก ๋ณํํ ์ ์๋ ํ์ดํ๋ผ์ธ์ด ๊ตฌ์ถ๋์ด ์์ด์ผ ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Large Language Model (LLM): ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์ด ์์ฐ์ด ์ดํด ๋ฐ ์์ฑ์ ์ํํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ (์: GPT-4, Llama).
- Post-training (SFT / RLHF): ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ์์ ์ ๋ง์ถฐ ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ณผ์ . ์ง๋ ํ์ต(SFT)๊ณผ ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต(RLHF)์ด ํฌํจ๋จ.
- Agentic AI (AI Agent): ๋จ์ํ ๋ต๋ณ๋ง ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ, ์ค์ค๋ก ๋ชฉํ๋ฅผ ์ค์ ํ๊ณ ๋๊ตฌ(ํฐ๋ฏธ๋, ์ฝ๋ ์๋ํฐ ๋ฑ)๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ AI ์์คํ .
- Repository-level Code Generation: ๋จ์ผ ํ์ผ์ด ์๋, ์ฌ๋ฌ ํ์ผ์ด ์ฐ๊ฒฐ๋ ๊ฑฐ๋ํ ํ๋ก์ ํธ(์ ์ฅ์) ์ ์ฒด๋ฅผ ์ดํดํ๊ณ ์ฝ๋๋ฅผ ์์ฑ/์์ ํ๋ ์์ .
- Mid-training: ์ฌ์ ํ์ต(Pre-training)๊ณผ ์ฌํ ํ์ต(Post-training) ์ฌ์ด ๋จ๊ณ์์, ํน์ ๋๋ฉ์ธ(์ฌ๊ธฐ์๋ ์ํํธ์จ์ด ์์ง๋์ด๋ง)์ ํนํ๋ ๋ฐ์ดํฐ๋ก ์ถ๊ฐ๋กๅคง่งๆจก ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋จ๊ณ.
- Distribution Mismatch (๋ถํฌ ๋ถ์ผ์น): ํ์ต ๋ฐ์ดํฐ(์ ์ ์ธ ์ฝ๋)์ ์ค์ ์ฌ์ฉ ํ๊ฒฝ(๋์ ์ธ ์คํ ๋ฐ ํผ๋๋ฐฑ) ์ฌ์ด์ ๋ฐ์ดํฐ ํจํด ์ฐจ์ด๋ก ์ธํด ์ฑ๋ฅ์ด ์ ํ๋๋ ํ์.
- Trajectory (๊ถค์ ): AI ์์ด์ ํธ๊ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ณผ์ ์์ ๊ฑฐ์ณ๊ฐ ์ํ, ํ๋, ๊ด์ฐฐ ๋ฑ์ ์ ์ฒด ์ด๋ ฅ (์: ํ์ผ A ์ด๊ธฐ โ ์ฝ๋ ์์ โ ํ ์คํธ ์คํจ โ ์์ โ ์ฑ๊ณต).
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Can LLMs Clean Up Your Mess? A Survโฆ | DD-001 |
| ๐ฅ | LongCat-Flash-Thinking-2601 Technicโฆ | DD-002 |
| ๐ฅ | Idea2Story: An Automated Pipeline fโฆ | DD-003 |
| 4. | daVinci-Dev: Agent-native Mid-trainโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | AgentDoG: A Diagnostic Guardrail Frโฆ | DD-005 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive