โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-004 daVinci-Dev: Agent-native Mid-training for Software Engineering

arXiv: 2601.18418 ๊ธฐ๊ด€: SII - GAIR Upvotes: 123 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 4


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: daVinci-Dev (Agent-native Mid-training for Software Engineering)

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

ํ•ต์‹ฌ ์š”์•ฝ: ๊ธฐ์กด์˜ ์ฝ”๋”ฉ ๋ชจ๋ธ๋“ค์€ โ€œ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๋Š” ๊ฒƒโ€์—๋งŒ ์ง‘์ค‘ํ–ˆ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์€ ๊ฑฐ๋Œ€ํ•œ ์ €์žฅ์†Œ๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๊ณ  ํ…Œ์ŠคํŠธํ•˜๋Š” **โ€œ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋กœ์„œ์˜ ํ–‰๋™โ€**์„ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ๋Šฅ๋ ฅ์œผ๋กœ ์‹ฌ์–ด์ฃผ๋Š” ์ƒˆ๋กœ์šด ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„: ์ง€๊ธˆ๊นŒ์ง€์˜ AI ์ฝ”๋”ฉ ๋„๊ตฌ๋Š” ์ฃผ๋กœ ์‚ฌํ›„ ํ•™์Šต(Post-training)์— ์˜์กดํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ด๋ฏธ ๊ธฐ์ดˆ ์ง€์‹์ด ํ•™์Šต๋œ ๋ชจ๋ธ์— โ€œ์ข‹์€ ์˜ˆ์ œโ€๋ฅผ ๋ช‡ ๊ฐœ ๋ณด์—ฌ์ฃผ๊ณ  ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๋ฐฉ์‹์ด์—ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋ฐฉ์‹์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•˜๊ณ , ๋น„์šฉ์ด ๋น„์‹ธ๋ฉฐ, ๋ชจ๋ธ์ด ๊ทผ๋ณธ์ ์ธ โ€œ์‚ฌ๊ณ ๋ฐฉ์‹โ€์„ ๋ฐ”๊พธ๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ด ๋…ผ๋ฌธ์˜ ํ•ด๊ฒฐ์ฑ…: ๋ณธ๊ฒฉ์ ์ธ ํ›ˆ๋ จ์ด ๋๋‚œ ๋’ค๊ฐ€ ์•„๋‹ˆ๋ผ, **์ค‘๊ฐ„ ๋‹จ๊ณ„(Mid-training)**์—์„œ ๊ฑฐ๋Œ€ํ•œ ๊ทœ๋ชจ์˜ โ€˜์—์ด์ „ํŠธ์ฒ˜๋Ÿผ ํ–‰๋™ํ•˜๋Š” ๋ฐ์ดํ„ฐโ€™๋ฅผ ๋ฏธ๋ฆฌ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ๊ฐœ๋ฐœ ํ™˜๊ฒฝ์„ ์Šค์Šค๋กœ ํ—ค์ณ๋‚˜๊ฐ€๋Š” ๊ธฐ๋ณธ์ ์ธ ์ง๊ด€๊ณผ ํ–‰๋™ ์–‘์‹์„ ๋ฏธ๋ฆฌ ์ฒดํ™”์‹œํ‚ค๋Š”, ๋” ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๊ณ  ๊ทผ๋ณธ์ ์ธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿณ ์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ์š”๋ฆฌ์‚ฌ ์–‘์„ฑ๋ฒ•โ€

์ด ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์š”๋ฆฌ์‚ฌ๋ฅผ ํ‚ค์šฐ๋Š” ๊ณผ์ •์— ๋น„์œ ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

  • Pre-training (์‚ฌ์ „ ํ•™์Šต): ์š”๋ฆฌ ์žฌ๋ฃŒ์˜ ์ข…๋ฅ˜, ์นผ ์‚ฌ์šฉ๋ฒ•, ๊ธฐ๋ณธ์ ์ธ ํ™”ํ•™ ์›๋ฆฌ ๋“ฑ์„ ๋ฐฐ์šฐ๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. (๋ชจ๋“  ๊ธฐ์ดˆ ์ง€์‹ ์Šต๋“)
  • Post-training (์‚ฌํ›„ ํ•™์Šต - ๊ธฐ์กด ๋ฐฉ์‹): ์ด๋ฏธ ์…ฐํ”„๊ฐ€ ๋œ ์‚ฌ๋žŒ์—๊ฒŒ โ€œ์ด ํƒ€๋ฅดํƒ€๋ฅด ์Šคํ…Œ์ดํฌ๋Š” ์ด๋ ‡๊ฒŒ ์ฐ์–ดโ€๋ผ๊ณ  ๊ตฌ์ฒด์ ์ธ ๋ ˆ์‹œํ”ผ๋ฅผ 1:1๋กœ ๋”ฐ๋ผ ํ•˜๊ฒŒ ๊ฐ€๋ฅด์น˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ํšจ์œจ์ ์ด์ง€๋งŒ, ๋ ˆ์‹œํ”ผ์— ์—†๋Š” ์ƒํ™ฉ์ด ์˜ค๋ฉด ๋‹นํ™ฉํ•ฉ๋‹ˆ๋‹ค.
  • Agentic Mid-training (์ด ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹): ๋ณธ๊ฒฉ์ ์œผ๋กœ ์š”๋ฆฌ๋ฅผ ๋ฐฐ์šฐ๊ธฐ ์ „์—, **โ€œ์ฃผ๋ฐฉ์ด๋ผ๋Š” ํ˜ผ๋ž€์Šค๋Ÿฌ์šด ๊ณต๊ฐ„์—์„œ ์–ด๋–ป๊ฒŒ ์›€์ง์—ฌ์•ผ ํ•˜๋Š”๊ฐ€โ€**๋ฅผ ๋ฏธ๋ฆฌ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
    • โ€œ๋ถˆ์ด ๋‚ฌ์„ ๋•Œ ์†Œํ™”๊ธฐ ์–ด๋””์— ์žˆ๋Š”์ง€ ์ฐพ๋Š” ๋ฒ•โ€
    • โ€œ๋‹ค๋ฅธ ์š”๋ฆฌ์‚ฌ์™€ ๋ถ€๋”ชํ˜”์„ ๋•Œ ์–ด๋–ป๊ฒŒ ํ”ผํ•˜๋Š” ๋ฒ•โ€
    • โ€œ์žฌ๋ฃŒ๊ฐ€ ๋–จ์–ด์กŒ์„ ๋•Œ ์–ด๋–ป๊ฒŒ ๋Œ€์ฒ˜ํ•˜๋Š” ๋ฒ•โ€
    ์ด๋ ‡๊ฒŒ ์ฃผ๋ฐฉ ํ™˜๊ฒฝ ์ „์ฒด๋ฅผ ์ต์ˆ™ํ•˜๊ฒŒ ๋งŒ๋“  ๋’ค์— ๋ ˆ์‹œํ”ผ๋ฅผ ๊ฐ€๋ฅด์น˜๋ฉด, ํ›จ์”ฌ ๋” ์œ ์—ฐํ•˜๊ณ  ๋˜‘๋˜‘ํ•œ ์…ฐํ”„๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ์ •์ ์ธ ๋ฐ์ดํ„ฐ vs ๋™์ ์ธ ํ™˜๊ฒฝ (๋ฌธ์ œ ์ •์˜):

    • ๊ธฐ์กด ํ•™์Šต์€ ์ฑ…(์ •์ ์ธ ์ฝ”๋“œ ํŒŒ์ผ)๋งŒ ๋ณด๊ณ  ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ ๊ฐœ๋ฐœ์€ ๋ถ€์—Œ(IDE, ํ„ฐ๋ฏธ๋„, ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ)์„ ๋Œ์•„๋‹ค๋‹ˆ๋ฉฐ ์ผํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‘˜ ์‚ฌ์ด์˜ ๊ฐ„๊ทน(Distribution Mismatch)์„ ํ•ด๊ฒฐํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  2. ์—์ด์ „ํŠธ ๋„ค์ดํ‹ฐ๋ธŒ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ (Agentic Data Synthesis):

    • ์‹ค์ œ ๊ฐœ๋ฐœ์ž๊ฐ€ ์ผํ•˜๋Š” ํ”์ (์ฝ”๋“œ ์ˆ˜์ •, ํŒŒ์ผ ์ด๋™, ํ…Œ์ŠคํŠธ ์‹คํ–‰, ์—๋Ÿฌ ํ™•์ธ ๋“ฑ)์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ธ์œ„์ ์œผ๋กœ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. ๋งˆ์น˜ ์ฃผ๋ฐฉ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ˆ˜๋งŽ์€ ์‚ฌ๊ฑด๋“ค์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.
  3. ์ค‘๊ฐ„ ํ•™์Šต (Mid-training):

    • ๋ชจ๋ธ์ด ๋‹จ์ˆœํ•œ โ€œ๋ฌธ๋งฅ ์˜ˆ์ธกโ€์„ ๋„˜์–ด, โ€œ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค๋ฉด ์ € ํŒŒ์ผ์„ ๋จผ์ € ๋ด์•ผ์ง€โ€์™€ ๊ฐ™์€ **๊ธฐ์ดˆ์ ์ธ ์—์ด์ „ํŠธ ํ–‰๋™(Foundation Agentic Behaviors)**์„ ๋‚ด์žฌํ™”ํ•˜๋„๋ก ๊ฑฐ๋Œ€ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

๐Ÿงฎ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์ „๋žต

์ด ๋…ผ๋ฌธ์€ ๋ณต์žกํ•œ ์ˆ˜์‹ ํ•˜๋‚˜๋ฅผ ์ œ์‹œํ•œ๋‹ค๊ธฐ๋ณด๋‹ค๋Š”, ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ ์ „๋žต์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

  • Data Synthesis Principles: ์‹ค์ œ ๊ฐœ๋ฐœ ํ๋ฆ„์„ ๋ชจ๋ฐฉํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค ๋•Œ, ๋‹จ์ˆœํžˆ โ€œ์ฝ”๋“œ A โ†’ ์ฝ”๋“œ Bโ€ ๋ณ€ํ™˜์ด ์•„๋‹ˆ๋ผ, โ€œํƒ์ƒ‰(Navigate) โ†’ ํŽธ์ง‘(Edit) โ†’ ํ…Œ์ŠคํŠธ(Test)โ€œ์˜ ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๊ฐ€ ํฌํ•จ๋œ ๊ถค์ (Trajectory) ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€๋Ÿ‰ ์ƒ์„ฑํ•˜๋Š” ์›์น™์„ ์„ธ์›๋‹ˆ๋‹ค.
  • Training Methodology: ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ์ด๋Ÿฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ์˜ ์ค‘๊ฐ„ ๋‹จ๊ณ„์— ์ฃผ์ž…ํ•˜์—ฌ, ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜(Weights) ์ž์ฒด์— โ€˜๊ฐœ๋ฐœ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ ์‘๋ ฅโ€™์„ ๊นŠ์ด ์ƒˆ๊ธฐ๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

โš ๏ธ ์ฐธ๊ณ : ์ œ๊ณต๋œ ์›๋ฌธ ํ…์ŠคํŠธ์— Results ์„น์…˜์˜ ๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์ง€ ์•Š์œผ๋ฏ€๋กœ, Abstract์™€ Introduction์— ์–ธ๊ธ‰๋œ ์„ฑ๊ณผ์˜ ๋…ผ๋ฆฌ์™€ ๋ฐฉํ–ฅ์„ฑ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ ๋Œ€์ƒ (๋ฒค์น˜๋งˆํฌ):
    • ๋…ผ๋ฌธ์€ Repository-level Software Engineering ์ž‘์—…์„ ๋Œ€์ƒ์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด SWE-Bench๋‚˜ TIO-Bench์™€ ๊ฐ™์ด, ๋‹จ์ˆœํžˆ ํ•จ์ˆ˜ ํ•˜๋‚˜๋ฅผ ์งœ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์—ฌ๋Ÿฌ ํŒŒ์ผ์ด ์–ฝํ˜€ ์žˆ๋Š” ์‹ค์ œ ์˜คํ”ˆ์†Œ์Šค ํ”„๋กœ์ ํŠธ์˜ ๋ฒ„๊ทธ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์—์„œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ•˜๋ ค ํ–ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • ๊ธฐ์กด SOTA(State-of-the-art) ๋Œ€๋น„ ์„ฑ๊ณผ:
    • ๋‹จ์ˆœํ•œ Post-training(SFT) ๋ฐฉ์‹๋ณด๋‹ค **ํ•™์Šต ํšจ์œจ์„ฑ(Efficiency)**๊ณผ **์„ฑ๋Šฅ ์ƒํ•œ์„ (Capacity Ceiling)**์—์„œ ์œ ์˜๋ฏธํ•œ ํ–ฅ์ƒ์ด ์žˆ์„ ๊ฒƒ์œผ๋กœ ์ถ”๋ก ๋ฉ๋‹ˆ๋‹ค.
    • Introduction์—์„œ ์–ธ๊ธ‰๋œ โ€œhigh-quality agentic trajectories are expensiveโ€๋ผ๋Š” ๋ฌธ์ œ์ ์„ Mid-training์œผ๋กœ ํ•ด๊ฒฐํ–ˆ์œผ๋ฏ€๋กœ, ์ ์€ ๋น„์šฉ์œผ๋กœ ๋” ๋†’์€ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.
  • ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ:
    • Foundation Instillation: ๋ชจ๋ธ์ด ๊ตฌ์ฒด์ ์ธ ํ›ˆ๋ จ์„ ๋ฐ›์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์ €์žฅ์†Œ(Unseen Repo)์—์„œ๋„, ๋งˆ์น˜ ์ต์ˆ™ํ•œ ๊ฐœ๋ฐœ์ž์ฒ˜๋Ÿผ ํŒŒ์ผ์„ ํƒ์ƒ‰ํ•˜๊ณ  ์˜์กด์„ฑ์„ ํŒŒ์•…ํ•˜๋Š” ํ–‰๋™(Fundamental agentic reasoning)์„ ๋ณด์˜€์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” โ€œํ–‰๋™์˜ ์ „์ด ํ•™์Šต(Transfer Learning of Behavior)โ€œ์ด ์„ฑ๊ณตํ–ˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„:

    • ์ž์› ์š”๊ตฌ๋Ÿ‰ (Resource Requirements): Mid-training ์ž์ฒด๊ฐ€ ๊ฑฐ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ๋งŒํผ ๋‹ค์‹œ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด๋ฏ€๋กœ, ์ดˆ๊ธฐ์— ์—„์ฒญ๋‚œ ์ปดํ“จํŒ… ํŒŒ์›Œ(GPU ํด๋Ÿฌ์Šคํ„ฐ)๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ถ„ํฌ ๋ถˆ์ผ์น˜ (Distribution Mismatch): ์™„๋ฒฝํ•˜๊ฒŒ ์‹ค์ œ ํ™˜๊ฒฝ๊ณผ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์™€ ์‹ค์ œ ํ”ผ๋“œ๋ฐฑ ํ™˜๊ฒฝ ์‚ฌ์ด์˜ ๊ฐ„๊ทน์ด ์—ฌ์ „ํžˆ ์กด์žฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ (ํ–ฅํ›„ ์—ฐ๊ตฌ):

    • Interactive Mid-training: ์ •์ ์ธ ๋ฐ์ดํ„ฐ๋งŒ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ•™์Šต ์ค‘์— ๋ชจ๋ธ์ด ์‹ค์ œ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฐœ์ „ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
    • Cost-Efficient Synthesis: ๋” ์ ์€ ๋น„์šฉ์œผ๋กœ ๋” ๊ณ ํ’ˆ์งˆ์˜ ์—์ด์ „ํŠธ ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

    • ์ง€๋Šฅํ˜• IDE ๋ฐ ์ฝ”๋”ฉ ์—์ด์ „ํŠธ: ๋‹จ์ˆœํžˆ ์ฝ”๋“œ๋ฅผ ์™„์„ฑํ•ด์ฃผ๋Š” ์ˆ˜์ค€์„ ๋„˜์–ด, โ€œ์ด ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•˜๋ ค๋ฉด ํ”„๋กœ์ ํŠธ์˜ ์ด ๋ถ€๋ถ„์„ ์ˆ˜์ •ํ•ด์•ผ ํ•ดโ€๋ผ๊ณ  ์ œ์•ˆํ•˜๊ฑฐ๋‚˜, ์‹ค์ œ๋กœ ์ฝ”๋“œ๋ฅผ ์ˆ˜์ •ํ•˜๊ณ  ํ…Œ์ŠคํŠธ๊นŒ์ง€ ์ž๋™์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ์ž์œจํ˜• AI ๊ฐœ๋ฐœ์ž(Copilot++) ๊ตฌ์ถ•์— ํ•ต์‹ฌ์ ์œผ๋กœ ์‚ฌ์šฉ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ๋ ˆ๊ฑฐ์‹œ ์ฝ”๋“œ ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜: ์ˆ˜์ฒœ ๊ฐœ์˜ ํŒŒ์ผ๋กœ ๋œ ๊ฑฐ๋Œ€ํ•œ ๋ ˆ๊ฑฐ์‹œ ์‹œ์Šคํ…œ์„ ๋ถ„์„ํ•˜๊ณ  ์ˆ˜์ •ํ•  ๋•Œ, ์ „์ฒด์ ์ธ ๋งฅ๋ฝ์„ ํŒŒ์•…ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ•„์ˆ˜์ ์ด๋ฏ€๋กœ ํฐ ํšจ๊ณผ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค:

    • GPU: Mid-training์„ ์ˆ˜ํ–‰ํ•˜๋ ค๋ฉด ์ˆ˜์ฒœ ๊ฐœ์˜ H100/A100 GPU๊ฐ€ ํ•„์š”ํ•œ ๋Œ€๊ทœ๋ชจ ์ปดํ“จํŒ… ํด๋Ÿฌ์Šคํ„ฐ ํ™˜๊ฒฝ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. (๊ฐœ๋ฐœ์ž ํ˜ผ์ž๋‚˜ ์Šคํƒ€ํŠธ์—… ์ดˆ๊ธฐ ๋‹จ๊ณ„์—์„œ๋Š” ์ ‘๊ทผํ•˜๊ธฐ ์–ด๋ ค์šด ๊ธฐ์ˆ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.)
    • ๋ฐ์ดํ„ฐ: ๊นจ๋—ํ•˜๊ฒŒ ์ •์ œ๋œ ์˜คํ”ˆ์†Œ์Šค ์ €์žฅ์†Œ ๋ฐ์ดํ„ฐ์™€, ๊ทธ๊ฒƒ์„ ์—์ด์ „ํŠธ ํ–‰๋™์œผ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋Š” ํŒŒ์ดํ”„๋ผ์ธ์ด ๊ตฌ์ถ•๋˜์–ด ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Large Language Model (LLM): ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์–ด ์ž์—ฐ์–ด ์ดํ•ด ๋ฐ ์ƒ์„ฑ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ (์˜ˆ: GPT-4, Llama).
  2. Post-training (SFT / RLHF): ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํŠน์ • ์ž‘์—…์— ๋งž์ถฐ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •. ์ง€๋„ ํ•™์Šต(SFT)๊ณผ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต(RLHF)์ด ํฌํ•จ๋จ.
  3. Agentic AI (AI Agent): ๋‹จ์ˆœํžˆ ๋‹ต๋ณ€๋งŒ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์Šค์Šค๋กœ ๋ชฉํ‘œ๋ฅผ ์„ค์ •ํ•˜๊ณ  ๋„๊ตฌ(ํ„ฐ๋ฏธ๋„, ์ฝ”๋“œ ์—๋””ํ„ฐ ๋“ฑ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” AI ์‹œ์Šคํ…œ.
  4. Repository-level Code Generation: ๋‹จ์ผ ํŒŒ์ผ์ด ์•„๋‹Œ, ์—ฌ๋Ÿฌ ํŒŒ์ผ์ด ์—ฐ๊ฒฐ๋œ ๊ฑฐ๋Œ€ํ•œ ํ”„๋กœ์ ํŠธ(์ €์žฅ์†Œ) ์ „์ฒด๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑ/์ˆ˜์ •ํ•˜๋Š” ์ž‘์—….
  5. Mid-training: ์‚ฌ์ „ ํ•™์Šต(Pre-training)๊ณผ ์‚ฌํ›„ ํ•™์Šต(Post-training) ์‚ฌ์ด ๋‹จ๊ณ„์—์„œ, ํŠน์ • ๋„๋ฉ”์ธ(์—ฌ๊ธฐ์„œ๋Š” ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง)์— ํŠนํ™”๋œ ๋ฐ์ดํ„ฐ๋กœ ์ถ”๊ฐ€๋กœๅคง่ง„ๆจก ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋‹จ๊ณ„.
  6. Distribution Mismatch (๋ถ„ํฌ ๋ถˆ์ผ์น˜): ํ•™์Šต ๋ฐ์ดํ„ฐ(์ •์ ์ธ ์ฝ”๋“œ)์™€ ์‹ค์ œ ์‚ฌ์šฉ ํ™˜๊ฒฝ(๋™์ ์ธ ์‹คํ–‰ ๋ฐ ํ”ผ๋“œ๋ฐฑ) ์‚ฌ์ด์˜ ๋ฐ์ดํ„ฐ ํŒจํ„ด ์ฐจ์ด๋กœ ์ธํ•ด ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ํ˜„์ƒ.
  7. Trajectory (๊ถค์ ): AI ์—์ด์ „ํŠธ๊ฐ€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ณผ์ •์—์„œ ๊ฑฐ์ณ๊ฐ„ ์ƒํƒœ, ํ–‰๋™, ๊ด€์ฐฐ ๋“ฑ์˜ ์ „์ฒด ์ด๋ ฅ (์˜ˆ: ํŒŒ์ผ A ์—ด๊ธฐ โ†’ ์ฝ”๋“œ ์ˆ˜์ • โ†’ ํ…Œ์ŠคํŠธ ์‹คํŒจ โ†’ ์ˆ˜์ • โ†’ ์„ฑ๊ณต).

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Can LLMs Clean Up Your Mess? A Survโ€ฆDD-001
๐ŸฅˆLongCat-Flash-Thinking-2601 Technicโ€ฆDD-002
๐Ÿฅ‰Idea2Story: An Automated Pipeline fโ€ฆDD-003
4.daVinci-Dev: Agent-native Mid-trainโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
5.AgentDoG: A Diagnostic Guardrail Frโ€ฆDD-005

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive