โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-002 LongCat-Flash-Thinking-2601 Technical Report

arXiv: 2601.16725 ๊ธฐ๊ด€: LongCat Upvotes: 171 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2

Figure 1


LongCat-Flash-Thinking-2601 Technical Report ๋ถ„์„

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ํ•œ๊ณ„: ๊ธฐ์กด์˜ ์ถ”๋ก  ๋ชจ๋ธ๋“ค์€ ์ˆ˜ํ•™์ด๋‚˜ ์ฝ”๋”ฉ์ฒ˜๋Ÿผ ๋จธ๋ฆฟ์†๋งŒ์œผ๋กœ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•œ ๋ฌธ์ œ์—์„œ๋Š” ๋›ฐ์–ด๋‚ฌ์ง€๋งŒ, ๊ฒ€์ƒ‰ ๋„๊ตฌ๋ฅผ ์“ฐ๊ฑฐ๋‚˜ ์™ธ๋ถ€ ์‹œ์Šคํ…œ๊ณผ ์—ฌ๋Ÿฌ ๋ฒˆ ์ƒํ˜ธ์ž‘์šฉํ•ด์•ผ ํ•˜๋Š” ๋ณต์žกํ•œ ์‹ค์ œ ์—…๋ฌด(Agentic Task)์—๋Š” ์•ฝํ–ˆ๊ณ , ์ด๋ฅผ ํ•™์Šต์‹œํ‚ฌ ์ฒด๊ณ„์ ์ธ ํŒŒ์ดํ”„๋ผ์ธ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ•ด๊ฒฐ์ฑ…: ์ด ๋…ผ๋ฌธ์€ 5,600์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๊ฑฐ๋Œ€ํ•œ MoE(Mixture-of-Experts) ๋ชจ๋ธ์„ ํ†ตํ•ด **โ€˜๋„๊ตฌ ์‚ฌ์šฉโ€™๊ณผ โ€˜์™ธ๋ถ€ ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉโ€™**์„ ๋ณธ๊ฒฉ์ ์œผ๋กœ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ **โ€˜Heavy Thinkingโ€™**์ด๋ผ๋Š” ์ถ”๋ก  ์‹œ๊ฐ„ ํ™•์žฅ ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ, ์ƒ๊ฐํ•˜๋Š” ๊นŠ์ด์™€ ๋„“์ด๋ฅผ ๋™์‹œ์— ๋Š˜๋ ค ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ ์ค‘ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿข ๋น„์œ : โ€œ์ž์ด์–ธํŠธ ์Šˆํผ ์ธํ„ดโ€ ์ฑ„์šฉ ํ”„๋กœ์ ํŠธ

์ด ๋ชจ๋ธ์„ ์ดํ•ดํ•˜๋Š” ๊ฐ€์žฅ ์‰ฌ์šด ๋ฐฉ๋ฒ•์€ **โ€˜ํŠนํ™”๋œ ์ „๋ฌธ๊ฐ€ ๊ทธ๋ฃน์œผ๋กœ ๊ตฌ์„ฑ๋œ ์Šˆํผ ์ธํ„ดโ€™**์„ ๊ณ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  1. ํ˜ผ์ž๋งŒ์˜ ์ฒœ์žฌ vs. ํŒ€์›Œํฌ (MoE, Mixture-of-Experts)

    • ๊ธฐ์กด ๋ชจ๋ธ: ๋‡Œ๊ฐ€ ํ•˜๋‚˜์ธ ์ฒœ์žฌ๋ฅผ 100๋ช… ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ์ผ์„ ํ˜ผ์ž ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋‹ˆ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.
    • LongCat ๋ชจ๋ธ: ์ด 5,600์–ต ๋ช…์˜ ์ง์›์ด ์žˆ์ง€๋งŒ, ์‹ค์ œ๋กœ ์ผํ•  ๋•Œ๋Š” ๊ทธ์ค‘ 27๋ช…๋งŒ ์ผ์–ด๋‚˜์„œ ์ผํ•ฉ๋‹ˆ๋‹ค. (์ด 560B ํŒŒ๋ผ๋ฏธํ„ฐ, ํ™œ์„ฑํ™” 27B). ์ฝ”๋”ฉ ์ „๋ฌธ๊ฐ€, ๊ฒ€์ƒ‰ ์ „๋ฌธ๊ฐ€, ์ˆ˜ํ•™ ์ „๋ฌธ๊ฐ€๊ฐ€ ๋‚˜๋‰˜์–ด์ ธ ์žˆ์–ด์„œ, ๋ฌธ์ œ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ๊ด€๋ จ ์ „๋ฌธ๊ฐ€๋“ค๋งŒ ์ž‘๋™ํ•˜์—ฌ ํšจ์œจ์ ์œผ๋กœ ๋ฌธ์ œ๋ฅผ ํ’‰๋‹ˆ๋‹ค.
  2. ์ฑ…์ƒ ์•ž ๊ณต๋ถ€๋งŒ์ด ์•„๋‹Œ ํ˜„์žฅ ์‹ค์Šต (Agentic RL Training)

    • ๊ธฐ์กด ๋ชจ๋ธ: ์ฑ…(๋ฐ์ดํ„ฐ)๋งŒ ๋ณด๊ณ  ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • LongCat ๋ชจ๋ธ: ์ง์ ‘ ๊ฐ€์ƒ์˜ ์‚ฌ๋ฌด์‹ค(ํ™˜๊ฒฝ)์— ๋ณด๋‚ด์„œ ์ปดํ“จํ„ฐ๋ฅผ ์ผœ๋ณด๊ณ , ๊ฒ€์ƒ‰์„ ํ•ด๋ณด๊ณ , ์—๋Ÿฌ๋ฅผ ๊ฒช์–ด๋ณด๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์ž˜ํ•˜๋ฉด ๋ณด์ƒ(Reward), ๋ชปํ•˜๋ฉด ๋ฒŒ์น™์„ ์ฃผ๋ฉฐ ์Šค์Šค๋กœ **โ€œ์–ธ์ œ ๋„๊ตฌ๋ฅผ ์จ์•ผ ํ•˜๊ณ โ€, โ€œ์–ด๋–ป๊ฒŒ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์•„ ๋‹ค์‹œ ์‹œ๋„ํ•ด์•ผ ํ•˜๋Š”์ง€โ€**๋ฅผ ๊นจ์šฐ์น˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  3. ํšŒ์˜ ํ›„ ๊ฒฐ๋ก  ๋‚ด๋ฆฌ๊ธฐ (Heavy Thinking Framework)

    • ์ด ๋ชจ๋ธ์˜ ๊ฐ€์žฅ ํฐ ํŠน์ง•์€ ๋‹ต์„ ๋ฐ”๋กœ ๋‚ด๋†“์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.
    • 1๋‹จ๊ณ„ (Parallel Reasoning): ์—ฌ๋Ÿฌ ์ „๋ฌธ๊ฐ€๋“ค์ด ๋™์‹œ์— ๊ฐ์ž์˜ ๋ฐฉ์‹์œผ๋กœ ๋ฌธ์ œ๋ฅผ ํ’‰๋‹ˆ๋‹ค. (์˜ˆ: A๋Š” ์ด๋ ‡๊ฒŒ ์ƒ๊ฐ, B๋Š” ์ €๋ ‡๊ฒŒ ์ƒ๊ฐ)
    • 2๋‹จ๊ณ„ (Reflective Reasoning): โ€˜์š”์•ฝ ๋ชจ๋ธ(Summary Model)โ€˜์ด๋ผ๋Š” ๊ด€๋ฆฌ์ž๊ฐ€ ๋‚˜ํƒ€๋‚˜์„œ ์ „๋ฌธ๊ฐ€๋“ค์ด ์จ๋‚ธ ๋‹ต์•ˆ์„ ์ „๋ถ€ ๊ฒ€ํ† ํ•ฉ๋‹ˆ๋‹ค. โ€œA์˜ ์•„์ด๋””์–ด๋Š” ์ข‹์€๋ฐ B์˜ ๊ฒฐ๋ก ์ด ๋” ํƒ€๋‹นํ•˜๋„ค? ๊ทธ๋Ÿผ ํ•ฉ์ณ์„œ ์ตœ์ข… ๋‹ต์•ˆ์„ ๋งŒ๋“ค์žโ€๋ผ๊ณ  ๋ฐ˜์ถ”(Reflection)ํ•˜๋ฉฐ ์ตœ์ ์˜ ๋‹ต์„ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค.

โš™๏ธ ๋™์ž‘ ๋ฐฉ์‹ ์š”์•ฝ

  1. ์ „๋ฌธ๊ฐ€ ๋ถ„๋ฆฌ ํ›ˆ๋ จ: ์ˆ˜ํ•™, ์ฝ”๋”ฉ, ๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ ๊ฐ ๋ถ„์•ผ๋ณ„๋กœ ์ „๋ฌธ๊ฐ€ ๋ชจ๋ธ์„ ๋”ฐ๋กœ ํ›ˆ๋ จ์‹œํ‚ต๋‹ˆ๋‹ค.
  2. ๋ชจ๋ธ ์œตํ•ฉ (Fusion): ์ด ์ „๋ฌธ๊ฐ€๋“ค์„ ํ•˜๋‚˜์˜ ๊ฑฐ๋Œ€ํ•œ ๋ชจ๋ธ๋กœ ํ•ฉ์นฉ๋‹ˆ๋‹ค. (๋ชจ๋ธ ๋ ˆ๋ฒจ๊ณผ ๋ฐ์ดํ„ฐ ๋ ˆ๋ฒจ์—์„œ ๋ชจ๋‘ ๋ณ‘ํ•ฉ)
  3. ํ™˜๊ฒฝ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต (RL): ๋ชจ๋ธ์ด ์›น ๋ธŒ๋ผ์šฐ์ €, ํ„ฐ๋ฏธ๋„ ๋“ฑ์˜ ๊ฐ€์ƒ ํ™˜๊ฒฝ์—์„œ ์ˆ˜๋งŒ ๋ฒˆ์˜ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๊ฒช์œผ๋ฉฐ ๋„๊ตฌ ์‚ฌ์šฉ๋ฒ•์„ ์ตํž™๋‹ˆ๋‹ค.
  4. ์ถ”๋ก  ์‹œ Heavy Thinking: ์‚ฌ์šฉ์ž๊ฐ€ ์งˆ๋ฌธํ•˜๋ฉด, ๋ชจ๋ธ์€ ๋‚ด๋ถ€์ ์œผ๋กœ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๊ฐ€๋Šฅ์„ฑ์„ ๋™์‹œ์— ํƒ์ƒ‰ํ•˜๊ณ (Parrallel), ์ด๋ฅผ ์ข…ํ•ฉํ•˜์—ฌ(Reflective) ์ตœ์ข… ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๐Ÿ“Š ์–ด๋””์„œ ํ…Œ์ŠคํŠธํ–ˆ๋‚˜?

์ด ๋…ผ๋ฌธ์€ ๋‹จ์ˆœํ•œ ๊ฐ๊ด€์‹ ํ…Œ์ŠคํŠธ๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ํŒ๋‹จํ•˜์—ฌ ๋„๊ตฌ๋ฅผ ์“ฐ๊ณ  ํ–‰๋™ํ•ด์•ผ ํ•˜๋Š” โ€˜์—์ด์ „ํŠธโ€™ ๋ฒค์น˜๋งˆํฌ์—์„œ ์„ฑ๋Šฅ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • Agentic Search: ์Šค์Šค๋กœ ๊ฒ€์ƒ‰ ํˆด์„ ํ™œ์šฉํ•ด ์ •๋ณด๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๋Šฅ๋ ฅ.
  • Agentic Tool Use: ๊ณ„์‚ฐ๊ธฐ, ์ฝ”๋“œ ์ธํ„ฐํ”„๋ฆฌํ„ฐ ๋“ฑ์„ ์ƒํ™ฉ์— ๋งž๊ฒŒ ์ ์ ˆํžˆ ์‚ฌ์šฉํ•˜๋Š” ๋Šฅ๋ ฅ.
  • Tool-Integrated Reasoning: ๋„๊ตฌ๋ฅผ ์“ด ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ๋‹จ๊ณ„ ์ถ”๋ก ์„ ์ด์–ด๊ฐ€๋Š” ๋Šฅ๋ ฅ.

๐Ÿ† ์„ฑ๊ณผ (SOTA ๋Œ€๋น„)

  • ์˜คํ”ˆ์†Œ์Šค 1๋“ฑ: ๋‹ค์–‘ํ•œ ์—์ด์ „์‹œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค์„ ์ œ์น˜๊ณ  **State-of-the-Art(SOTA, ์ตœ๊ณ  ์„ฑ๋Šฅ)**๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Heavy Thinking์˜ ํšจ๊ณผ:
    • ๋‹จ์ˆœํžˆ ์ƒ๊ฐ์˜ ๊ธธ์ด๋งŒ ๋Š˜๋ฆฌ๊ฑฐ๋‚˜(๊นŠ์ด), ํ›„๋ณด๋ฅผ ๋งŽ์ด ๋งŒ๋“œ๋Š” ๊ฒƒ(๋„“์ด)๋งŒ์œผ๋กœ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด ๋…ผ๋ฌธ์ด ์ œ์•ˆํ•œ โ€˜Parallel(๋„“์ด) + Reflective(๊นŠ์ด)๋ฅผ ๊ฒฐํ•ฉํ•œ Heavy Thinkingโ€™ ๋ฐฉ์‹์ด ๋‘˜ ์ค‘ ํ•˜๋‚˜๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค ์›”๋“ฑํžˆ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ƒˆ๋‹ค๋Š” ์ ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.
  • ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ: ํ•™์Šต์— ์“ฐ์ด์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๋„๊ตฌ๋‚˜ ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ๋‚ด๊ตฌ์„ฑ(Robustness)์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

โš ๏ธ ํ•œ๊ณ„์ 

  • ๋ง‰๋Œ€ํ•œ ๋ฆฌ์†Œ์Šค: 5,600์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๊ณ  ์„œ๋น™ํ•˜๋Š” ๋ฐ ์—„์ฒญ๋‚œ ์ปดํ“จํŒ… ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. (๋น„์šฉ ๋ฌธ์ œ)
  • ๋ณต์žก์„ฑ: ์ „๋ฌธ ํ›ˆ๋ จ, ์œตํ•ฉ, RL, ํ™˜๊ฒฝ ๊ตฌ์ถ• ๋“ฑ ํŒŒ์ดํ”„๋ผ์ธ์ด ๋งค์šฐ ๋ณต์žกํ•˜์—ฌ ์žฌํ˜„์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
  • ์ถ”๋ก  ์‹œ๊ฐ„(์ง€์—ฐ ์‹œ๊ฐ„): Heavy Thinking์„ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์‚ฌ๊ณ  ๊ณผ์ •์„ ๊ฑฐ์น˜๊ธฐ ๋•Œ๋ฌธ์—, ๋‹ต๋ณ€์ด ๋‚˜์˜ค๊ธฐ๊นŒ์ง€ ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„(Latency)์ด ๊น๋‹ˆ๋‹ค.

๐Ÿš€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ํšจ์œจํ™”: Heavy Thinking์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ถ”๋ก ์— ํ•„์š”ํ•œ ๊ณ„์‚ฐ๋Ÿ‰์„ ์ค„์ด๋Š” ์—ฐ๊ตฌ.
  • ํ™˜๊ฒฝ ํ™•์žฅ: ๋” ๋‹ค์–‘ํ•˜๊ณ  ํ˜„์‹ค์ ์ธ ์™ธ๋ถ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ.
  • ์ž๊ฐ€ ํ•™์Šต: ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ ํƒ์ƒ‰ํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ  ํ•™์Šตํ•˜๋Š” ์ˆœํ™˜ ๊ตฌ์กฐ ๊ณ ๋„ํ™”.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๐Ÿ’ผ ์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

  • ์ž์œจ ์ฃผํ–‰ํ˜• AI ์ฝ”๋”ฉ ์—์ด์ „ํŠธ: ๋‹จ์ˆœํžˆ ์ฝ”๋“œ๋ฅผ ์ถ”์ฒœํ•ด์ฃผ๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์ง์ ‘ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ณ , ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•ด ๋ณด๊ณ , ์—๋Ÿฌ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ์™„์ „ํ•œ ์ž๋™ํ™” ์ฝ”๋”ฉ ์‹œ์Šคํ…œ.
  • ๊ธฐ์—…์šฉ ๋ณต์žกํ•œ RAG ์‹œ์Šคํ…œ: ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ธฐ ์œ„ํ•ด ๋‚ด๋ถ€ ๋ฌธ์„œ๋ฅผ 5~10๋ฒˆ ๋„˜๊ฒŒ ๊ฒ€์ƒ‰ํ•˜๊ณ  ์ข…ํ•ฉํ•ด์•ผ ํ•˜๋Š” ๋ณต์žกํ•œ ๊ธฐ์—…์šฉ ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ.
  • ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”: ์‚ฌ์šฉ์ž์˜ ์ž์—ฐ์–ด ์š”์ฒญ์„ ๋ฐ›์•„ SQL์„ ์งœ๊ณ , ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆฌ๊ณ , ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•˜๋Š” ์ž๋™ํ™” ๋ณด๊ณ ์„œ ์ƒ์„ฑ.

โšก ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • GPU: ์ด ๋ชจ๋ธ์„ ์™„์ „ํžˆ ๋กœ๋“œํ•ด์„œ ์‹คํ–‰ํ•˜๋ ค๋ฉด H100/A100 ๊ฐ™์€ ๊ณ ์„ฑ๋Šฅ GPU ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. (์ถ”๋ก  ์‹œ ๋งŽ์€ VRAM ํ•„์š”)
  • ์ธํ”„๋ผ: Heavy Thinking ๋ชจ๋“œ๋ฅผ ์ง€์›ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์ค‘ ํ„ด(Multi-turn) ๋Œ€ํ™”์™€ ๊ธด ์ปจํ…์ŠคํŠธ ๋ฉ”๋ชจ๋ฆฌ(Context Memory)๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์„œ๋ฒ„ ์‹œ์Šคํ…œ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. MoE (Mixture-of-Experts): ๋ชจ๋ธ ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ๋‹ค ์“ฐ๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ํ•„์š”ํ•œ ๋ถ€๋ถ„(์ „๋ฌธ๊ฐ€)๋งŒ ํ™œ์„ฑํ™”ํ•ด์„œ ์“ฐ๋Š” ํšจ์œจ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ.
  2. Reinforcement Learning (๊ฐ•ํ™”ํ•™์Šต): ์—์ด์ „ํŠธ๊ฐ€ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ.
  3. Agentic AI (์—์ด์ „ํŠธํ˜• AI): ๋‹จ์ˆœํžˆ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์‚ฌ์šฉ์ž์˜ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์Šค์Šค๋กœ ๊ณ„ํš์„ ์„ธ์šฐ๊ณ  ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” AI ์‹œ์Šคํ…œ.
  4. Test-Time Scaling (์ถ”๋ก  ์‹œ ๊ณ„์‚ฐ ํ™•์žฅ): ๋ชจ๋ธ์„ ๋” ๋˜‘๋˜‘ํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆฌ๋Š” ๋Œ€์‹ , ๋‹ต์„ ์ƒ์„ฑํ•  ๋•Œ ๋” ์˜ค๋žซ๋™์•ˆ(๋” ๋งŽ์€ ์—ฐ์‚ฐ์„ ๋“ค์—ฌ) ์ƒ๊ฐํ•˜๊ฒŒ ํ•˜๋Š” ๊ธฐ์ˆ .
  5. Long-Horizon Tasks (์žฅ๊ธฐ horizon ์ž‘์—…): ๋‹ต์„ ๋‚ด๊ธฐ ์œ„ํ•ด ์ˆ˜์‹ญ ๋‹จ๊ณ„์˜ ํ–‰๋™์ด ํ•„์š”ํ•˜๊ณ , ์ค‘๊ฐ„์— ์‹คํŒจ ํ™•๋ฅ ์ด ๋†’์€ ๋ณต์žกํ•œ ์ž‘์—….
  6. Cold-Start Data (์ฝœ๋“œ ์Šคํƒ€ํŠธ ๋ฐ์ดํ„ฐ): ๊ฐ•ํ™”ํ•™์Šต์„ ์‹œ์ž‘ํ•˜๊ธฐ ์ „, ๋ชจ๋ธ์ด ๊ธฐ๋ณธ์ ์ธ ํ–‰๋™์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฏธ๋ฆฌ ์ œ๊ณตํ•˜๋Š” ์ดˆ๊ธฐ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Can LLMs Clean Up Your Mess? A Survโ€ฆDD-001
๐ŸฅˆLongCat-Flash-Thinking-2601 Technicโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰Idea2Story: An Automated Pipeline fโ€ฆDD-003
4.daVinci-Dev: Agent-native Mid-trainโ€ฆDD-004
5.AgentDoG: A Diagnostic Guardrail Frโ€ฆDD-005

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive