โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-002 LongCat-Flash-Thinking-2601 Technical Report
arXiv: 2601.16725 ๊ธฐ๊ด: LongCat Upvotes: 171 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 2

LongCat-Flash-Thinking-2601 Technical Report ๋ถ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ํ๊ณ: ๊ธฐ์กด์ ์ถ๋ก ๋ชจ๋ธ๋ค์ ์ํ์ด๋ ์ฝ๋ฉ์ฒ๋ผ ๋จธ๋ฆฟ์๋ง์ผ๋ก ํด๊ฒฐ ๊ฐ๋ฅํ ๋ฌธ์ ์์๋ ๋ฐ์ด๋ฌ์ง๋ง, ๊ฒ์ ๋๊ตฌ๋ฅผ ์ฐ๊ฑฐ๋ ์ธ๋ถ ์์คํ ๊ณผ ์ฌ๋ฌ ๋ฒ ์ํธ์์ฉํด์ผ ํ๋ ๋ณต์กํ ์ค์ ์ ๋ฌด(Agentic Task)์๋ ์ฝํ๊ณ , ์ด๋ฅผ ํ์ต์ํฌ ์ฒด๊ณ์ ์ธ ํ์ดํ๋ผ์ธ์ด ๋ถ์กฑํ์ต๋๋ค.
ํด๊ฒฐ์ฑ : ์ด ๋ ผ๋ฌธ์ 5,600์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๊ฑฐ๋ํ MoE(Mixture-of-Experts) ๋ชจ๋ธ์ ํตํด **โ๋๊ตฌ ์ฌ์ฉโ๊ณผ โ์ธ๋ถ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉโ**์ ๋ณธ๊ฒฉ์ ์ผ๋ก ํ์ต์์ผฐ์ต๋๋ค. ํนํ **โHeavy Thinkingโ**์ด๋ผ๋ ์ถ๋ก ์๊ฐ ํ์ฅ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ, ์๊ฐํ๋ ๊น์ด์ ๋์ด๋ฅผ ๋์์ ๋๋ ค ์คํ์์ค ๋ชจ๋ธ ์ค ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ข ๋น์ : โ์์ด์ธํธ ์ํผ ์ธํดโ ์ฑ์ฉ ํ๋ก์ ํธ
์ด ๋ชจ๋ธ์ ์ดํดํ๋ ๊ฐ์ฅ ์ฌ์ด ๋ฐฉ๋ฒ์ **โํนํ๋ ์ ๋ฌธ๊ฐ ๊ทธ๋ฃน์ผ๋ก ๊ตฌ์ฑ๋ ์ํผ ์ธํดโ**์ ๊ณ ์ฉํ๋ ๊ฒ์ ๋๋ค.
-
ํผ์๋ง์ ์ฒ์ฌ vs. ํ์ํฌ (MoE, Mixture-of-Experts)
- ๊ธฐ์กด ๋ชจ๋ธ: ๋๊ฐ ํ๋์ธ ์ฒ์ฌ๋ฅผ 100๋ช ํ๋ จ์ํค๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๋ชจ๋ ์ผ์ ํผ์ ์ฒ๋ฆฌํด์ผ ํ๋ ๋นํจ์จ์ ์ ๋๋ค.
- LongCat ๋ชจ๋ธ: ์ด 5,600์ต ๋ช ์ ์ง์์ด ์์ง๋ง, ์ค์ ๋ก ์ผํ ๋๋ ๊ทธ์ค 27๋ช ๋ง ์ผ์ด๋์ ์ผํฉ๋๋ค. (์ด 560B ํ๋ผ๋ฏธํฐ, ํ์ฑํ 27B). ์ฝ๋ฉ ์ ๋ฌธ๊ฐ, ๊ฒ์ ์ ๋ฌธ๊ฐ, ์ํ ์ ๋ฌธ๊ฐ๊ฐ ๋๋์ด์ ธ ์์ด์, ๋ฌธ์ ๊ฐ ์ฃผ์ด์ง๋ฉด ๊ด๋ จ ์ ๋ฌธ๊ฐ๋ค๋ง ์๋ํ์ฌ ํจ์จ์ ์ผ๋ก ๋ฌธ์ ๋ฅผ ํ๋๋ค.
-
์ฑ ์ ์ ๊ณต๋ถ๋ง์ด ์๋ ํ์ฅ ์ค์ต (Agentic RL Training)
- ๊ธฐ์กด ๋ชจ๋ธ: ์ฑ (๋ฐ์ดํฐ)๋ง ๋ณด๊ณ ๊ณต๋ถํ์ต๋๋ค.
- LongCat ๋ชจ๋ธ: ์ง์ ๊ฐ์์ ์ฌ๋ฌด์ค(ํ๊ฒฝ)์ ๋ณด๋ด์ ์ปดํจํฐ๋ฅผ ์ผ๋ณด๊ณ , ๊ฒ์์ ํด๋ณด๊ณ , ์๋ฌ๋ฅผ ๊ฒช์ด๋ณด๊ฒ ํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์ํ๋ฉด ๋ณด์(Reward), ๋ชปํ๋ฉด ๋ฒ์น์ ์ฃผ๋ฉฐ ์ค์ค๋ก **โ์ธ์ ๋๊ตฌ๋ฅผ ์จ์ผ ํ๊ณ โ, โ์ด๋ป๊ฒ ํผ๋๋ฐฑ์ ๋ฐ์ ๋ค์ ์๋ํด์ผ ํ๋์งโ**๋ฅผ ๊นจ์ฐ์น๊ฒ ํฉ๋๋ค.
-
ํ์ ํ ๊ฒฐ๋ก ๋ด๋ฆฌ๊ธฐ (Heavy Thinking Framework)
- ์ด ๋ชจ๋ธ์ ๊ฐ์ฅ ํฐ ํน์ง์ ๋ต์ ๋ฐ๋ก ๋ด๋์ง ์๋๋ค๋ ์ ์ ๋๋ค. ๋ ๋จ๊ณ๋ก ๋๋ฉ๋๋ค.
- 1๋จ๊ณ (Parallel Reasoning): ์ฌ๋ฌ ์ ๋ฌธ๊ฐ๋ค์ด ๋์์ ๊ฐ์์ ๋ฐฉ์์ผ๋ก ๋ฌธ์ ๋ฅผ ํ๋๋ค. (์: A๋ ์ด๋ ๊ฒ ์๊ฐ, B๋ ์ ๋ ๊ฒ ์๊ฐ)
- 2๋จ๊ณ (Reflective Reasoning): โ์์ฝ ๋ชจ๋ธ(Summary Model)โ์ด๋ผ๋ ๊ด๋ฆฌ์๊ฐ ๋ํ๋์ ์ ๋ฌธ๊ฐ๋ค์ด ์จ๋ธ ๋ต์์ ์ ๋ถ ๊ฒํ ํฉ๋๋ค. โA์ ์์ด๋์ด๋ ์ข์๋ฐ B์ ๊ฒฐ๋ก ์ด ๋ ํ๋นํ๋ค? ๊ทธ๋ผ ํฉ์ณ์ ์ต์ข ๋ต์์ ๋ง๋ค์โ๋ผ๊ณ ๋ฐ์ถ(Reflection)ํ๋ฉฐ ์ต์ ์ ๋ต์ ๋์ถํฉ๋๋ค.
โ๏ธ ๋์ ๋ฐฉ์ ์์ฝ
- ์ ๋ฌธ๊ฐ ๋ถ๋ฆฌ ํ๋ จ: ์ํ, ์ฝ๋ฉ, ๋๊ตฌ ์ฌ์ฉ ๋ฑ ๊ฐ ๋ถ์ผ๋ณ๋ก ์ ๋ฌธ๊ฐ ๋ชจ๋ธ์ ๋ฐ๋ก ํ๋ จ์ํต๋๋ค.
- ๋ชจ๋ธ ์ตํฉ (Fusion): ์ด ์ ๋ฌธ๊ฐ๋ค์ ํ๋์ ๊ฑฐ๋ํ ๋ชจ๋ธ๋ก ํฉ์นฉ๋๋ค. (๋ชจ๋ธ ๋ ๋ฒจ๊ณผ ๋ฐ์ดํฐ ๋ ๋ฒจ์์ ๋ชจ๋ ๋ณํฉ)
- ํ๊ฒฝ ๊ธฐ๋ฐ ๊ฐํํ์ต (RL): ๋ชจ๋ธ์ด ์น ๋ธ๋ผ์ฐ์ , ํฐ๋ฏธ๋ ๋ฑ์ ๊ฐ์ ํ๊ฒฝ์์ ์๋ง ๋ฒ์ ์ํ์ฐฉ์ค๋ฅผ ๊ฒช์ผ๋ฉฐ ๋๊ตฌ ์ฌ์ฉ๋ฒ์ ์ตํ๋๋ค.
- ์ถ๋ก ์ Heavy Thinking: ์ฌ์ฉ์๊ฐ ์ง๋ฌธํ๋ฉด, ๋ชจ๋ธ์ ๋ด๋ถ์ ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ ๋์์ ํ์ํ๊ณ (Parrallel), ์ด๋ฅผ ์ข ํฉํ์ฌ(Reflective) ์ต์ข ๋ต๋ณ์ ์์ฑํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๐ ์ด๋์ ํ ์คํธํ๋?
์ด ๋ ผ๋ฌธ์ ๋จ์ํ ๊ฐ๊ด์ ํ ์คํธ๊ฐ ์๋๋ผ, ๋ชจ๋ธ์ด ์ค์ค๋ก ํ๋จํ์ฌ ๋๊ตฌ๋ฅผ ์ฐ๊ณ ํ๋ํด์ผ ํ๋ โ์์ด์ ํธโ ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ ์ธก์ ํ์ต๋๋ค.
- Agentic Search: ์ค์ค๋ก ๊ฒ์ ํด์ ํ์ฉํด ์ ๋ณด๋ฅผ ์ฐพ์๋ด๋ ๋ฅ๋ ฅ.
- Agentic Tool Use: ๊ณ์ฐ๊ธฐ, ์ฝ๋ ์ธํฐํ๋ฆฌํฐ ๋ฑ์ ์ํฉ์ ๋ง๊ฒ ์ ์ ํ ์ฌ์ฉํ๋ ๋ฅ๋ ฅ.
- Tool-Integrated Reasoning: ๋๊ตฌ๋ฅผ ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ๋จ๊ณ ์ถ๋ก ์ ์ด์ด๊ฐ๋ ๋ฅ๋ ฅ.
๐ ์ฑ๊ณผ (SOTA ๋๋น)
- ์คํ์์ค 1๋ฑ: ๋ค์ํ ์์ด์ ์ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ์คํ์์ค ๋ชจ๋ธ๋ค์ ์ ์น๊ณ **State-of-the-Art(SOTA, ์ต๊ณ ์ฑ๋ฅ)**๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
- Heavy Thinking์ ํจ๊ณผ:
- ๋จ์ํ ์๊ฐ์ ๊ธธ์ด๋ง ๋๋ฆฌ๊ฑฐ๋(๊น์ด), ํ๋ณด๋ฅผ ๋ง์ด ๋ง๋๋ ๊ฒ(๋์ด)๋ง์ผ๋ก๋ ํ๊ณ๊ฐ ์์์ต๋๋ค.
- ์ด ๋ ผ๋ฌธ์ด ์ ์ํ โParallel(๋์ด) + Reflective(๊น์ด)๋ฅผ ๊ฒฐํฉํ Heavy Thinkingโ ๋ฐฉ์์ด ๋ ์ค ํ๋๋ง ์ฌ์ฉํ์ ๋๋ณด๋ค ์๋ฑํ ๋์ ์ฑ๋ฅ์ ๋๋ค๋ ์ ์ด ํต์ฌ์ ๋๋ค.
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ํ์ต์ ์ฐ์ด์ง ์์ ์๋ก์ด ๋๊ตฌ๋ ๋ ธ์ด์ฆ๊ฐ ์์ธ ์ค์ ํ๊ฒฝ์์๋ ๊ฐ๋ ฅํ ๋ด๊ตฌ์ฑ(Robustness)์ ๋ณด์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
โ ๏ธ ํ๊ณ์
- ๋ง๋ํ ๋ฆฌ์์ค: 5,600์ต ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ํ๋ จ์ํค๊ณ ์๋นํ๋ ๋ฐ ์์ฒญ๋ ์ปดํจํ ์์์ด ํ์ํฉ๋๋ค. (๋น์ฉ ๋ฌธ์ )
- ๋ณต์ก์ฑ: ์ ๋ฌธ ํ๋ จ, ์ตํฉ, RL, ํ๊ฒฝ ๊ตฌ์ถ ๋ฑ ํ์ดํ๋ผ์ธ์ด ๋งค์ฐ ๋ณต์กํ์ฌ ์ฌํ์ด ์ด๋ ต์ต๋๋ค.
- ์ถ๋ก ์๊ฐ(์ง์ฐ ์๊ฐ): Heavy Thinking์ ์ํด ์ฌ๋ฌ ๋ฒ์ ์ฌ๊ณ ๊ณผ์ ์ ๊ฑฐ์น๊ธฐ ๋๋ฌธ์, ๋ต๋ณ์ด ๋์ค๊ธฐ๊น์ง ๊ฑธ๋ฆฌ๋ ์๊ฐ(Latency)์ด ๊น๋๋ค.
๐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ํจ์จํ: Heavy Thinking์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์ถ๋ก ์ ํ์ํ ๊ณ์ฐ๋์ ์ค์ด๋ ์ฐ๊ตฌ.
- ํ๊ฒฝ ํ์ฅ: ๋ ๋ค์ํ๊ณ ํ์ค์ ์ธ ์ธ๋ถ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ ์ ์๋ ์์คํ ๊ฐ๋ฐ.
- ์๊ฐ ํ์ต: ์์ด์ ํธ๊ฐ ์ค์ค๋ก ํ์ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ ํ์ตํ๋ ์ํ ๊ตฌ์กฐ ๊ณ ๋ํ.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๐ผ ์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
- ์์จ ์ฃผํํ AI ์ฝ๋ฉ ์์ด์ ํธ: ๋จ์ํ ์ฝ๋๋ฅผ ์ถ์ฒํด์ฃผ๋ ๊ฒ์ ๋์ด, ์ง์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ฒ์ํ๊ณ , ์ฝ๋๋ฅผ ์คํํด ๋ณด๊ณ , ์๋ฌ๋ฅผ ์์ ํ๋ ์์ ํ ์๋ํ ์ฝ๋ฉ ์์คํ .
- ๊ธฐ์ ์ฉ ๋ณต์กํ RAG ์์คํ : ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ํด ๋ด๋ถ ๋ฌธ์๋ฅผ 5~10๋ฒ ๋๊ฒ ๊ฒ์ํ๊ณ ์ข ํฉํด์ผ ํ๋ ๋ณต์กํ ๊ธฐ์ ์ฉ ๊ฒ์ ์์คํ .
- ๋ฐ์ดํฐ ๋ถ์ ์๋ํ: ์ฌ์ฉ์์ ์์ฐ์ด ์์ฒญ์ ๋ฐ์ SQL์ ์ง๊ณ , ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆฌ๊ณ , ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ๋ ์๋ํ ๋ณด๊ณ ์ ์์ฑ.
โก ํ์ํ ๋ฆฌ์์ค
- GPU: ์ด ๋ชจ๋ธ์ ์์ ํ ๋ก๋ํด์ ์คํํ๋ ค๋ฉด H100/A100 ๊ฐ์ ๊ณ ์ฑ๋ฅ GPU ํด๋ฌ์คํฐ๊ฐ ํ์์ ์ ๋๋ค. (์ถ๋ก ์ ๋ง์ VRAM ํ์)
- ์ธํ๋ผ: Heavy Thinking ๋ชจ๋๋ฅผ ์ง์ํ๊ธฐ ์ํด ๋ค์ค ํด(Multi-turn) ๋ํ์ ๊ธด ์ปจํ ์คํธ ๋ฉ๋ชจ๋ฆฌ(Context Memory)๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ์๋ฒ ์์คํ ์ด ํ์ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- MoE (Mixture-of-Experts): ๋ชจ๋ธ ์ ์ฒด๋ฅผ ํ ๋ฒ์ ๋ค ์ฐ๋ ๊ฒ ์๋๋ผ, ํ์ํ ๋ถ๋ถ(์ ๋ฌธ๊ฐ)๋ง ํ์ฑํํด์ ์ฐ๋ ํจ์จ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ.
- Reinforcement Learning (๊ฐํํ์ต): ์์ด์ ํธ๊ฐ ์ํ์ฐฉ์ค๋ฅผ ํตํด ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ.
- Agentic AI (์์ด์ ํธํ AI): ๋จ์ํ ์ง๋ฌธ์ ๋ตํ๋ ๊ฒ์ ๋์ด, ์ฌ์ฉ์์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ค์ค๋ก ๊ณํ์ ์ธ์ฐ๊ณ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ AI ์์คํ .
- Test-Time Scaling (์ถ๋ก ์ ๊ณ์ฐ ํ์ฅ): ๋ชจ๋ธ์ ๋ ๋๋ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ ๋์ , ๋ต์ ์์ฑํ ๋ ๋ ์ค๋ซ๋์(๋ ๋ง์ ์ฐ์ฐ์ ๋ค์ฌ) ์๊ฐํ๊ฒ ํ๋ ๊ธฐ์ .
- Long-Horizon Tasks (์ฅ๊ธฐ horizon ์์ ): ๋ต์ ๋ด๊ธฐ ์ํด ์์ญ ๋จ๊ณ์ ํ๋์ด ํ์ํ๊ณ , ์ค๊ฐ์ ์คํจ ํ๋ฅ ์ด ๋์ ๋ณต์กํ ์์ .
- Cold-Start Data (์ฝ๋ ์คํํธ ๋ฐ์ดํฐ): ๊ฐํํ์ต์ ์์ํ๊ธฐ ์ , ๋ชจ๋ธ์ด ๊ธฐ๋ณธ์ ์ธ ํ๋์ ํ ์ ์๋๋ก ๋ฏธ๋ฆฌ ์ ๊ณตํ๋ ์ด๊ธฐ ๊ณ ํ์ง ๋ฐ์ดํฐ.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Can LLMs Clean Up Your Mess? A Survโฆ | DD-001 |
| ๐ฅ | LongCat-Flash-Thinking-2601 Technicโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Idea2Story: An Automated Pipeline fโฆ | DD-003 |
| 4. | daVinci-Dev: Agent-native Mid-trainโฆ | DD-004 |
| 5. | AgentDoG: A Diagnostic Guardrail Frโฆ | DD-005 |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive