โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-037 Heterogeneous Agent Collaborative Reinforcement Learning
arXiv: 2603.02604 ๊ธฐ๊ด: ByteDance Upvotes: 140 | Comments: 5 ์์: ์ด๋ฒ ์ฃผ Top 2
Heterogeneous Agent Collaborative Reinforcement Learning ๋ ผ๋ฌธ ๋ถ์
์ด ๋ฌธ์๋ โHeterogeneous Agent Collaborative Reinforcement Learning (HACRL)โ ๋ ผ๋ฌธ์ ๋ํ ์ฌ์ธต ๋ถ์ ๋ฆฌํฌํธ์ ๋๋ค. ์ฃผ๋์ด ๊ฐ๋ฐ์๋ ํต์ฌ ๊ฐ๋ ์ ๋ช ํํ ์ดํดํ ์ ์๋๋ก ๊ตฌ์ฑํ์ต๋๋ค.
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํ์ฌ ๊ฐํ ํ์ต์ ํตํ ์ธ์ด ๋ชจ๋ธ ํ๋ จ, ํนํ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(RLVR)์ ์ฌ์ฉํ๋ ๋ฐฉ์์ ๊ฐ ๋ชจ๋ธ์ด ๋ ๋ฆฝ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ๊ฒ์ฆํด์ผ ํ๋ฏ๋ก ๋น์ฉ์ด ๋งค์ฐ ๋ง์ด ๋ญ๋๋ค. ๊ธฐ์กด์๋ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ด ๊ฐ์ ๋ฌธ์ ๋ฅผ ๊ฐ์ ํด๊ฒฐํ๋ฉฐ ๋น์ทํ ์ํ์ฐฉ์ค๋ฅผ ๋ฐ๋ณตํ๋ ๋ญ๋น๊ฐ ์กด์ฌํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์๋ก ๋ค๋ฅธ ๋ฅ๋ ฅ๊ณผ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์์ด์ ํธ๋ค์ด ํ๋ จ ์ค์ ๊ฒ์ฆ๋ ๊ฒฝํ(๋กค์์)์ ๊ณต์ ํ์ฌ ์ํธ ํ์ตํจ์ผ๋ก์จ, ์ ์ฒด์ ์ธ ์ํ ํจ์จ์ฑ์ ๊ทน๋ํํ๊ณ ์์ ๋ญ๋น๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ํ์ ํ์ต ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โ์ ๋ฌธ ๋ถ์ผ๊ฐ ๋ค๋ฅธ ์คํฐ๋ ๊ทธ๋ฃนโ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด๋ โ์ ๊ณต์ด ๋ค๋ฅธ ๋ํ์๋ค์ด ๋ชจ์ฌ ์คํฐ๋๋ฅผ ํ๋ ๊ฒโ๊ณผ ๋น์ทํฉ๋๋ค.
- ๊ธฐ์กด ๋ฐฉ์(๋ ๋ฆฝ ํ์ต): ์ํ๋, ๋ฌธํ๋, ๊ณตํ๋๊ฐ ๊ฐ์ ๋ฐฉ์ ํผ์ ์์ผ๋ฉด์ ๊ฐ์ ๋ ผ์ ๋ฌธ์ ๋ฅผ ํผ์ ์ฐ๊ณ ์ค์ค๋ก ์ฑ์ ํฉ๋๋ค. ์๋ก์ ์ด์์ ๋ณผ ์ ์๊ธฐ ๋๋ฌธ์, ๋น์ทํ ์ค์๋ฅผ ํ๊ฑฐ๋ ๋ ์ข์ ์์ด๋์ด๊ฐ ์์ด๋ ๊ณต์ ๋์ง ์์ ํ์ต ์๋๊ฐ ๋๋ฆฝ๋๋ค.
- HACRL ๋ฐฉ์(ํ์ ํ์ต): ์ธ ๋ช ์ด ๋ชจ์ฌ์ ๊ฐ์ ์ด ๋ต์์ ์๋ก ๊ณต์ ํฉ๋๋ค. ๋ฌผ๋ก ์ํ๋๊ฐ ์ด ๊ธ์ ๊ณตํ๋์ ์คํ์ผ๊ณผ ๋ค๋ฅด๊ณ , ๊ณตํ๋์ ๋ต์์ ๋ฌธํ๋์ ๋ฅ๋ ฅ ์ฐจ์ด๊ฐ ๋ ์ ์์ต๋๋ค. ํ์ง๋ง โ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์โ(์ ๋ต ์ฌ๋ถ๋ ์ฑ์ ๊ธฐ์ค)์ด ๋ช ํํ๋ค๋ฉด, ์๋ก์ โ๊ฒ์ฆ๋ ์ํ์ฐฉ์คโ๋ฅผ ํตํด ๋ณธ์ธ์ ์ง์์ ์ ๋ฐ์ดํธํ ์ ์์ต๋๋ค. ์ํ๋์ ํ์ด ๊ณผ์ ์ ๋ณด๊ณ ๊ณตํ๋๊ฐ ๋ ผ๋ฆฌ๋ ฅ์ ํค์ฐ๊ณ , ๋ฌธํ๋์ ์์ ์ ๋ณด๊ณ ๊ณตํ๋๊ฐ ๊ธ์ฐ๊ธฐ๋ฅผ ๋ฐฐ์ฐ๋ ์์ ๋๋ค. ์ค์ํ ์ ์ ์ํ์ ๋ณผ ๋๋ ์ฌ์ ํ ๊ฐ์ ํผ์ ๋ฌธ์ ๋ฅผ ํผ๋ค๋ ์ ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
HACPO(Heterogeneous Agent Collaborative Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ํฌ๊ฒ ๋ค ๋จ๊ณ๋ก ์๋ํฉ๋๋ค.
- ๋ ๋ฆฝ์ ์์ฑ: ์๋ก ๋ค๋ฅธ ๊ตฌ์กฐ๋ ๋ฅ๋ ฅ์ ๊ฐ์ง ์ฌ๋ฌ ์์ด์ ํธ๋ค์ด ๋์ผํ ์ง๋ฌธ(ํ๋กฌํํธ)์ ๋ํด ๊ฐ์ ๋ต๋ณ์ ์์ฑํฉ๋๋ค.
- ๊ฒ์ฆ ๋ฐ ๊ณต์ : ์์ฑ๋ ๋ต๋ณ๋ค์ ์๋ ๊ฒ์ฆ ๋๊ตฌ(์: ์ฝ๋ ํ ์คํธ, ์ํ ๊ฒ์ฆ๊ธฐ)๋ก ์ฑ์ ํฉ๋๋ค. ์ด๋ โ๊ฒ์ฆ๋ ๋กค์์(๊ฒฝ๋ก)โ๋ค์ ์๋ก ๊ณต์ ํ(Pool)์ ๋ชจ์๋๋ค.
- ๋ฅ๋ ฅ ๋ฐ ๋ถ์ฐ ๋ณด์ (ํต์ฌ ๋ฉ์ปค๋์ฆ): ๋จ์ ๋ต๋ณ์ ๊ทธ๋๋ก ๋ฏฟ์ผ๋ฉด ์ํํฉ๋๋ค. HACPO๋ ๋ค์ ๋ ๊ฐ์ง๋ฅผ ๊ณ ๋ คํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ ์ ํฉ๋๋ค.
- ๋ฅ๋ ฅ ์ฐจ์ด ์ธ์: ์ํ๋์ ๋ต๋ณ์ด ๋ง์ ํ๋ฅ ์ด ๋ฌธํ๋๋ณด๋ค ๋๋ค๋ฉด, ๊ทธ ์ ๋ณด๋ฅผ ๋ ๋์ ๊ฐ์ค์น๋ก ๋ฐ์ํฉ๋๋ค.
- ๋ถ์ฐ ๋ณด์ : ๋จ์ ๊ธ์ ๋ด๊ฐ ์ผ๋ค๊ณ ๊ฐ์ ํ๊ณ ํ์ตํ ๋ ๋ฐ์ํ๋ ์ค์ฐจ(Importance Sampling)๋ฅผ ์ํ์ ์ผ๋ก ๋ณด์ ํฉ๋๋ค.
- ์ ์ฑ ์ ๋ฐ์ดํธ: ์ ์ ๋ ๊ณต์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ์์ ์ ์ฑ (๋ชจ๋ธ)์ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด๋ ๋๋ฌด ํฐ ๋ณํ๋ฅผ ๋ง๊ธฐ ์ํด ๋จ๊ณ๋ณ ํด๋ฆฌํ(Stepwise Clipping)์ ์ ์ฉํฉ๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ค์ํ ์ํ์ ๊ธฐ์ฌ๋ โ๋ถํธ์ฑ(Unbiasedness)โ์ ์ ์ฆํ๋ ๊ฒ์ ๋๋ค.
๊ธฐ์กด ๋จ์ผ ์์ด์ ํธ ๋ฐฉ์์์๋ ์์ ์ด ์์ฑํ ๋ต๋ณ๋ค์ ํ๊ท ์ ์๋ฅผ ๊ธฐ์ค(Baseline)์ผ๋ก ์ผ์ ์ฐ์ํ ๋ต๋ณ์ ์ฅ๋ คํ์ต๋๋ค. HACPO๋ ์ด ๊ธฐ์ค์ ๋ค๋ฅธ ์์ด์ ํธ๋ค์ ๋ต๋ณ ์ ์๊น์ง ํฌํจํ์ฌ โํผํฉ ๊ธฐ์ค(Mixed Baseline)โ์ ๋ง๋ญ๋๋ค.
์์์ผ๋ก ํํํ๋ฉด, ์์ด์ ํธ k์ ๊ธฐ์ค(Mu)์ ๊ณ์ฐํ ๋ ๋ค๋ฅธ ์์ด์ ํธ๋ค์ ๋ฐ์ดํฐ๋ ์์ด์ ์ฌ์ฉํฉ๋๋ค. ๋ ผ๋ฌธ์ ์ ๋ฆฌ(Theorem 4.1)์ ๋ฐ๋ฅด๋ฉด, ์ด๋ ๊ฒ ๋จ์ ๋ฐ์ดํฐ๋ฅผ ์์ด์ ๊ธฐ์ค์ ์ก์๋ ์ํ์ ์ผ๋ก ํธํฅ(Bias)์ด ๋ฐ์ํ์ง ์์์ ์ฆ๋ช ํ์ต๋๋ค. ์ฆ, ๋จ์ ๊ฒฝํ์ ๊ณต์ ํด๋ ๋ด๊ฐ ํ์ตํด์ผ ํ ๋ฐฉํฅ์ด ํ์ด์ง์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฅํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ ๊ณต๋ ๋ ผ๋ฌธ ํ ์คํธ์๋ ๊ตฌ์ฒด์ ์ธ ์์น(์: ์ ํ๋ 95.2% ๋ฑ)๊ฐ ํฌํจ๋์ด ์์ง ์์ผ๋, ๊ฒฐ๋ก ๋ฐ ๋ด์ฉ ์์ฝ ๋ถ๋ถ์ ํตํด ๋ค์๊ณผ ๊ฐ์ ์ฑ๊ณผ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
- ํ ์คํธ ๋ฒค์น๋งํฌ: ์ฃผ๋ก ์ํ ๋ฌธ์ ํด๊ฒฐ(Mathematical Problem Solving)๊ณผ ์ฝ๋ ์์ฑ(Code Generation)๊ณผ ๊ฐ์ด ์๋ ๊ฒ์ฆ์ด ๊ฐ๋ฅํ ์์ ์ ๋์์ผ๋ก ์ํ๋์์ต๋๋ค. ์ด๋ RLVR(๏ฟฝ์ฆ ๊ฐ๋ฅํ ๋ณด์ ๊ฐํ ํ์ต) ํจ๋ฌ๋ค์์ ๋ฐ๋ฅด๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฑ๋ฅ: ๋ ๋ฆฝ์ ์ผ๋ก ํ์ตํ๋(Isolated) ๋ฐฉ์๊ณผ ๋น๊ตํ์ ๋ HACPO๋ฅผ ์ ์ฉํ์ ๋ ๋ชจ๋ ์์ด์ ํธ์ ์ฑ๋ฅ์ด ์ผ๊ด๋๊ฒ ๊ทธ๋ฆฌ๊ณ ์ ์๋ฏธํ๊ฒ ํฅ์๋์๋ค๊ณ ๋ณด๊ณ ํ๊ณ ์์ต๋๋ค.
- ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ: ๋จ์ํ ์ฑ๋ฅ์ด ์ข์์ง ๊ฒ์ ๋์ด, โ์ด๊ธฐ์ข (Heterogeneous)โ ํ๊ฒฝ์์๋ ํ์ต์ด ์์ ์ ์ด๋ผ๋ ์ ์ ๋๋ค. ์ฆ, ๋ชจ๋ธ์ ํฌ๊ธฐ๋ ์ํคํ ์ฒ๊ฐ ๋ค๋ฅธ GPT ๊ณ์ด ๋ชจ๋ธ๊ณผ Llama ๊ณ์ด ๋ชจ๋ธ์ด ์์ฌ ์์ด๋, ์๋ก์๊ฒ ๋์์ด ๋๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ์งํ๋จ์ ์ ์ฆํ์ต๋๋ค. ๋ํ, ๊ธฐ์กด์ ์ฆ๋ฅ(Distillation) ๋ฐฉ์์ด ์์ ๋ชจ๋ธ์์ ํ์ ๋ชจ๋ธ๋ก์ ์ผ๋ฐฉํฅ ํ์ต์ด์๋ค๋ฉด, ์ด ๋ฐฉ์์ ์๋ก๊ฐ ์๋ก์๊ฒ ๊ฐ๋ฅด์นจ์ ์ฃผ๋ ์๋ฐฉํฅ ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ ๋ ผ๋ฌธ์ ๊ฒฐ๋ก ๋ถ๋ถ์์ ์ด๋ก ์ ๋ถ์์ด โ์ ์ด๋ ์ด๊ธฐ์ข ์ฑ(Controlled Heterogeneity)โ ํ์์๋ง ์ ํจํจ์ ์ธ๊ธํ๊ณ ์์ต๋๋ค. ์ฆ, ์์ด์ ํธ ๊ฐ์ ๋ฅ๋ ฅ ์ฐจ์ด๋ ํน์ฑ ์ฐจ์ด๊ฐ ๋๋ฌดๆ็ซฏ(ๆฅต็ซฏ)ํ๊ฒ ํฌ์ง ์์ ๊ฒฝ์ฐ์๋ง ์ต์ ํ ๋ฐฉํฅ์ด ๋ณด์ฅ๋๋ค๋ ์๋ฏธ์ ๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์ ๋ฐ ํฅํ ์ฐ๊ตฌ
- ๊ทน๋จ์ ์ด์ง์ฑ ํ์ฅ: ์๋ก ์์ ํ ๋ค๋ฅธ ๋๋ฉ์ธ์ ์ ๋ฌธ์ผ๋ก ํ๊ฑฐ๋, ๋ฅ๋ ฅ ์ฐจ์ด๊ฐ ํ์ ํ ํฐ ๋ชจ๋ธ ๊ฐ์ ํ์ ํจ์จ์ฑ์ ๋์ด๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
- ํต์ ๋น์ฉ ์ต์ ํ: ์ค์ ๋ก ๋กค์์์ ๊ณต์ ํ๋ ๋ฐ ๋๋ ๋คํธ์ํฌ ๋น์ฉ์ด๋ ์ ์ฅ ๊ณต๊ฐ ํจ์จ์ฑ์ ๋ํ ๊ณ ๋ ค๊ฐ ๋ ํ์ํ ์ ์์ต๋๋ค.
- ์ ์์ ์ธ ์์ด์ ํธ ๋ฐฉ์ด: ํ์ ๊ณผ์ ์์ ์ผ๋ถ ์์ด์ ํธ๊ฐ ์ ์์ ์ผ๋ก ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฃผ์ ํ ๊ฒฝ์ฐ ์ด๋ฅผ ๋ฐฉ์ดํ๋ ๋ฉ์ปค๋์ฆ์ ํ์ฌ ๋ ผ๋ฌธ์์ ๋ค๋ฃจ์ง ์์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๊ณณ ์ฌ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ฐ๋ฐํ๊ฑฐ๋ ํ์ธ ํ๋ํ๋ ๊ธฐ์ ์ด๋ ์ฐ๊ตฌ์์ ๋ฐ๋ก ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํ์ฌ ๋ด์ โ์ผ๋ฐ ์ฉ๋ ๋ชจ๋ธโ, โ์ฝ๋ฉ ํนํ ๋ชจ๋ธโ, โ๋ฒ๋ฅ ํนํ ๋ชจ๋ธโ์ด ๊ฐ์ ๋ฐ๋ก ํ๋ จ๋๊ณ ์๋ค๋ฉด, HACRL์ ์ ์ฉํ์ฌ ํ๋ จ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฌผ์ ๊ณต์ ํจ์ผ๋ก์จ ์ ์ฒด ๋ชจ๋ธ๋ค์ ์ง๋ฅ์ ๋์์ ๋์ผ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
- GPU (์ฐ์ฐ ์์): ์ฌ๋ฌ ์์ด์ ํธ๊ฐ ๋์์ ํ์ตํด์ผ ํ๋ฏ๋ก ๋จ์ผ ๋ชจ๋ธ ํ๋ จ๋ณด๋ค ๋ง์ GPU ์์์ด ํ์ํฉ๋๋ค. ํ์ง๋ง ์ํ ํจ์จ์ด ์ข์์ ธ ์ ์ฒด์ ์ธ ํ์ต ์๊ฐ(Epoch)์ ์ค์ด๋ค ์ ์์ต๋๋ค.
- ๊ฒ์ฆ ์์คํ (Verifier): RLVR ๊ธฐ๋ฐ์ด๋ฏ๋ก ์ฝ๋๋ฅผ ์คํํ๊ฑฐ๋ ์ํ์ ํธ๋ ๋ฑ ์๋์ผ๋ก ๋ณด์์ ์ค ์ ์๋ ํ๊ฒฝ์ด ํ์์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ ๋๋ค.
- RLHF (Reinforcement Learning from Human Feedback): ์ธ๊ฐ์ ํผ๋๋ฐฑ์ ๋ณด์ ์ ํธ๋ก ์ฌ์ฉํ์ฌ ์ธ์ด ๋ชจ๋ธ์ ์ธ๊ฐ์ ์ ํธ์ ๋ง์ถฐ ํ๋ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- PPO (Proximal Policy Optimization): ๊ฐํ ํ์ต์์ ์ ์ฑ ์ ์ ๋ฐ์ดํธํ ๋ ํ ๋ฒ์ ๋๋ฌด ๋ง์ด ๋ฐ๋์ง ์๋๋ก ์ ์ฝ์ ๊ฑฐ๋ ๋ํ์ ์ธ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- On-Policy vs Off-Policy: ํ์ฌ ํ์ตํ๋ ค๋ ์ ์ฑ ์ด ์ง์ ์์ฑํ ๋ฐ์ดํฐ๋ก ํ์ตํ๋์ง(On-Policy), ๊ณผ๊ฑฐ์ ๋ค๋ฅธ ์ ์ฑ ์ด ๋ชจ์๋ ๋ฐ์ดํฐ๋ก ํ์ตํ๋์ง(Off-Policy)๋ฅผ ๋ํ๋ ๋๋ค.
- ์ง์ ์ฆ๋ฅ(Knowledge Distillation): ํฌ๊ณ ์ฑ๋ฅ ์ข์ ๋ชจ๋ธ(Teacher)์ ์ง์์ ์์ ๋ชจ๋ธ(Student)์๊ฒ ์ฎ๊ฒจ์ฃผ๋ ๊ธฐ์ ์ ๋๋ค.
- ์ด๊ธฐ์ข ์์ด์ ํธ(Heterogeneous Agents): ์๋ก ๋ค๋ฅธ ๊ตฌ์กฐ, ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ, ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง ์ฌ๋ฌ ๊ฐ์ ์์ด์ ํธ๋ฅผ ์๋ฏธํฉ๋๋ค.
- Importance Sampling (์ค์๋ ์ํ๋ง): ๋ค๋ฅธ ํ๋ฅ ๋ถํฌ์์ ์ป์ ์ํ์ ํ์ฌ์ ๋ถํฌ์์ ์ป์ ๊ฒ์ฒ๋ผ ๋ณด์ ํ์ฌ ์ฌ์ฉํ๋ ํต๊ณ์ ๊ธฐ๋ฒ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Utonia: Toward One Encoder for All โฆ | DD-036 |
| ๐ฅ | Heterogeneous Agent Collaborative Rโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | OmniLottie: Generating Vector Animaโฆ | DD-038 |
| 4. | Helios: Real Real-Time Long Video Gโฆ | DD-039 |
| 5. | From Scale to Speed: Adaptive Test-โฆ | DD-040 |
๐ ์์ฑ์ผ: 2026-03-08 | ๐ค GLM-4.7 Deep Dive