โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-038 OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens
arXiv: 2603.02138 ๊ธฐ๊ด: Fudan University Upvotes: 134 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 3
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ธ๊ณต์ง๋ฅ ์์ ์์ฑ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก ํฝ์ (Raster) ๊ธฐ๋ฐ์ ๋น๋์ค๋ฅผ ๋ง๋ค์ด๋ด๊ธฐ ๋๋ฌธ์, ํด์๋๋ฅผ ํค์ฐ๋ฉด ํ์ง์ด ๊นจ์ง๊ณ ์์ฑ๋ ๊ฒฐ๊ณผ๋ฌผ์ ์์ ํ๋ ค๋ฉด ๋ค์ ๊ทธ๋ ค์ผ ํ๋ ์๋ง์ ์ด๋ ค์์ด ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์น๊ณผ ๋ชจ๋ฐ์ผ ํ๊ฒฝ์์ ํ์ค์ฒ๋ผ ์ฐ์ด๋ ๋ฒกํฐ ์ ๋๋ฉ์ด์ ์ธ ๋กํฐ(Lottie) ํ์์ ์ง์ ์์ฑํจ์ผ๋ก์จ, ํ ์คํธ๋ ์ด๋ฏธ์ง ์ ๋ ฅ๋ง์ผ๋ก๋ ์์ ๊ฐ๋ฅํ๊ณ ์ฉ๋์ด ์์ ๊ณ ํ์ง ์ ๋๋ฉ์ด์ ์ ์ ์ํ ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โํฝ์ โ ๋์ โ์กฐ๋ฆฝ์ ์ค๊ณ์โ
๊ธฐ์กด์ AI๊ฐ ์ ๋๋ฉ์ด์ ์ ๋ง๋๋ ๋ฐฉ์์ ์์ฒ ๊ฐ์ ๋ํธ(ํฝ์ )๋ฅผ ์ฐ์ด์ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ด๋ ๊ฒ ๊ทธ๋ฆฐ ๊ทธ๋ฆผ์ ํ๋ํ๋ฉด ๊ณ๋จ ํ์์ด ์๊ธฐ๊ณ , โ๋์ ์๊น์ ๋ฐ๊พธ์โ๊ณ ํ ๋ ๋์ด ์๋ ๋ชจ๋ ๋ํธ๋ฅผ ๋ค์ ์น ํด์ผ ํฉ๋๋ค. ๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ์์ โ์กฐ๋ฆฝ์ ์ฅ๋๊ฐ ์ค๊ณ์โ๋ฅผ ์์ฑํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. โ์์ 10cm ํฌ๊ธฐ๋ก ๊ทธ๋ฆฌ๊ณ , 1์ด์ 5cm์ฉ ์ค๋ฅธ์ชฝ์ผ๋ก ์ด๋์์ผ๋ผโ๋ผ๋ ์ฝ๋๋ฅผ ์์ฑํ๋ฉด, ์ด๋ฅผ ์ฝ๋ ํ๋ก๊ทธ๋จ์ด ์ํฉ์ ๋ง์ถฐ ์๋ฒฝํ ์ ์ ๊ทธ๋ ค์ค๋๋ค. OmniLottie๋ ๋ฐ๋ก ์ด โ์ค๊ณ์โ๋ฅผ AI๊ฐ ์ค์ค๋ก ์์ฑํ๊ฒ ํ๋ ๊ธฐ์ ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ํ ํฐํ(Tokenization): ๋ณต์กํ ๋ฒกํฐ ๋ํ๊ณผ ๋ช ๋ น์ด๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ๊ธฐ ์ฌ์ด ์์ ์กฐ๊ฐ(Token)๋ค๋ก ์ชผ๊ฐญ๋๋ค. ๋ง์น ์ธ์ด ๋ชจ๋ธ์ด ๋จ์ด๋ฅผ ํ ํฐ ๋จ์๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ฒ๋ผ, ์์ ์์น, ์์, ๊ณก๋ฅ ๊ฐ์ ์ ๋ณด๋ฅผ ์ซ์ ์ฝ๋๋ก ๋ณํํฉ๋๋ค.
- ํ๋ผ๋ฏธํฐํ(Parameterization): ๋จ์ํ ๋ํ์ ๋ชจ์๋ง ์ ์ํ๋ ๊ฒ์ด ์๋๋ผ, ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ฅธ ์์ง์(์๋, ๊ฐ์๋, ํฌ๋ช ๋ ๋ณํ ๋ฑ)์ ์ํ์ ํ๋ผ๋ฏธํฐ๋ก ํํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋๊น ์๋ ์์ฐ์ค๋ฌ์ด ์์ง์์ ๋ณด์ฅํฉ๋๋ค.
- ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ(Autoregressive) ์์ฑ: ์ด์ ํ ํฐ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ฐจ์ ์ผ๋ก ์์ธกํฉ๋๋ค. ์ฌ์ฉ์๊ฐ โํ๋์ ์๊ฐ ๋ ์๊ฐ๋คโ๋ ํ ์คํธ๋ฅผ ์ ๋ ฅํ๋ฉด, ๋ชจ๋ธ์ ํ ์คํธ์ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ๋ณด๊ณ ๊ฐ์ฅ ์ ์ ํ ๋ค์ ์ ๋๋ฉ์ด์ ์ฝ๋๋ฅผ ํ๋์ฉ ์ด์ด์ ์์ฑ๋ ๋กํฐ ํ์ผ์ ๋ง๋ค์ด๋ ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ๋กํฐ ํ์ผ์ ๊ตฌ์กฐ๋ฅผ ์ํธ์ค ๋ฐ์ดํฐ๋ก ๋ณํํ์ฌ ํธ๋์คํฌ๋จธ(Transformer) ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ก ํ์ต์ํจ ์ ์ ๋๋ค. ๋ฒกํฐ ๊ฒฝ๋ก(Path) ๋ฐ์ดํฐ์ ์ ๋๋ฉ์ด์ ์์ฑ(Property)์ ํตํฉ๋ ์ดํ์ง(Vocabulary)์ผ๋ก ๊ด๋ฆฌํ๋ฉฐ, ์ด๋ฅผ ๋ค์ค ๋ชจ๋(Multi-modal) ์กฐ๊ฑด(ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค)๊ณผ ๊ฒฐํฉํ์ฌ ์กฐ๊ฑด๋ถ ํ์ฐ ๋ชจ๋ธ์ด๋ ๋์ฝ๋ ์ ์ฉ ํธ๋์คํฌ๋จธ๋ฅผ ํตํด ์์ฑํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ฒค์น๋งํฌ ๋ฐ ๋ฐ์ดํฐ์
์ฐ๊ตฌ์ง์ ๋กํฐ ์ ๋๋ฉ์ด์ ๋ฐ์ดํฐ์ ์ธ โMMLottie-2Mโ์ ๊ตฌ์ถํ์ฌ ํ์ต์์ผฐ์ผ๋ฉฐ, ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด โMMLottieBenchโ๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ต๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ํ ์คํธ-๋กํฐ, ํ ์คํธ-์ด๋ฏธ์ง-๋กํฐ, ๋น๋์ค-๋กํฐ ๋ณํ ๋ฑ ๋ค์ํ ์์ ์ ํฌํจํฉ๋๋ค.
๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ฑ๋ฅ
๋ฒกํฐ ์ ๋๋ฉ์ด์ ์์ฑ ๋ฐ ํธ์ง ๊ฐ๋ฅ์ฑ ์ธก๋ฉด์์ ๊ธฐ์กด ํฝ์ ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ(Video Diffusion Models ๋ฑ)๊ณผ ๋น๊ตํ์ ๋, ์๋์ ์ธ ์์ ํธ์์ฑ๊ณผ ๊นจ์ง ์๋ ํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ ๋์ ์์น๋ก๋ CLIP Score(ํ ์คํธ์ ์ด๋ฏธ์ง์ ์ผ์น๋)์์ ์ฝ 5~8% ์ด์์ ํฅ์์ ๋ณด์์ผ๋ฉฐ, FVD(Frรฉchet Video Distance) ์งํ์์๋ ๋ ๋ฎ์ ์ ์๋ฅผ ๊ธฐ๋กํ์ฌ ์์ฐ์ค๋ฌ์ด ์์ง์์ ์์ฑํจ์ ์ ์ฆํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
ํนํ โ๋น๋์ค-ํฌ-๋กํฐ(Video-to-Lottie)โ ์์ ์์ ์ค์ฌ ์์์ ๊น๋ํ ๋ฒกํฐ ์คํ์ผ์ ์ ๋๋ฉ์ด์ ์ผ๋ก ๋ณํํ๋ ์ฑ๋ฅ์ด ๋ฐ์ด๋ฌ์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ์๋ค์ด ๋จ์ํ ์ฃ์ง ๊ฒ์ถ์ ๊ทธ์ณค๋ค๋ฉด, OmniLottie๋ ์์์ ์๋ฏธ๋ฅผ ํ์ ํ์ฌ ๋ฒกํฐ ์์๋ก ์ต์ ํํ์ฌ ์ฌ๊ตฌ์ฑํด๋์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
๋งค์ฐ ๊ธด ์๊ฐ์ ์ ๋๋ฉ์ด์ (Long-duration generation)์ ์์ฑํ ๋, ์๊ฐ์ด ์ง๋ ์๋ก ๋ฌผ์ฒด์ ํํ๊ฐ ๋ญ๊ฐ์ง๊ฑฐ๋ ๋งฅ๋ฝ์ด ์ผ์นํ์ง ์๋ โ์๊ฐ์ ์ผ๊ด์ฑ(Temporal Consistency)โ ์ด์๊ฐ ์กด์ฌํฉ๋๋ค. ๋ํ, ๋ณต์กํ ๋ฐฐ๊ฒฝ๊ณผ ์ฌ๋ฌ ๋ฌผ์ฒด๊ฐ ์ํธ์์ฉํ๋ ์ฅ๋ฉด์์๋ ๊ฐ์ฒด ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ํํ ๋ชจ๋ธ๋งํ๊ธฐ์ ์ด๋ ค์์ด ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ๋ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ ์ํคํ ์ฒ ๊ฐ๋ฐ๊ณผ, ๋ฌผ๋ฆฌ ์์ง(Physics Engine)์ ๊ฒฐํฉํ์ฌ ์ค๋ ฅ์ด๋ ์ถฉ๋ ๊ฐ์ ๋ฌผ๋ฆฌ์ ๋ฒ์น์ ๋ฒกํฐ ์ ๋๋ฉ์ด์ ์ ๋ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํ ๊ฒ์ ๋๋ค. ๋ํ, ์ฌ์ฉ์๊ฐ ์์ฑ๋ ๋กํฐ ํ์ผ์ ํน์ ๋ถ๋ถ์ ํด๋ฆญํด์ ์ง์ ์์ ํ ์ ์๋ ์ํธ์์ฉ ์ธํฐํ์ด์ค์ ๊ณ ๋ํ๋ ํ์ํฉ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
UI/UX ๋์์ธ ๋ถ์ผ์์ ๊ฐ์ฅ ๋จผ์ ํ์ฉ๋ ์ ์์ต๋๋ค. ๋ฒํผ์ ํด๋ฆญํ์ ๋์ ๋ฐ์์ด๋ ๋ก๋ฉ ํ๋ฉด๊ณผ ๊ฐ์ ๋ง์ดํฌ๋ก ์ธํฐ๋์ (Micro-interaction)์ ํ ์คํธ ํ๋กฌํํธ ํ๋๋ก ์ฆ์ ์์ฑํ์ฌ ๋์์ด๋์ ์ ๋ฌด ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๋์ผ ์ ์์ต๋๋ค. ๋ํ, ๋ง์ผํ ํ์ด ์ ํ ํ๋ณด์ฉ ๋ชจ์ ๊ทธ๋ํฝ์ ์ ๋ ดํ ๋น์ฉ๊ณผ ์งง์ ์๊ฐ ์์ ๋๋์ผ๋ก ์ ์ํ๋ ๋ฐ ์ฌ์ฉํ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
์ด ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด์๋ ๋๊ท๋ชจ์ ๊ณ ํ์ง ๋กํฐ ๋ฐ์ดํฐ์ A100๊ณผ ๊ฐ์ ๊ณ ์ฑ๋ฅ GPU ํด๋ฌ์คํฐ๊ฐ ํ์ํฉ๋๋ค. ํ์ง๋ง, ํ์ต๋ ๋ชจ๋ธ์ ์ถ๋ก (Inference) ๋จ๊ณ์์ ์ฌ์ฉํ๋ ๊ฒ์ ๋น๊ต์ ๊ฐ๋ฒผ์ด ์์ ์ด๋ฏ๋ก, ์ผ๋ฐ์ ์ธ ํด๋ผ์ฐ๋ ํ๊ฒฝ์ด๋ ์ฌ์ง์ด ์จํ๋ ๋ฏธ์ค ์๋ฒ์์๋ ์ค์๊ฐ ์์ฑ ์๋น์ค๋ฅผ ์ด์ํ๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๋กํฐ(Lottie): Airbnb์์ ๋ง๋ JSON ๊ธฐ๋ฐ์ ๋ฒกํฐ ์ ๋๋ฉ์ด์ ํ์ผ ํ์์ผ๋ก, ์ฉ๋์ด ์๊ณ ๋ชจ๋ ํด์๋์์ ๊นจ์ง์ง ์์ ์น๊ณผ ๋ชจ๋ฐ์ผ ์ ๋๋ฉ์ด์ ์ ํ์ค์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ๋ฒกํฐ ๊ทธ๋ํฝ์ค(Vector Graphics): ์ด๋ฏธ์ง๋ฅผ ์ (ํฝ์ )์ ์งํฉ์ด ์๋๋ผ ์ํ์ ๊ณก์ ๊ณผ ์ ์ ์ ๋ณด๋ก ์ ์ฅํ๋ ๋ฐฉ์์ผ๋ก, ํฌ๊ธฐ๋ฅผ ๋๋ ค๋ ํ์ง์ด ์์๋์ง ์์ต๋๋ค.
- ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ ๋ชจ๋ธ(Autoregressive Model): ์ด์ ์ ๋ฐ์ดํฐ๋ค์ ๋ฐํ์ผ๋ก ๋ค์์ ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋ ๋ฐฉ์์ ๋ชจ๋ธ๋ก, ์ฑGPT ๊ฐ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ์ด ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
- ๋ฒกํฐ ์์ํ(VQ-VAE): ์ฐ์์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ์ ์ ํด์ง ์ฝ๋๋ถ์ ์ด์ฐ์ ์ธ ์ฝ๋(์ธ๋ฑ์ค)๋ก ๋ณํํ๋ ์์ถ ๊ธฐ๋ฒ์ผ๋ก, ์ด๋ฏธ์ง๋ ์์์ ํ ํฐํํ ๋ ์์ฃผ ์ฐ์ ๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ(Multimodal): ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ ํตํฉ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ์ดํดํ๋ ์ธ๊ณต์ง๋ฅ ๊ธฐ์ ์ ์๋ฏธํฉ๋๋ค.
- ํธ๋์คํฌ๋จธ(Transformer): ์ ๋ ฅ ๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ โ์ดํ ์ (Attention)โ ๋ฉ์ปค๋์ฆ์ ํตํด ํ์ตํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ก, ํ๋ AI์ ํต์ฌ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Utonia: Toward One Encoder for All โฆ | DD-036 |
| ๐ฅ | Heterogeneous Agent Collaborative Rโฆ | DD-037 |
| ๐ฅ | OmniLottie: Generating Vector Animaโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | Helios: Real Real-Time Long Video Gโฆ | DD-039 |
| 5. | From Scale to Speed: Adaptive Test-โฆ | DD-040 |
๐ ์์ฑ์ผ: 2026-03-08 | ๐ค GLM-4.7 Deep Dive