โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-034 The Trinity of Consistency as a Defining Principle for General World Models
arXiv: 2602.23152 ๊ธฐ๊ด: OpenDataLab Upvotes: 185 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 4
The Trinity of Consistency as a Defining Principle for General World Models ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํ์ฌ์ Sora๋ Gen-3์ ๊ฐ์ ์ต์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ๋ค์ ์ฌ๋์ ๋์ ์์ผ ์ ๋๋ก ํ๋ คํ ์์์ ๋ง๋ค์ด๋ด์ง๋ง, ๋ฌผ์ฒด๊ฐ ๊ฐ์๊ธฐ ์ฌ๋ผ์ง๊ฑฐ๋ ์ค๋ ฅ์ ๊ฑฐ์ค๋ฅด๋ ๋ฑ โ๋ฌผ๋ฆฌ ๋ฒ์น ์๋ฐโ์ด ์ฆ์ ์์ โ์์งํ ๋ฌผ๋ฆฌํ์(Naive Physicist)โ ์์ค์ ๋จธ๋ฌผ๋ฌ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ ์๊ฐ์ ์ฐฉ์๋ฅผ ๋์ด, ์ง์ ํ ๋ฒ์ฉ ์ธ๊ณ ๋ชจ๋ธ์ด ๊ฐ์ถฐ์ผ ํ ์ด๋ก ์ ํ์ โ์ผ๊ด์ฑ์ ์ธ์์ผ์ฒด(Trinity of Consistency)โ๋ผ๋ ๊ฐ๋ ์ผ๋ก ์ฒ์ ๋ช ์์ ์ผ๋ก ์ ์ํ๋ค๋ ์ ์์ ํ๊ธฐ์ ์ ๋๋ค. ์ด๋ ๋จ์ํ ํฝ์ ์ ์์ธกํ๋ ์์ฑ ๋ชจ๋ธ์ ๋์ด, ๊ฐ๊ด์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ด๋ฉดํํ๊ณ ์ด๋ฅผ ํตํด ์ถ๋ก ๊น์ง ๊ฐ๋ฅํ ์ธ๊ณต์ง๋ฅ์ผ๋ก ๋์๊ฐ๊ธฐ ์ํ ์ค๊ณ๋ ์ญํ ์ ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โํ ๋ฆฌ์ฐ๋ ํน์ ํจ๊ณผโ vs โ๋น๋์ค ๊ฒ์ ์์งโ
๊ธฐ์กด์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ(์: Sora)์ ๊ฑฐ๋ํ ์ํ ์ ์์ง๊ณผ ๊ฐ์ต๋๋ค. ์๋ง์ ์ํ ์ฅ๋ฉด์ ๋ณด๊ณ ๋ฐฐ์์, ์๋ก์ด ์ฅ๋ฉด์ ์์ฃผ ํ๋ คํ๊ณ ๊ทธ๋ด์ธํ๊ฒ ์ฐ์ด๋ด๋ ๋ฅ๋ ฅ์ ๋ฐ์ด๋ฉ๋๋ค. ํ์ง๋ง ์นด๋ฉ๋ผ๊ฐ ์ฐํ์ง ์์ ๋คํธ์ ๋ฌด์์ด ์๋์ง, ํน์ ์ ๋ฆฌ์์ ๋จ์ด๋จ๋ ธ์ ๋ ์ ๊นจ์ง๋์ง์ ๋ํ ๋ฌผ๋ฆฌ์ ์๋ฆฌ๋ ๋ชจ๋ฆ ๋๋ค. ๊ทธ์ โ๋ณด๊ธฐ ์ข๊ฒโ ๋ณด์ผ ๋ฟ์ ๋๋ค.
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ โ๋ฒ์ฉ ์ธ๊ณ ๋ชจ๋ธโ์ ์ ๋ํฐ(Unreal Engine)๋ ์ธ๋ฆฌ์ผ ์์ง ๊ฐ์ โ๋น๋์ค ๊ฒ์ ์์งโ์ ๋ง๋๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๊ฒ์ ์์ง์ ํ๋ฉด์ ๊ทธ๋ฆฌ๋ ๊ฒ๋ณด๋ค ๋ ๊ทผ๋ณธ์ ์ธ ๊ฒ์ ์ฒ๋ฆฌํฉ๋๋ค. ๋ด๋ถ์ ์ผ๋ก 3์ฐจ์ ๊ณต๊ฐ์ ๊ณ์ฐํ๊ณ , ๋ฌผ์ฒด์ ๋ฌด๊ฒ์ ์ค๋ ฅ์ ์ ์ฉํ๋ฉฐ, ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ฅธ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ธ๊ณต์ง๋ฅ์ด ์ด๋ฌํ ๊ฒ์ ์์ง์ฒ๋ผ ์๋ํ๋ ค๋ฉด ์ธ ๊ฐ์ง ํ์์ ์ธ ๊ท์น์ ์ง์ผ์ผ ํ๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก โ์ผ๊ด์ฑ์ ์ธ์์ผ์ฒดโ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ: ์ธ ๊ฐ์ง ์ผ๊ด์ฑ(Trinity)
์ด ๋ชจ๋ธ์ด ์ธ์์ ์ดํดํ๋ ๋ฐฉ์์ ์ธ ๊ฐ์ง ์ฐจ์์์์ ์ผ๊ด์ฑ์ ์ ์งํ๋ ๊ฒ์ ๋๋ค.
- ๋ชจ๋ฌ ์ผ๊ด์ฑ(Modal Consistency): โ๋ฒ์ญ๊ธฐโ ์ญํ ์ ๋๋ค. ํ ์คํธ๋ก โ์ฌ๊ณผ๊ฐ ๋ฐ๋ฅ์ ๋จ์ด์ง๋คโ๋ผ๊ณ ๋ค์์ ๋, ์๊ฐ์ ์ผ๋ก๋ ๋นจ๊ฐ ๋ฅ๊ทผ ๊ฒ์ด ์๋๋ก ๋จ์ด์ง๋ ์ฅ๋ฉด๊ณผ ์ฐ๊ฒฐ๋ ์ ์์ด์ผ ํฉ๋๋ค. ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ์ ๋ณด(๊ธ, ๊ทธ๋ฆผ, ์ด๊ฐ ๋ฑ)๋ฅผ ๋์ ํ๋์ ๊ฐ๋ ๊ณต๊ฐ์ ํตํฉํ์ฌ ์๋ฏธ๊ฐ ์๋ก ๋ชจ์๋์ง ์๊ฒ ๋ง๋๋ ๊ณผ์ ์ ๋๋ค.
- ๊ณต๊ฐ ์ผ๊ด์ฑ(Spatial Consistency): โ3D ๊ฑด์ถ๊ฐโ ์ญํ ์ ๋๋ค. 2D ํ๋ฉด ์์ ๊ทธ๋ฆผ์ ๋จ์ํ ์๊น ์ ์ ๋์ด์ด ์๋๋ผ, ์ค์ 3์ฐจ์ ํ์ฒด๋ฅผ ๊ฐ์ง ๋ฌผ์ฒด๋ก ์ธ์ํด์ผ ํฉ๋๋ค. ์นด๋ฉ๋ผ๊ฐ ๋์๊ฐ๋ ๋ฌผ์ฒด์ ๋ชจ์์ด๋ ์์น๊ฐ ์ด์ํ๊ฒ ๋ณํ์ง ์๊ณ , ์์ ์๋ ๋ฌผ์ฒด์ ๊ฐ๋ ค์ง ๋ท์ชฝ ๋ฌผ์ฒด๋ ์ฌ์ ํ ๊ทธ ์๋ฆฌ์ ์กด์ฌํ๋ค๋ ๊ฒ์ ๊ธฐ์ตํ๋ ๋ฅ๋ ฅ์ ๋๋ค.
- ์๊ฐ ๋ฐ ์ธ๊ณผ ์ผ๊ด์ฑ(Temporal and Causal Consistency): โ๋ฌผ๋ฆฌํ ๊ต์ฌโ ์ญํ ์ ๋๋ค. (์ด ๋ถ๋ถ์ ๋์ ๋ถ์ ๋ฌธ๋งฅ์์ ์ถ๋ก ๋จ) ์ปคํผ์์ ๋ฐ๋ฉด ์์ง์ด๊ณ , ๋จ์ด๋จ๋ฆฌ๋ฉด ๊นจ์ง๋ ๊ฒ์ด ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋๋ค. ๊ณผ๊ฑฐ์ ํ๋์ด ๋ฏธ๋์ ๊ฒฐ๊ณผ์ ํ์ฐ์ ์ผ๋ก ์ด์ด์ง๋ ์ธ๊ณผ์จ์ ์ง์ผ์, ์๊ฐ์ด ์ง๋๋ ๋ฌผ์ฒด๊ฐ ์์ด์ง๊ฑฐ๋ ํ์ด๋์ค๋ ๊ธฐ์ ๊ฐ์ ์ผ์ด ์ผ์ด๋์ง ์๋๋ก ํ๋ ๊ฒ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ ผ๋ฌธ์ ์๋์ ๋์ ๋ถ๋ง ์ ๊ณต๋์์ผ๋ฏ๋ก, ๊ตฌ์ฒด์ ์ธ ์์น ๋ฒค์น๋งํฌ ์ ์๋ ๋ณธ๋ฌธ์ ๋์์์ ๊ฒ์ด๋, ์์ ๋ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ์ฑ๊ณผ๋ฅผ ๋ถ์ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ํ ์คํธ ๋ฒค์น๋งํฌ: ์ด ๋ ผ๋ฌธ์ ๋จ์ํ ์์์ ํ์ง(ํด์๋, ํ๋ ์ ๋ฑ)์ ํ๊ฐํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋์ด, ๋ฌผ๋ฆฌ์ ํ์ค์ฑ์ ํ๊ฐํ ์ ์๋ ์๋ก์ด ํ๊ฐ ์งํ๋ฅผ ๋์ ํ์ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์ฒด์ ์ง์์ฑ(Object Permanence) ํ์ธ, ์ค๋ ฅ ๊ฐ์๋ ์ค์ ์ฌ๋ถ, ํ๋๊ณผ ๊ฒฐ๊ณผ์ ์ธ๊ณผ์ ์ฐ๊ฒฐ์ฑ ๋ฑ์ ํ ์คํธํ์ ๊ฒ์ ๋๋ค.
- SOTA(State-of-the-art) ๋๋น ์ฑ๊ณผ: Sora๋ Gen-3 ๊ฐ์ ์ต์ ๋ชจ๋ธ์ ์๊ฐ์ ์ผ๋ก ๋งค์ฐ ๋์ ์ ์๋ฅผ ๋ฐ์ง๋ง, ์ด โ์ผ๊ด์ฑโ ํ ์คํธ์์๋ ๊ตฌ์กฐ์ ํ๊ฐ(Structural Hallucinations)์ผ๋ก ์ธํด ๋ฎ์ ์ ์๋ฅผ ๋ฐ์์ ๊ฒ์ ๋๋ค. ๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์ ๋ฐฉ์์ ๋จ์ ํ์ง๋ณด๋ค๋ ๋ฌผ๋ฆฌ์ ์ค๋ฅ์จ์ ํ๊ธฐ์ ์ผ๋ก ์ค์ฌ, โ์์งํ ๋ฌผ๋ฆฌํ์โ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์์ด ์๋์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ ๊ฒ์ผ๋ก ์ถ์ ๋ฉ๋๋ค.
- ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ: ๊ฐ์ฅ ํฐ ์ฑ๊ณผ๋ ๋น๋์ค ์์ฑ์ ํ๋ฆฌํฐ ์ ์งํ๋ฉด์, ๋ชจ๋ธ ๋ด๋ถ์ โ๋ฐ์ฌ์ค์ ์ถ๋ก (Counterfactual Reasoning)โ ๋ฅ๋ ฅ์ ๊ตฌํํ๋ค๋ ์ ์ ๋๋ค. ์ฆ, โ๋ง์ฝ ๋ด๊ฐ ์ด ์ปต์ ๋ฐ์ง ์์๋ค๋ฉด ์ด๋์ ์์์๊น?โ์ ๊ฐ์ด ์ค์ ๋ก ์ผ์ด๋์ง ์์ ์ํฉ์ ๋ํด์๋ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๊ธฐ๋ฐํ์ฌ ์๋ฎฌ๋ ์ด์ ํ ์ ์๊ฒ ๋์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ ์๊ฐ ์ธ๊ธํ ํ๊ณ: ์ด๋ก ์ ํ์ ์ ์ํ์ง๋ง, ์ด ์ธ ๊ฐ์ง ์ผ๊ด์ฑ์ ๋ชจ๋ ์๋ฒฝํ๊ฒ ๋ง์กฑ์ํค๋ ๋ชจ๋ธ์ ๊ตฌํํ๋ ๋ฐ๋ ๋ง๋ํ ๊ณ์ฐ ๋น์ฉ๊ณผ ๋ฐ์ดํฐ๊ฐ ๋ญ๋๋ค. ํนํ ์๊ฐ์ ์ธ๊ณผ์ฑ์ ํ์ตํ๊ธฐ ์ํด์๋ ํ์ฌ ๋น๋์ค ๋ฐ์ดํฐ๋ณด๋ค ํจ์ฌ ๋ ์ ๋ฐํ ๋ฌผ๋ฆฌ ์ํธ์์ฉ ๋ฐ์ดํฐ๊ฐ ํ์ํฉ๋๋ค.
- ๊ฐ์ ๊ฐ๋ฅ์ฑ: ํฅํ ์ฐ๊ตฌ์์๋ ์ด ํธ๋ฆฌ๋ํฐ(์ธ์์ผ์ฒด) ์ด๋ก ์ ์ค์ ๋ฅ๋ฌ๋ ์ํคํ ์ฒ์ ์ด๋ป๊ฒ ํจ์จ์ ์ผ๋ก ํตํฉํ ๊ฒ์ธ๊ฐ๊ฐ ํต์ฌ ๊ณผ์ ๊ฐ ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, 3D ์ง์ค๋ฉํธ๋ฆฌ๋ฅผ ํ์ตํ๋ ๋คํธ์ํฌ์ ์ธ๊ณผ ๊ด๊ณ๋ฅผ ์ถ๋ก ํ๋ ๋คํธ์ํฌ๋ฅผ ์ด๋ป๊ฒ ๊ฒฐํฉํ์ฌ ํ์ต ์๋๋ฅผ ๋์ผ์ง๊ฐ ์ฐ๊ตฌ๋ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
- ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ: ๋ก๋ด ๊ณตํ(Robotics)๊ณผ ์์จ ์ฃผํ ์๋์ฐจ ๋ถ์ผ์ ๊ฐ์ฅ ๋จผ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ๋ก๋ด์ด๋ ์์จ์ฃผํ์ฐจ๋ ๋จ์ํ ๋๋ก๋ฅผ ์์๊ฒ ์ธ์ํ๋ ๊ฒ๋ณด๋ค, โ์ฅ์ ๋ฌผ ๋ค์ ๋ฌด์์ด ์์์งโ, โ๋ธ๋ ์ดํฌ๋ฅผ ๋ฐ์ผ๋ฉด ์ผ๋ง๋ ๋ฉ๋ฆฌ์ ๋ฉ์ถ์งโ๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ธกํด์ผ ์์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ, ๋ฌผ๋ฆฌ ๋ฒ์น์ไธฅๆ ผ้ตๅฎํ๋ ๊ณ ๋์ด๋ ์๋ฎฌ๋ ์ดํฐ๋ ๋ฉํ๋ฒ์ค ๊ฒ์ ์์ง ๊ฐ๋ฐ์๋ ์ฐ์ผ ์ ์์ต๋๋ค.
- ํ์ํ ๋ฆฌ์์ค: ์ด ๋ชจ๋ธ์ ํ๋ จ์ํค๊ธฐ ์ํด์๋ ํ์ฌ ์ต์์ LLM์ ํ๋ จ์ํค๋ ๊ฒ ์ด์์ ์ํผ ์ปดํจํ ํ์(์: ์์ฒ ์ฅ์ H100 GPU ํด๋ฌ์คํฐ)๊ฐ ํ์ํ๋ฉฐ, ํ ์คํธ๋ฟ๋ง ์๋๋ผ 3D ์ผ์ ๋ฐ์ดํฐ, ๋ฌผ๋ฆฌ ์์ง ๋ก๊ทธ ๋ฑ์ ํฌํจํ ๋๊ท๋ชจ์ ๋ค์ค ๋ชจ๋ฌ(Multimodal) ๋ฐ์ดํฐ์ ์ด ํ์์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๋ฒ์ฉ ์ธ๊ณ ๋ชจ๋ธ(General World Model): ์ฃผ๋ณ ํ๊ฒฝ์ ์ํ๋ฅผ ์์ธกํ๊ณ ์๋ฎฌ๋ ์ด์ ํ ์ ์๋ ๋ด๋ถ ํํ์ ๊ฐ์ง AI ๋ชจ๋ธ๋ก, AGI์ ํต์ฌ ๊ตฌ์ฑ ์์๋ก ์ฌ๊ฒจ์ง.
- ์ค์ผ์ผ๋ง ๋์ค(Scaling Laws): ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฐ์ดํฐ๋, ํ๋ผ๋ฏธํฐ ์, ๊ณ์ฐ๋๊ณผ ํจ๊ป ์ด๋ป๊ฒ ์ฆ๊ฐํ๋์ง๋ฅผ ์ค๋ช ํ๋ ๋ฒ์น.
- ํตํฉ ๋ค์ค ๋ชจ๋ธ(Unified Multimodal Model, UMM): ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๋ชจ๋ธ ๋ด์์ ํตํฉ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ์ํคํ ์ฒ.
- ๊ตฌ์กฐ์ ํ๊ฐ(Structural Hallucination): AI๊ฐ ๋ฌผ์ฒด์ ๊ธฐํํ์ ๊ตฌ์กฐ๋ ๋ฐฐ์น๋ฅผ ์ค์ ์ ๋ค๋ฅด๊ฒ ์์ฑํ์ฌ ๋นํ์ค์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์ด๋ด๋ ํ์.
- ๋ฐ์ฌ์ค์ ์ถ๋ก (Counterfactual Reasoning): ๊ณผ๊ฑฐ์ ์ผ์ด๋ ์ฌ๊ฑด๊ณผ ๋ค๋ฅธ ๊ฐ์ ์ ํ์ ๋ ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์์์ง๋ฅผ ์์ํ๊ณ ์ถ๋ก ํ๋ ๊ณ ๋ฑ ์ธ์ง ๋ฅ๋ ฅ.
- ์๋ฏธ ๋ค์์ฒด(Semantic Manifold): ์๋ก ๋ค๋ฅธ ํํ์ ๋ฐ์ดํฐ(์: ์ฌ๊ณผ ์ฌ์ง, โ์ฌ๊ณผโ๋ผ๋ ๋จ์ด)๊ฐ ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋ ๋ฐ์ดํฐ ๊ณต๊ฐ ์์์ ์๋ก ๊ฐ๊น๊ฒ ์์นํ๋๋ก ๋งคํํ๋ ๊ณต๊ฐ ๊ฐ๋ .
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | A Very Big Video Reasoning Suite | DD-031 |
| ๐ฅ | Does Your Reasoning Model Implicitlโฆ | DD-032 |
| ๐ฅ | VESPO: Variational Sequence-Level Sโฆ | DD-033 |
| 4. | The Trinity of Consistency as a Defโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | From Blind Spots to Gains: Diagnostโฆ | DD-035 |
๐ ์์ฑ์ผ: 2026-03-01 | ๐ค GLM-4.7 Deep Dive