โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-040 From Scale to Speed: Adaptive Test-Time Scaling for Image Editing
arXiv: 2603.00141 ๊ธฐ๊ด: alibaba-inc Upvotes: 130 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 5
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: From Scale to Speed: Adaptive Test-Time Scaling for Image Editing
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ด๋ฏธ์ง ์ฒด์ธ์ค๋ธ์ํธ(Image-CoT) ์ฐ๊ตฌ๋ ์ฃผ๋ก ํ ์คํธ๋ฅผ ์ด๋ฏธ์ง๋ก ๋ง๋๋ ์์ฑ(T2I) ์์ ์ ์ง์คํ์ฌ, ์ ํด์ง ์์ฐ์ผ๋ก ๋ฌด์์ ์ฌ๋ฌ ์ฅ์ ๊ทธ๋ฆฌ๋ ์์ ํจ์จ์ฑ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ๋ฐ๋ฉด ์ด๋ฏธ์ง ํธ์ง์ ์๋ณธ ์ด๋ฏธ์ง์ ์ง์ ์ฌํญ์ด๋ผ๋ ์ ์ฝ์ด ์๋ โ๋ชฉํ ์งํฅ์ โ ๊ณผ์ ์ด๋ฏ๋ก, ๊ธฐ์กด ๋ฐฉ์์ ๊ทธ๋๋ก ์ ์ฉํ๋ฉด ๋จ์ํ ํธ์ง์๋ ๋ถํ์ํ๊ฒ ๋ง์ ์์์ ๋ญ๋นํ๊ฒ ๋ฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ํธ์ง ๋์ด๋๋ฅผ ์ค์ค๋ก ํ๋จํ์ฌ ์ปดํจํ ์์์ ํ์ํ ๋งํผ๋ง ํ ๋นํ๋ ADE-CoT๋ผ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ํ์ง์ ์ ์งํ๋ฉด์๋ ์ต๋ 2๋ฐฐ ์ด์์ ์๋ ํฅ์์ ์ด๋์ด๋๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โํ๋ช ํ ์ฌ์ง ์๊ฐโ์ ์์ ๋ฐฉ์์ AI์ ์ ์ฉํ ๊ฒ์ผ๋ก ์ดํดํ ์ ์์ต๋๋ค.
์ผ์์ํ ๋น์ : ๊ณ ์ ์ฌ์ง ์๊ฐ vs ์ด๋ณด ์๊ฐ
์ด๋ณด ์๊ฐ(๊ธฐ์กด ๋ฐฉ์, Best-of-N)๋ ์ฌ์ง์ ์์ ํ๋ผ๋ ์์ฒญ์ ๋ฐ์ผ๋ฉด, ๋ฌด์กฐ๊ฑด 32์ฅ์ ์๋ก ๋ค๋ฅธ ์์ ๋ณธ์ ๋ง๋ ๋ค ๊ทธ์ค ๊ฐ์ฅ ์ข์ ํ ์ฅ์ ๊ณ ๋ฆ ๋๋ค. ๋จ์ํ โ๋ฐฐ๊ฒฝ ์์์ ๋ฐ๊พธ๋ผโ๋ ์ฌ์ด ์์ฒญ์๋ ๋๊ฐ์ด 32์ฅ์ ๋ง๋ค๋ฏ๋ก ์๊ฐ๊ณผ ์ ๊ธฐ์ธ๊ฐ ์์ฒญ๋๊ฒ ๋ญ๋น๋ฉ๋๋ค.
๋ฐ๋ฉด์ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๊ณ ์ ์๊ฐ(ADE-CoT)๋ ์์ฒญ ์ฌํญ์ ๋จผ์ ๋ค์ด๋ด ๋๋ค.
- ๋์ด๋ ์์ธก (Difficulty-aware): โ๋ฐฐ๊ฒฝ ์์ ๋ฐ๊พธ๊ธฐ?โ ์ฌ์ฐ๋๊น ๋ฑ 2๋ฒ๋ง ์๋ํด๋ณด์. โ์ ์ ๋๋ ๋ฐ๊พธ๊ณ ๋ค์ ์๋ ๊ฐ์์ง๋ ๊ณ ์์ด๋ก ๋ฐ๊พธ๊ธฐ?โ ์ด๋ ค์ฐ๋๊น 30๋ฒ ์ ๋ ์๋ํ์.
- ์ด๊ธฐ ๊ฒ์ฆ (Edit-specific Verification): ์ฌ์ง์ ์์ฑํ๊ธฐ ์ ์ ๋ฌํํ ์ด์ ์ํ์์ โ๊ณ ์์ด๊ฐ ์ ๋๋ก ์๋์งโ๋ฅผ ๋ฏธ๋ฆฌ ํ์ธํด์, ์๋ฑํ๊ฒ ๊ทธ๋ ค์ง๋ ๊ฒ์ ๋ฐ๋ก ์ค๋จํฉ๋๋ค.
- ๊ธฐํ ๋ฉ์ถค (Opportunistic Stopping): 5๋ฒ์งธ ์๋์์ ์๋ฒฝํ ์ฌ์ง์ด ๋์๋ค๋ฉด, ์ฝ์๋ 30๋ฒ์ ์ฑ์ฐ์ง ์์๋๋ผ๋ โ์ด๊ฒ ๋ค๋ค!โ ํ๊ณ ์์ ์ ๋ฉ์ถฅ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๊ณผ์
์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ๋์ด๋ ์ธ์์ ๋๋ค. ์๋ณธ ์ด๋ฏธ์ง(Isrc)์ ํธ์ง ์ง์(c)๋ฅผ ์ ๋ ฅ๋ฐ์ผ๋ฉด, ์ด ์์ ์ด ์ผ๋ง๋ ๋ณต์กํ ์ง ๋ฏธ๋ฆฌ ์ถ์ ํฉ๋๋ค. ๊ทธ์ ๋ฐ๋ผ โ์์ฐ(์๋ ํ์)โ์ ๋์ ์ผ๋ก ํ ๋นํฉ๋๋ค. ์ฌ์ด ํธ์ง์๋ ์ ์ ์์ฐ์, ์ด๋ ค์ด ํธ์ง์๋ ๋ง์ ์์ฐ์ ๋ฐฐ์ ํฉ๋๋ค.
๋ ๋ฒ์งธ ๋จ๊ณ๋ ์ด๊ธฐ ๊ฐ์ง์น๊ธฐ์ ๋๋ค. ์ด๋ฏธ์ง ์์ฑ์ด ์๋ฃ๋๊ธฐ ์ ์ ์ค๊ฐ ๋จ๊ณ์ ๋ ธ์ด์ฆ๋ฅผ ํ์ธํฉ๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ธ MLLM(๋ค์ค๋ชจ๋ฌ ์ธ์ด ๋ชจ๋ธ) ์ ์๋ฅผ ์ฐ๋ ๋์ , ํธ์ง๋ ์์ญ์ด ์ง์ ์ฌํญ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง๋ฅผ ํนํ๋ ๊ฒ์ฆ๊ธฐ๋ฅผ ํตํด ํ์ธํฉ๋๋ค. ํ๋ฅ ์ด ๋ฎ์ ํ๋ณด๋ ์ผ์ฐ์ด ํฌ๊ธฐํด ์์์ ์๋๋๋ค.
๋ง์ง๋ง ๋จ๊ณ๋ ๊น์ด ์ฐ์ ํ์์ ๋๋ค. ๋ชจ๋ ํ๋ณด๋ฅผ ๋์์ ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ, ํ๋์ฉ ์ฐจ๋ก๋๋ก ๋ง๋ค์ด๋ด ๋๋ค. ๋ง์ฝ ์ถฉ๋ถํ ์ ์๊ฐ ๋์ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋ฉด, ๋จ์ ์์ฐ์ด ๋จ์์๋๋ผ๋ ์ฆ์ ์์ฑ์ ๋ฉ์ถฅ๋๋ค. ์ฆ, ์์์ผ๋ก ํํํ๋ฉด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ(I*)๋ฅผ ์ฐพ๋ ๊ณผ์ ์์ ์ต์ ํ๋ฅผ ์ํํ๋ฉฐ, ์ ์ Vrf๊ฐ ์๊ณ๊ฐ์ ๋์ผ๋ฉด ๋ฐ๋ก ๋ฉ์ถ๋ ์กฐ๊ฑด์ ์ถ๊ฐํ ๊ฒ์ ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ํ์ฌ ์ต๊ณ ์ฑ๋ฅ(SOTA)์ ๋ณด์ฌ์ฃผ๋ FLUX.1 Kontext, BAGEL, Qwen-Image ๊ฐ์ ์ต์ ๋ชจ๋ธ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๋ฒค์น๋งํฌ ํ ์คํธ๋ฅผ ์งํํ์ต๋๋ค. ํ ์คํธ ๋ฐ์ดํฐ์ ์ GEdit-Bench-EN, AnyEdit-Test, Reason-Edit ๋ฑ ์ด๋ฏธ์ง ํธ์ง ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ํ์ ์ธ 3๊ฐ์ง ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ต๋๋ค.
์ฑ๋ฅ ํ๊ฐ ์งํ๋ก๋ ํจ์จ์ฑ์ ๋ํ๋ด๋ Eta(ฮท)์ ์์ฑ ์ค๋ณต์ฑ์ ๋ํ๋ด๋ Xi(ฮพ) ๋ฑ์ ์ฌ์ฉํ์ต๋๋ค. ๊ธฐ์กด์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๊ฒฝ์ ๋ชจ๋ธ์ธ BoN(Best-of-N)์ด๋ TTS-EF์ ๋น๊ตํ์ ๋, ADE-CoT๋ ๋ชจ๋ ์งํ์์ ์๋์ ์ธ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๊ตฌ์ฒด์ ์ธ ์์น๋ฅผ ์ดํด๋ณด๋ฉด, FLUX.1 Kontext ๋ชจ๋ธ์์ ADE-CoT๋ GEdit-Bench-EN ๋ฒค์น๋งํฌ ๊ธฐ์ค์ผ๋ก ๊ธฐ์กด BoN ๋๋น ์ต๋ 2.2๋ฐฐ์ ์๋ ํฅ์์ ๋ฌ์ฑํ์ผ๋ฉฐ, AnyEdit-Test์์๋ 2.4๋ฐฐ, Reason-Edit์์๋ 2.1๋ฐฐ ๋น ๋ฅธ ์๋๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํนํ ์์ฑ ์ค๋ณต์ฑ(ฮพ) ์งํ์์๋ 5.5๋ฐฐ๊น์ง ํฅ์๋๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ถํ์ํ ์ด๋ฏธ์ง ์์ฑ์ ํ๊ธฐ์ ์ผ๋ก ์ค์์์ ์ ์ฆํ์ต๋๋ค. ๋๋ผ์ด ์ ์ ์ด์ฒ๋ผ ์๋๋ฅผ 2๋ฐฐ ์ด์ ๋์์์๋ ๋ถ๊ตฌํ๊ณ , ์ด๋ฏธ์ง ํ์ง(CLIP ์ ์ ๋ฑ)์ ์ ํ ๋จ์ด์ง์ง ์๊ฑฐ๋ ์คํ๋ ค ์ํญ ๊ฐ์ ๋์๋ค๋ ๊ฒ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ๋ช ์์ ์ผ๋ก ํ๊ณ์ ์ ์ธ๊ธํ์ง๋ ์์์ง๋ง, ๋ ผ๋ฌธ์ ๊ตฌ์กฐ์ ์ถ์ ํ ์ ์๋ ๋ถ๋ถ๋ค์ด ์์ต๋๋ค. ๊ฐ์ฅ ํฐ ์ ์ฌ์ ํ๊ณ๋ โ๋์ด๋ ์์ธก ๋ชจ๋ธ์ ์ ํ๋โ์ ์์กดํ๋ค๋ ์ ์ ๋๋ค. ๋ง์ฝ ์์คํ ์ด โ์ฌ์ด ํธ์งโ์ด๋ผ๊ณ ์คํํ์ฌ ๋๋ฌด ์ ์ ์์ฐ์ ํ ๋นํ๋ฉด, ์ฌ์ฉ์๋ ํ์ง์ด ๋ฎ์ ์ด๋ฏธ์ง๋ฅผ ๋ฐ๊ฒ ๋ ์ ์์ต๋๋ค.
๋ํ, ๊ฒ์ฆ ๊ณผ์ ์์ MLLM์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๊ฒ์ฆ๊ธฐ ์์ฒด์ ์ถ๋ก ์๊ฐ์ด ์ ์ฒด ์ง์ฐ ์๊ฐ(Latency)์ ์ํฅ์ ์ค ์ ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ด ๊ฒ์ฆ๊ธฐ๋ฅผ ๋ ๊ฐ๋ณ๊ณ ๋น ๋ฅด๊ฒ ๋ง๋ค๊ฑฐ๋, ์ด๋ฏธ์ง ํธ์ง๋ฟ๋ง ์๋๋ผ ๋น๋์ค ํธ์ง๊ณผ ๊ฐ์ด ๋ ๋ณต์กํ ๋ชฉํ ์งํฅํ ์์ฑ ์์ ์ผ๋ก ํ๋ ์์ํฌ๋ฅผ ํ์ฅํ๋ ๊ฒ์ ๊ธฐ๋ํด ๋ณผ ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ์ค์๊ฐ์ฑ์ด๋ ๋น์ฉ ํจ์จ์ฑ์ด ์ค์ํ ์ค๋ฌด ํ๊ฒฝ์ ๋ฐ๋ก ์ ์ฉํ๊ธฐ์ ๋งค์ฐ ์ ํฉํฉ๋๋ค. ๋ํ์ ์ผ๋ก โ์ค๋งํธ ํฌํ ์๋ํฐโ, โ์ ์์๊ฑฐ๋ ์ด๋ฏธ์ง ์์ ๋๊ตฌโ, โ๋ง์ผํ ์ฝํ ์ธ ์์ฑ๊ธฐโ ๋ฑ์์ ํ์ฉ๋ ์ ์์ต๋๋ค. ์ฌ์ฉ์๊ฐ ์ด๋ฏธ์ง๋ฅผ ์์ ํ ๋ ๊ธฐ๋ค๋ฆฌ๋ ์๊ฐ์ ์ค์ด๋ฉด์๋ ๊ณ ํ์ง์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
ํ์ํ ๋ฆฌ์์ค ์ธก๋ฉด์์, ์ด ๋ฐฉ๋ฒ์ ํ์ต์ด ํ์ ์๋ Training-free ๋ฐฉ์์ด๋ฏ๋ก ๋ณ๋์ ๋ฐ์ดํฐ์ ์ด ํ์ ์์ต๋๋ค. ๋ค๋ง, ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ธฐ๋ณธ ๋ชจ๋ธ(Diffusion Model)๊ณผ ๊ฒฐ๊ณผ๋ฌผ์ ํ๊ฐํ ์ ์๋ MLLM(์: GPT-4o์ ๊ฐ์ ๋ชจ๋ธ)์ด ๋์์ ํ์ํฉ๋๋ค. ๋ฐ๋ผ์ ์ถฉ๋ถํ GPU ๋ฉ๋ชจ๋ฆฌ(VRAM)๋ฅผ ํ๋ณดํ์ฌ ํ๋์ ์๋ฒ์์ ๋ ๊ฐ์ง ๋ชจ๋ธ์ ๋์์ ๊ตฌ๋ํ ์ ์๋ ํ๊ฒฝ์ด ๊ฐ์ถฐ์ ธ์ผ ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Diffusion Models (ํ์ฐ ๋ชจ๋ธ): ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์์ฑํ AI์ ํต์ฌ ์ํคํ ์ฒ์ ๋๋ค.
- Test-Time Scaling (์ถ๋ก ์๊ฐ ์ค์ผ์ผ๋ง): ๋ชจ๋ธ์ ์ฌํ์ตํ์ง ์๊ณ , ์ถ๋ก (์์ฑ) ๋จ๊ณ์์ ๋ ๋ง์ ์๊ฐ๊ณผ ์์์ ํฌ์ํ์ฌ ์ฑ๋ฅ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Image Editing (์ด๋ฏธ์ง ํธ์ง): ํ ์คํธ ์ง์์ ๋ฐ๋ผ ์๋ณธ ์ด๋ฏธ์ง์ ํน์ ๋ถ๋ถ์ ์์ ํ๊ฑฐ๋ ๋ณ๊ฒฝํ๋ ์์ ์ ๋๋ค.
- Best-of-N (BoN): ์ฌ๋ฌ ๊ฐ์ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํ์ฌ ๊ทธ์ค ๊ฐ์ฅ ์ข์ ํ๋๋ฅผ ์ ํํ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ์์๋ธ ๊ธฐ๋ฒ์ ๋๋ค.
- MLLM (Multimodal Large Language Model): ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๋๋ค.
- Pruning (๊ฐ์ง์น๊ธฐ): ์์ฑ ๊ณผ์ ์ค์ ํ์ง์ด ๋ฎ๋ค๊ณ ํ๋จ๋๋ ํ๋ณด๋ค์ ์กฐ๊ธฐ์ ์ ๊ฑฐํ์ฌ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๋ ์ต์ ํ ๊ธฐ๋ฒ์ ๋๋ค.
- Chain-of-Thought (CoT): AI๊ฐ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ์๊ฐํ์ฌ ๋ต์ ๋์ถํ๋ ์ถ๋ก ๋ฐฉ์์ผ๋ก, ์ฌ๊ธฐ์๋ ์ด๋ฏธ์ง ์์ฑ์ ์์ฉ๋์์ต๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Utonia: Toward One Encoder for All โฆ | DD-036 |
| ๐ฅ | Heterogeneous Agent Collaborative Rโฆ | DD-037 |
| ๐ฅ | OmniLottie: Generating Vector Animaโฆ | DD-038 |
| 4. | Helios: Real Real-Time Long Video Gโฆ | DD-039 |
| 5. | From Scale to Speed: Adaptive Test-โฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-03-08 | ๐ค GLM-4.7 Deep Dive