โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-040 From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

arXiv: 2603.00141 ๊ธฐ๊ด€: alibaba-inc Upvotes: 130 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 5



๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์ด๋ฏธ์ง€ ์ฒด์ธ์˜ค๋ธŒ์†ŒํŠธ(Image-CoT) ์—ฐ๊ตฌ๋Š” ์ฃผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ด๋ฏธ์ง€๋กœ ๋งŒ๋“œ๋Š” ์ƒ์„ฑ(T2I) ์ž‘์—…์— ์ง‘์ค‘ํ•˜์—ฌ, ์ •ํ•ด์ง„ ์˜ˆ์‚ฐ์œผ๋กœ ๋ฌด์ž‘์œ„ ์—ฌ๋Ÿฌ ์žฅ์„ ๊ทธ๋ฆฌ๋Š” ์‹์˜ ํšจ์œจ์„ฑ ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์ด๋ฏธ์ง€ ํŽธ์ง‘์€ ์›๋ณธ ์ด๋ฏธ์ง€์™€ ์ง€์‹œ ์‚ฌํ•ญ์ด๋ผ๋Š” ์ œ์•ฝ์ด ์žˆ๋Š” โ€˜๋ชฉํ‘œ ์ง€ํ–ฅ์ โ€™ ๊ณผ์ œ์ด๋ฏ€๋กœ, ๊ธฐ์กด ๋ฐฉ์‹์„ ๊ทธ๋Œ€๋กœ ์ ์šฉํ•˜๋ฉด ๋‹จ์ˆœํ•œ ํŽธ์ง‘์—๋„ ๋ถˆํ•„์š”ํ•˜๊ฒŒ ๋งŽ์€ ์ž์›์„ ๋‚ญ๋น„ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ํŽธ์ง‘ ๋‚œ์ด๋„๋ฅผ ์Šค์Šค๋กœ ํŒ๋‹จํ•˜์—ฌ ์ปดํ“จํŒ… ์ž์›์„ ํ•„์š”ํ•œ ๋งŒํผ๋งŒ ํ• ๋‹นํ•˜๋Š” ADE-CoT๋ผ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ํ’ˆ์งˆ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ตœ๋Œ€ 2๋ฐฐ ์ด์ƒ์˜ ์†๋„ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋ƒˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ โ€˜ํ˜„๋ช…ํ•œ ์‚ฌ์ง„ ์ž‘๊ฐ€โ€™์˜ ์ž‘์—… ๋ฐฉ์‹์„ AI์— ์ ์šฉํ•œ ๊ฒƒ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ผ์ƒ์ƒํ™œ ๋น„์œ : ๊ณ ์ˆ˜ ์‚ฌ์ง„ ์ž‘๊ฐ€ vs ์ดˆ๋ณด ์ž‘๊ฐ€

์ดˆ๋ณด ์ž‘๊ฐ€(๊ธฐ์กด ๋ฐฉ์‹, Best-of-N)๋Š” ์‚ฌ์ง„์„ ์ˆ˜์ •ํ•˜๋ผ๋Š” ์š”์ฒญ์„ ๋ฐ›์œผ๋ฉด, ๋ฌด์กฐ๊ฑด 32์žฅ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์ˆ˜์ •๋ณธ์„ ๋งŒ๋“  ๋’ค ๊ทธ์ค‘ ๊ฐ€์žฅ ์ข‹์€ ํ•œ ์žฅ์„ ๊ณ ๋ฆ…๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ โ€˜๋ฐฐ๊ฒฝ ์ƒ‰์ƒ์„ ๋ฐ”๊พธ๋ผโ€™๋Š” ์‰ฌ์šด ์š”์ฒญ์—๋„ ๋˜‘๊ฐ™์ด 32์žฅ์„ ๋งŒ๋“ค๋ฏ€๋กœ ์‹œ๊ฐ„๊ณผ ์ „๊ธฐ์„ธ๊ฐ€ ์—„์ฒญ๋‚˜๊ฒŒ ๋‚ญ๋น„๋ฉ๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด์— ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๊ณ ์ˆ˜ ์ž‘๊ฐ€(ADE-CoT)๋Š” ์š”์ฒญ ์‚ฌํ•ญ์„ ๋จผ์ € ๋“ค์–ด๋ด…๋‹ˆ๋‹ค.

  1. ๋‚œ์ด๋„ ์˜ˆ์ธก (Difficulty-aware): โ€œ๋ฐฐ๊ฒฝ ์ƒ‰์ƒ ๋ฐ”๊พธ๊ธฐ?โ€ ์‰ฌ์šฐ๋‹ˆ๊นŒ ๋”ฑ 2๋ฒˆ๋งŒ ์‹œ๋„ํ•ด๋ณด์ž. โ€œ์ „์‹  ๋А๋‚Œ ๋ฐ”๊พธ๊ณ  ๋’ค์— ์žˆ๋Š” ๊ฐ•์•„์ง€๋„ ๊ณ ์–‘์ด๋กœ ๋ฐ”๊พธ๊ธฐ?โ€ ์–ด๋ ค์šฐ๋‹ˆ๊นŒ 30๋ฒˆ ์ •๋„ ์‹œ๋„ํ•˜์ž.
  2. ์ดˆ๊ธฐ ๊ฒ€์ฆ (Edit-specific Verification): ์‚ฌ์ง„์„ ์™„์„ฑํ•˜๊ธฐ ์ „์— ๋Ÿฌํ”„ํ•œ ์ดˆ์•ˆ ์ƒํƒœ์—์„œ โ€˜๊ณ ์–‘์ด๊ฐ€ ์ œ๋Œ€๋กœ ์žˆ๋Š”์ง€โ€™๋ฅผ ๋ฏธ๋ฆฌ ํ™•์ธํ•ด์„œ, ์—‰๋šฑํ•˜๊ฒŒ ๊ทธ๋ ค์ง€๋Š” ๊ฒƒ์€ ๋ฐ”๋กœ ์ค‘๋‹จํ•ฉ๋‹ˆ๋‹ค.
  3. ๊ธฐํšŒ ๋ฉˆ์ถค (Opportunistic Stopping): 5๋ฒˆ์งธ ์‹œ๋„์—์„œ ์™„๋ฒฝํ•œ ์‚ฌ์ง„์ด ๋‚˜์™”๋‹ค๋ฉด, ์•ฝ์†๋œ 30๋ฒˆ์„ ์ฑ„์šฐ์ง€ ์•Š์•˜๋”๋ผ๋„ โ€œ์ด๊ฒŒ ๋‹ค๋‹ค!โ€ ํ•˜๊ณ  ์ž‘์—…์„ ๋ฉˆ์ถฅ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ๋‚œ์ด๋„ ์ธ์‹์ž…๋‹ˆ๋‹ค. ์›๋ณธ ์ด๋ฏธ์ง€(Isrc)์™€ ํŽธ์ง‘ ์ง€์‹œ(c)๋ฅผ ์ž…๋ ฅ๋ฐ›์œผ๋ฉด, ์ด ์ž‘์—…์ด ์–ผ๋งˆ๋‚˜ ๋ณต์žกํ• ์ง€ ๋ฏธ๋ฆฌ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ์— ๋”ฐ๋ผ โ€˜์˜ˆ์‚ฐ(์‹œ๋„ ํšŸ์ˆ˜)โ€˜์„ ๋™์ ์œผ๋กœ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค. ์‰ฌ์šด ํŽธ์ง‘์—๋Š” ์ ์€ ์˜ˆ์‚ฐ์„, ์–ด๋ ค์šด ํŽธ์ง‘์—๋Š” ๋งŽ์€ ์˜ˆ์‚ฐ์„ ๋ฐฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ์ดˆ๊ธฐ ๊ฐ€์ง€์น˜๊ธฐ์ž…๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด ์™„๋ฃŒ๋˜๊ธฐ ์ „์— ์ค‘๊ฐ„ ๋‹จ๊ณ„์˜ ๋…ธ์ด์ฆˆ๋ฅผ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์ผ๋ฐ˜์ ์ธ MLLM(๋‹ค์ค‘๋ชจ๋‹ฌ ์–ธ์–ด ๋ชจ๋ธ) ์ ์ˆ˜๋ฅผ ์“ฐ๋Š” ๋Œ€์‹ , ํŽธ์ง‘๋œ ์˜์—ญ์ด ์ง€์‹œ ์‚ฌํ•ญ๊ณผ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ํ•˜๋Š”์ง€๋ฅผ ํŠนํ™”๋œ ๊ฒ€์ฆ๊ธฐ๋ฅผ ํ†ตํ•ด ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ํ™•๋ฅ ์ด ๋‚ฎ์€ ํ›„๋ณด๋Š” ์ผ์ฐ์ด ํฌ๊ธฐํ•ด ์ž์›์„ ์•„๋‚๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„๋Š” ๊นŠ์ด ์šฐ์„  ํƒ์ƒ‰์ž…๋‹ˆ๋‹ค. ๋ชจ๋“  ํ›„๋ณด๋ฅผ ๋™์‹œ์— ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ•˜๋‚˜์”ฉ ์ฐจ๋ก€๋Œ€๋กœ ๋งŒ๋“ค์–ด๋ด…๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ถฉ๋ถ„ํžˆ ์ ์ˆ˜๊ฐ€ ๋†’์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋ฉด, ๋‚จ์€ ์˜ˆ์‚ฐ์ด ๋‚จ์•„์žˆ๋”๋ผ๋„ ์ฆ‰์‹œ ์ƒ์„ฑ์„ ๋ฉˆ์ถฅ๋‹ˆ๋‹ค. ์ฆ‰, ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๊ฐ€์žฅ ์ข‹์€ ๊ฒฐ๊ณผ(I*)๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์—์„œ ์ตœ์ ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์ ์ˆ˜ Vrf๊ฐ€ ์ž„๊ณ„๊ฐ’์„ ๋„˜์œผ๋ฉด ๋ฐ”๋กœ ๋ฉˆ์ถ”๋Š” ์กฐ๊ฑด์„ ์ถ”๊ฐ€ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์€ ํ˜„์žฌ ์ตœ๊ณ  ์„ฑ๋Šฅ(SOTA)์„ ๋ณด์—ฌ์ฃผ๋Š” FLUX.1 Kontext, BAGEL, Qwen-Image ๊ฐ™์€ ์ตœ์‹  ๋ชจ๋ธ๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ๋ฅผ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์€ GEdit-Bench-EN, AnyEdit-Test, Reason-Edit ๋“ฑ ์ด๋ฏธ์ง€ ํŽธ์ง‘ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ 3๊ฐ€์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ๋Š” ํšจ์œจ์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” Eta(ฮท)์™€ ์ƒ์„ฑ ์ค‘๋ณต์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” Xi(ฮพ) ๋“ฑ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•œ ๊ฒฝ์Ÿ ๋ชจ๋ธ์ธ BoN(Best-of-N)์ด๋‚˜ TTS-EF์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ, ADE-CoT๋Š” ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ์••๋„์ ์ธ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๋ฅผ ์‚ดํŽด๋ณด๋ฉด, FLUX.1 Kontext ๋ชจ๋ธ์—์„œ ADE-CoT๋Š” GEdit-Bench-EN ๋ฒค์น˜๋งˆํฌ ๊ธฐ์ค€์œผ๋กœ ๊ธฐ์กด BoN ๋Œ€๋น„ ์ตœ๋Œ€ 2.2๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, AnyEdit-Test์—์„œ๋Š” 2.4๋ฐฐ, Reason-Edit์—์„œ๋Š” 2.1๋ฐฐ ๋น ๋ฅธ ์†๋„๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ƒ์„ฑ ์ค‘๋ณต์„ฑ(ฮพ) ์ง€ํ‘œ์—์„œ๋Š” 5.5๋ฐฐ๊นŒ์ง€ ํ–ฅ์ƒ๋˜๋Š” ๋ชจ์Šต์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋ถˆํ•„์š”ํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์˜€์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋†€๋ผ์šด ์ ์€ ์ด์ฒ˜๋Ÿผ ์†๋„๋ฅผ 2๋ฐฐ ์ด์ƒ ๋†’์˜€์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ด๋ฏธ์ง€ ํ’ˆ์งˆ(CLIP ์ ์ˆ˜ ๋“ฑ)์€ ์ „ํ˜€ ๋–จ์–ด์ง€์ง€ ์•Š๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ์†Œํญ ๊ฐœ์„ ๋˜์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ๋ช…์‹œ์ ์œผ๋กœ ํ•œ๊ณ„์ ์„ ์–ธ๊ธ‰ํ•˜์ง€๋Š” ์•Š์•˜์ง€๋งŒ, ๋…ผ๋ฌธ์˜ ๊ตฌ์กฐ์ƒ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ€์žฅ ํฐ ์ž ์žฌ์  ํ•œ๊ณ„๋Š” โ€˜๋‚œ์ด๋„ ์˜ˆ์ธก ๋ชจ๋ธ์˜ ์ •ํ™•๋„โ€™์— ์˜์กดํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์‹œ์Šคํ…œ์ด โ€œ์‰ฌ์šด ํŽธ์ง‘โ€์ด๋ผ๊ณ  ์˜คํŒํ•˜์—ฌ ๋„ˆ๋ฌด ์ ์€ ์˜ˆ์‚ฐ์„ ํ• ๋‹นํ•˜๋ฉด, ์‚ฌ์šฉ์ž๋Š” ํ’ˆ์งˆ์ด ๋‚ฎ์€ ์ด๋ฏธ์ง€๋ฅผ ๋ฐ›๊ฒŒ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, ๊ฒ€์ฆ ๊ณผ์ •์—์„œ MLLM์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฒ€์ฆ๊ธฐ ์ž์ฒด์˜ ์ถ”๋ก  ์‹œ๊ฐ„์ด ์ „์ฒด ์ง€์—ฐ ์‹œ๊ฐ„(Latency)์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ๊ฒ€์ฆ๊ธฐ๋ฅผ ๋” ๊ฐ€๋ณ๊ณ  ๋น ๋ฅด๊ฒŒ ๋งŒ๋“ค๊ฑฐ๋‚˜, ์ด๋ฏธ์ง€ ํŽธ์ง‘๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋น„๋””์˜ค ํŽธ์ง‘๊ณผ ๊ฐ™์ด ๋” ๋ณต์žกํ•œ ๋ชฉํ‘œ ์ง€ํ–ฅํ˜• ์ƒ์„ฑ ์ž‘์—…์œผ๋กœ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์„ ๊ธฐ๋Œ€ํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๊ธฐ์ˆ ์€ ์‹ค์‹œ๊ฐ„์„ฑ์ด๋‚˜ ๋น„์šฉ ํšจ์œจ์„ฑ์ด ์ค‘์š”ํ•œ ์‹ค๋ฌด ํ™˜๊ฒฝ์— ๋ฐ”๋กœ ์ ์šฉํ•˜๊ธฐ์— ๋งค์šฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ โ€˜์Šค๋งˆํŠธ ํฌํ†  ์—๋””ํ„ฐโ€™, โ€˜์ „์ž์ƒ๊ฑฐ๋ž˜ ์ด๋ฏธ์ง€ ์ˆ˜์ • ๋„๊ตฌโ€™, โ€˜๋งˆ์ผ€ํŒ… ์ฝ˜ํ…์ธ  ์ƒ์„ฑ๊ธฐโ€™ ๋“ฑ์—์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ์ˆ˜์ •ํ•  ๋•Œ ๊ธฐ๋‹ค๋ฆฌ๋Š” ์‹œ๊ฐ„์„ ์ค„์ด๋ฉด์„œ๋„ ๊ณ ํ’ˆ์งˆ์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค ์ธก๋ฉด์—์„œ, ์ด ๋ฐฉ๋ฒ•์€ ํ•™์Šต์ด ํ•„์š” ์—†๋Š” Training-free ๋ฐฉ์‹์ด๋ฏ€๋กœ ๋ณ„๋„์˜ ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ๋ณธ ๋ชจ๋ธ(Diffusion Model)๊ณผ ๊ฒฐ๊ณผ๋ฌผ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” MLLM(์˜ˆ: GPT-4o์™€ ๊ฐ™์€ ๋ชจ๋ธ)์ด ๋™์‹œ์— ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ถฉ๋ถ„ํ•œ GPU ๋ฉ”๋ชจ๋ฆฌ(VRAM)๋ฅผ ํ™•๋ณดํ•˜์—ฌ ํ•˜๋‚˜์˜ ์„œ๋ฒ„์—์„œ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ์„ ๋™์‹œ์— ๊ตฌ๋™ํ•  ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ์ด ๊ฐ–์ถฐ์ ธ์•ผ ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. Diffusion Models (ํ™•์‚ฐ ๋ชจ๋ธ): ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒ์„ฑํ˜• AI์˜ ํ•ต์‹ฌ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค.
  2. Test-Time Scaling (์ถ”๋ก  ์‹œ๊ฐ„ ์Šค์ผ€์ผ๋ง): ๋ชจ๋ธ์„ ์žฌํ•™์Šตํ•˜์ง€ ์•Š๊ณ , ์ถ”๋ก (์ƒ์„ฑ) ๋‹จ๊ณ„์—์„œ ๋” ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ์ž์›์„ ํˆฌ์žํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  3. Image Editing (์ด๋ฏธ์ง€ ํŽธ์ง‘): ํ…์ŠคํŠธ ์ง€์‹œ์— ๋”ฐ๋ผ ์›๋ณธ ์ด๋ฏธ์ง€์˜ ํŠน์ • ๋ถ€๋ถ„์„ ์ˆ˜์ •ํ•˜๊ฑฐ๋‚˜ ๋ณ€๊ฒฝํ•˜๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค.
  4. Best-of-N (BoN): ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ฒฐ๊ณผ๋ฌผ์„ ์ƒ์„ฑํ•˜์—ฌ ๊ทธ์ค‘ ๊ฐ€์žฅ ์ข‹์€ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ์•™์ƒ๋ธ” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  5. MLLM (Multimodal Large Language Model): ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  6. Pruning (๊ฐ€์ง€์น˜๊ธฐ): ์ƒ์„ฑ ๊ณผ์ • ์ค‘์— ํ’ˆ์งˆ์ด ๋‚ฎ๋‹ค๊ณ  ํŒ๋‹จ๋˜๋Š” ํ›„๋ณด๋“ค์„ ์กฐ๊ธฐ์— ์ œ๊ฑฐํ•˜์—ฌ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๋Š” ์ตœ์ ํ™” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  7. Chain-of-Thought (CoT): AI๊ฐ€ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ๋•Œ ๊ณผ์ •์„ ๋‹จ๊ณ„๋ณ„๋กœ ์ƒ๊ฐํ•˜์—ฌ ๋‹ต์„ ๋„์ถœํ•˜๋Š” ์ถ”๋ก  ๋ฐฉ์‹์œผ๋กœ, ์—ฌ๊ธฐ์„œ๋Š” ์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ์‘์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Utonia: Toward One Encoder for All โ€ฆDD-036
๐ŸฅˆHeterogeneous Agent Collaborative Rโ€ฆDD-037
๐Ÿฅ‰OmniLottie: Generating Vector Animaโ€ฆDD-038
4.Helios: Real Real-Time Long Video Gโ€ฆDD-039
5.From Scale to Speed: Adaptive Test-โ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-08 | ๐Ÿค– GLM-4.7 Deep Dive