โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-020 PaperBanana: Automating Academic Illustration for AI Scientists
arXiv: 2601.23265 ๊ธฐ๊ด: Google Upvotes: 137 | Comments: 12 ์์: ์ด๋ฒ ์ฃผ Top 5
๐ PaperBanana: Automating Academic Illustration for AI Scientists (Deep Dive)
Review Status: โ Deep Analysis Complete Target Audience: Junior AI/ML Developers & Researchers Review Date: 2026-02-02 (Based on paper release)
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
ํ์ฌ์ โ์คํ ํ๋กํธ(AutoML)โ๋ โAI ๊ณผํ์โ๋ค์ ํ ์คํธ(๋ ผ๋ฌธ ์ฐ๊ธฐ)๋ ์ฝ๋(์คํ)๋ ์๋ํํ์ง๋ง, ๋ ผ๋ฌธ์ ํต์ฌ์ธ โ์ผ๋ฌ์คํธ(๋ํ)โ ์์ฑ์ ์ฌ์ ํ ์ฌ๋์ ์์ ํ์๋ก ํ๋ค๋ ๋ฌธ์ ์ ์ด ์์ต๋๋ค. ๊ธฐ์กด์ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ํ์ ์ ์ ํ๋(Faithfulness)๊ฐ ๋จ์ด์ง๊ณ , ์ฝ๋ ๊ธฐ๋ฐ(TikZ ๋ฑ) ๋ฐฉ์์ ํํ๋ ฅ์ ํ๊ณ๊ฐ ์์ฃ .
์ด ๋ ผ๋ฌธ์ **5๊ฐ์ง ์ ๋ฌธ ์์ด์ ํธ(Agent) ํ์ ์์คํ (PaperBanana)**์ ์ ์ํ์ฌ, ๋ณต์กํ ๋ ผ๋ฌธ์ ๋ฉ์๋๋ฅผ ์ฝ๊ณ ์ฐธ๊ณ ๋ฌธํ์ ์ฐพ์๋ณธ ๋ค, ์ถํ ๊ฐ๋ฅํ ํ๋ฆฌํฐ์ ๋ํ๋ฅผ ์๋์ผ๋ก ๊ทธ๋ ค์ฃผ๋ ์์คํ ์ ๊ตฌํํ๋ค๋ ์ ์์ ํ๊ธฐ์ ์ ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ฌ ๋น์ : โ์ํ ์ ์ ํโ์ ํ์
๋ ผ๋ฌธ์ ๋ํ ํ๋๋ฅผ ๊ทธ๋ฆฌ๋ ๊ณผ์ ์ **โ์ํ ํ ํธ์ ๋ง๋๋ ๊ณผ์ โ**์ผ๋ก ์๊ฐํด ๋ณด์ธ์. ๊ธฐ์กด AI๋ โ์ํ ์ฐ์ดโ๋ผ๊ณ ํ ๋ฒ์ ์์ผฐ๋ค๊ฐ ์๋ง์ง์ฐฝ์ธ ๊ฒฐ๊ณผ๊ฐ ๋์์ต๋๋ค. PaperBanana๋ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ๋ฌธ๊ฐ๋ค์ ๊ณ ์ฉํ์ต๋๋ค.
- ์๋ฃ ์กฐ์ฌ์ (Retriever Agent):
- ์ด ๋ ผ๋ฌธ์ ์ฃผ์ (์: Transformer)์ ๋น์ทํ ๊ฐ์ฑ์ ๊ฐ์ง ๊ธฐ์กด์ ๋ฉ์ง ํฌ์คํฐ(์ฐธ๊ณ ๋ํ)๋ค์ ๋์๊ด์์ ์ฐพ์์ต๋๋ค.
- ๊ฐ๋
& ์๊ฐ (Planner & Stylist Agent):
- ์๋ณธ ๋ ผ๋ฌธ ๋ด์ฉ์ ์ฝ๊ณ , โ์, ์ฌ๊ธฐ์๋ ์ด๋ฐ ์์ด์ฝ์ ์ฐ๊ณ , ๋ฐฐ๊ฒฝ์ ํ์์์ผ๋ก ํ์โ๋ผ๊ณ ๊ตฌ์ฒด์ ์ธ ๋๋ณธ๊ณผ ์ฐ์ถ ๊ณํ์ ์ธ์๋๋ค.
- ํ๊ฐ (Visualizer Agent):
- ์ค์ ๋ก ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ(DALL-E๋ Midjourney ๊ฐ์)์ ์ฌ์ฉํด ๊ทธ๋ฆผ์ ๊ทธ๋ฆฝ๋๋ค.
- ํ๋ก ๊ฐ (Critic Agent):
- ๊ทธ๋ ค์ง ๊ทธ๋ฆผ์ ๋ณด๊ณ โ์ด ํ์ดํ ๋ฐฉํฅ์ด ํ๋ ธ์ดโ, โ๊ธ์๊ฐ ๋๋ฌด ์์โ๋ผ๊ณ ์ง์ ํฉ๋๋ค.
- ๋ฐ๋ณต (Iterative Refinement):
- ํ๋ก ๊ฐ๊ฐ โํฉ๊ฒฉโ์ ์ค ๋๊น์ง 3~4๋ฒ ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ๊ณผ์
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ **Linear Planning Phase(์ ํ ๊ณํ ๋จ๊ณ)**์ **Iterative Refinement Loop(๋ฐ๋ณต ์ ์ ๋ฃจํ)**๋ก ๋๋ฉ๋๋ค.
- ์ ๋ ฅ (Input): ๋ ผ๋ฌธ์ ๋ฉ์๋ ์ค๋ช ํ ์คํธ($S$)์ ๊ทธ๋ฆผ์ ๋ํ ์ค๋ช ($C$).
- ์ฐธ์กฐ ๊ฒ์ (Retrieval):
- ๊ธฐ์กด ๋ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค($R$)์์ ๊ฐ์ฅ ๋น์ทํ ์์ $N$๊ฐ๋ฅผ ๋ฝ์์ต๋๋ค. ์ด๋ ๋จ์ํ ํค์๋ ๋งค์นญ๋ง ํ๋ ๊ฒ ์๋๋ผ, VLM(๋น์ -์ธ์ด ๋ชจ๋ธ)์ ์ด์ฉํด โ์ด ๋ํ์ ๊ตฌ์กฐ๊ฐ ํ์ดํ๋ผ์ธ์ด์ผ?โ ์ฒ๋ผ ๋ ผ๋ฆฌ์ ์ธ ๋งค์นญ์ ์ํํฉ๋๋ค.
- $$E = VLM_{Ret}(S, C, {(S_i, C_i)}_{E_i \in R})$$
- ์คํ์ผ ์ต์ ํ ๋ฐ ์์ฑ: ๋ฝํ ์ฐธ์กฐ ๋ํ๋ฅผ ๋ณด๊ณ , ํ์ฌ ๋ ผ๋ฌธ์ ๋ง๋ ์คํ์ผ๊ณผ ๋ ์ด์์์ ๊ธฐ์ ํ ํ๋กฌํํธ๋ฅผ ๋ง๋ญ๋๋ค.
- ํผ๋๋ฐฑ ๋ฃจํ: Visualizer๊ฐ ๊ทธ๋ฆผ์ ๊ทธ๋ฆฌ๋ฉด Critic๊ฐ **Faithfulness(๋ด์ฉ ์ ํ๋)**์ **Aesthetic(๋ฏธ์ ์์ฑ๋)**๋ฅผ ํ๊ฐํฉ๋๋ค. ์ ์๊ฐ ๋ฎ์ผ๋ฉด ๋ค์ ๊ทธ๋ฆฝ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ์ฐ๊ตฌ์๋ค์ด ์ง์ ๋ง๋ ๋ฒค์น๋งํฌ์ธ PaperBananaBench๋ฅผ ์ฌ์ฉํด ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค.
๐ ์ฑ๋ฅ ๋น๊ต (Overall Score ๊ธฐ์ค)
| ๋ฐฉ๋ฒ๋ก (Method) | ๋ชจ๋ธ | Faithfulness (์ถฉ์ค๋) | Conciseness (๊ฐ๊ฒฐ์ฑ) | Readability (๊ฐ๋ ์ฑ) | Aesthetic (๋ฏธ๊ด) | Overall (์ข ํฉ) |
|---|---|---|---|---|---|---|
| Baseline (Vanilla) | GPT-Image-1.5 | 4.5 | 37.5 | 30.0 | 37.0 | 11.5 |
| Baseline (Few-shot) | Nano-Banana-Pro | 41.6 | 49.6 | 37.6 | 60.5 | 41.8 |
| Baseline (Agentic) | Paper2Any | 6.5 | 44.0 | 20.5 | 40.0 | 8.5 |
| PaperBanana (Ours) | Nano-Banana-Pro | 45.8 | 80.7 | 51.4 | 72.1 | 60.2 |
| Human (์ธ๊ฐ) | - | 50.0 | 50.0 | 50.0 | 50.0 | 50.0 |
๐ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
- ์๋์ ์ธ ์ข
ํฉ ์ ์ (60.2 vs 50.0):
- ๊ฐ์ฅ ๋๋ผ์ด ์ ์ PaperBanana๊ฐ ์ธ๊ฐ์ ํ๊ท ์ ์(50.0)๋ฅผ ๋ฐ์ด๋์๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ AI๊ฐ ์์ฑํ ๋ํ๊ฐ ํ๋ก ๊ฐ(VLM Judge) ์ ์ฅ์์ ๋ ๋ช ํํ๊ณ (Clear), ๋ ๊น๋ํ๋ค๋(Aesthetic) ๊ฒ์ ์๋ฏธํฉ๋๋ค. (๋ฌผ๋ก ๋ณต์กํ ๋ ผ๋ฆฌ์ ์ ๋ฌ๋ ฅ์ ์ธ๊ฐ์ด ์์ง ์์์ง๋ง, ์ ๋ฐ์ ์ธ ํ๋ฆฌํฐ์์ ์น๋ฆฌํ์ต๋๋ค.)
- Conciseness(๊ฐ๊ฒฐ์ฑ)์ ํญ๋ฐ์ ์์น (80.7):
- ๊ธฐ์กด AI๋ ๋ถํ์ํ ์ฅ์์ ๋ง์ด ๋ฃ์์ง๋ง, PaperBanana๋ ํ์ ์ ๋ชฉ์ ์ ๋ง๊ฒ ๋ถํ์ํ ์์๋ฅผ ์ ๊ฑฐํ๊ณ ํต์ฌ์ ์ง์คํ๋ ๋ฅ๋ ฅ์ด ํ์ํฉ๋๋ค.
- ๊ธฐ์กด Agentic ๋ฐฉ์(Paper2Any)์ ์ฐธํจ (8.5):
- ๋จ์ํ ์์ด์ ํธ๋ฅผ ์ด๋ค๊ณ ํด๊ฒฐ๋๋ ๊ฒ์ด ์๋๋ผ, **โ์ฐธ๊ณ ๋ํ(Retrieval)โ**๋ฅผ ์ผ๋ง๋ ์ ํ์ฉํ๋๋๊ฐ ์ฑ๋ฅ์ ํต์ฌ์์ ์ฆ๋ช ํ์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๐ ์ ์๊ฐ ์ธ๊ธ/์์ํ ํ๊ณ์
- VLM ํ์ฌ์ ์ ๋ขฐ์ฑ (VLM-as-a-Judge Reliability):
- ํ๊ฐ๋ฅผ ์ํด ๋ค๋ฅธ VLM(Gemini-3-Pro)์ ์ฌ์ฉํ๋๋ฐ, ์ด ํ๊ฐ์๊ฐ ์๋ฒฝํ์ง ์์ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด 2๋จ๊ณ ๊ฒ์ฆ ๊ณผ์ ์ ๊ฑฐ์ณค๋ค๊ณ ์ธ๊ธํฉ๋๋ค.
- ๋ณต์กํ ์๊ฐ์ ์์์ ์ ์ฝ:
- ๋งค์ฐ ๋ณต์กํ 3D ๊ตฌ์กฐ๋ ํน์ํ ์์ด์ฝ์ด ๋ง์ด ํ์ํ ๋ํ๋ ์ฌ์ ํ ์์ฑํ๊ธฐ ์ด๋ ต๊ฑฐ๋ ๊ธ์(Text rendering)๊ฐ ๊นจ์ง๋ ํ์์ด ๋จ์์์ ์ ์์ต๋๋ค.
๐ ๊ฐ์ ๊ฐ๋ฅํ ์
- ์ฌ์ฉ์ ํผ๋๋ฐฑ ๋ฐ์ (Human-in-the-loop):
- ํ์ฌ๋ Critic Agent๊ฐ ํ๋จํ์ง๋ง, ์ค์ ์ฌ์ฉ์(์ฐ๊ตฌ์)๊ฐ โ์ด ๋ถ๋ถ๋ง ์์ ํด์คโ๋ผ๊ณ ์ง์ ๊ฐ์ ํ ์ ์๋ ์ธํฐ๋ํฐ๋ธ ๊ธฐ๋ฅ์ด ์ถ๊ฐ๋๋ค๋ฉด ์๋ฒฝํ ๊ฒ ๊ฐ์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๐ผ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๊ณณ
- AI ์ฐ๊ตฌ์/๋ํ:
- ๋ ผ๋ฌธ ์์ฑ ์๊ฐ์ ํ๊ธฐ์ ์ผ๋ก ๋จ์ถํ ์ ์์ต๋๋ค. ํนํ ์ด๋ก(Abstract)์ด๋ ๋์ ๋ถ(Intro)์ ๊ฐ์ ๋ํ๋ฅผ ๋ช ์ด ๋ง์ ๋ง๋ค์ด ์ด์์ ์์ฑํ๋ ๋ฐ ์ ์ฉํฉ๋๋ค.
- ๊ธฐ์ ๋ธ๋ก๊ฑฐ/๋ฌธ์ ์์ฑ์:
- ๊ธฐ์ ์ํคํ ์ฒ ๋ค์ด์ด๊ทธ๋จ์ ๋น ๋ฅด๊ฒ ์์ฑํ์ฌ ๋ฌธ์์ ๊ฐ๋ ์ฑ์ ๋์ผ ์ ์์ต๋๋ค.
โ๏ธ ํ์ํ ๋ฆฌ์์ค
- GPU: ๊ณ ์ฑ๋ฅ VLM(๋น์ -์ธ์ด ๋ชจ๋ธ)๊ณผ Image Generation ๋ชจ๋ธ์ด ํ์ํ๋ฏ๋ก, A100 ๋๋ H100็บงๅซ็ GPU ๋ฆฌ์์ค๊ฐ ํ์ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. (PaperBanana ์์ฒด๊ฐ ํ๋ ์์ํฌ์ด๋ฏ๋ก API ํํ๋ก ์๋น์ค๋๋ค๋ฉด ๋ก์ปฌ GPU๋ ์์ด๋ ๋ฉ๋๋ค.)
- ๋ฐ์ดํฐ: ์์ ์ ์ฐ๊ตฌ ๋ถ์ผ์ ๋ง๋ ๊ณ ํ์ง ๋ํ ๋ฐ์ดํฐ์ (Reference Set $R$)์ ๋ณ๋๋ก ๊ตฌ์ถํ๋ฉด ์ฑ๋ฅ์ด ๋ ์ข์์ง๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- VLM (Vision-Language Model): ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์ดํดํ๊ณ ์์ฑํ๋ ๋ชจ๋ธ์ ๋๋ค. (์: GPT-4o, Gemini Pro Vision)
- Agentic AI (AI ์์ด์ ํธ): ์ฌ์ฉ์์ ๋ช ๋ น ํ๋๋ง์ผ๋ก ์ค์ค๋ก ๊ณํ์ ์ธ์ฐ๊ณ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ AI ์์คํ ์ ๋๋ค.
- TikZ: LaTeX ๋ฌธ์์์ ๋ณต์กํ ๋ํ๋ฅผ ์ฝ๋๋ก ๊ทธ๋ฆด ๋ ์ฐ๋ ๊ฐ์ฅ ์ ๋ช ํ ํด์ ๋๋ค. (๋ฐฐ์ฐ๊ธฐ ์ด๋ ต์ง๋ง ํ๋ฆฌํฐ๊ฐ ์ข์)
- In-context Learning (๋ช-shot ํ์ต): ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ์ง ์๊ณ , ํ๋กฌํํธ์ ์์ ๋ช ๊ฐ๋ฅผ ๋ณด์ฌ์ค์ผ๋ก์จ ๋ชจ๋ธ์ด ํจํด์ ํ์ตํ๊ฒ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- RAG (Retrieval-Augmented Generation): ๋ชจ๋ธ์ด ์ธ๋ถ ์ง์(์ฐธ๊ณ ๋ฌธํ ๋ฑ)์ ๊ฒ์ํด์ ๋ต๋ณ์ ์์ฑํ๋ ๋ฐฉ์์ ๋๋ค. ์ฌ๊ธฐ์๋ โ๋น์ทํ ๋ํ ์์โ๋ฅผ ๊ฐ์ ธ์ค๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- Diffusion Model (ํ์ฐ ๋ชจ๋ธ): ์ต์ ์ด๋ฏธ์ง ์์ฑ AI์ ํต์ฌ ๊ธฐ์ ๋ก, ๋ ธ์ด์ฆ์์๋ถํฐ ์ ์ง์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํด๋ด๋ ๋ฐฉ์์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Green-VLA: Staged Vision-Language-Aโฆ | DD-017 |
| ๐ฅ | ERNIE 5.0 Technical Report | DD-016 |
| ๐ฅ | Kimi K2.5: Visual Agentic Intelligeโฆ | DD-018 |
| 4. | Vision-DeepResearch: Incentivizing โฆ | DD-019 |
| 5. | PaperBanana: Automating Academic Ilโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-02-08 | ๐ค GLM-4.7 Deep Dive