β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-030 MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
arXiv: 2602.12705 κΈ°κ΄: ByteDance Upvotes: 58 | Comments: 10 μμ: μ΄λ² μ£Ό Top 5

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs λ Όλ¬Έ 리뷰
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄ μλ£μ© λ©ν°λͺ¨λ¬ λͺ¨λΈλ€μ λλ¬Έ μ§λ³μ΄λ 볡μ‘ν μμμ μΆλ‘ λ₯λ ₯μμ νκ³κ° μμμΌλ©°, μ€μ μμ νμ₯μμ νμν μ λ’°μ±κ³Ό μ νμ±μ κ°μΆμ§ λͺ»νμ΅λλ€. μ΄ λ Όλ¬Έμ 6,400μ΅ κ°μ ν ν°μ μ μ νκ³ κ°ν νμ΅μ λμ νμ¬ μλ£ λΆμΌμ κΈ΄ 꼬리 λΆν¬ λ¬Έμ λ₯Ό ν΄κ²°νκ³ , μμ© νμν λͺ¨λΈμ λ₯κ°νλ μΆλ‘ λ₯λ ₯μ μ μ¦νμ΅λλ€. μ΄λ μλ£ μΈκ³΅μ§λ₯μ΄ λ¨μν νλ λꡬλ₯Ό λμ΄ μλ£μ§μ μμ¬κ²°μ μ 보쑰νλ μ€μ§μ μΈ μ λ¬Έκ° μμ΄μ νΈλ‘ μ§νν μ μμμ 보μ¬μ£Όμλ€λ μ μμ ν° μμλ₯Ό κ°μ΅λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μ΄ λ Όλ¬Έμ ν΅μ¬μ βμ΅κ³ μ μμ¬λ₯Ό μμ±νλ κ³Όμ βκ³Ό μμ£Ό ν‘μ¬ν©λλ€. μλμμ΄ μμ¬κ° λκΈ° μν΄μλ λ°©λν μν μμ μ μ½λ κ²(μ§μ μ΅λ)λ§μΌλ‘λ λΆμ‘±νλ©°, μ€μ νμλ₯Ό λ³΄κ³ μ¦μμ λ Όλ¦¬μ μΌλ‘ λΆμνλ λ μ§λνΈ κ³Όμ (μμ μΆλ‘ νλ ¨)μ κ±°μ³μΌ ν©λλ€. MedXIAOHEλ μ΄ κ³Όμ μ μΈκ³΅μ§λ₯μ κ·Έλλ‘ κ΅¬ννμ΅λλ€.
λ¨Όμ 6,400μ΅ κ°μ ν ν°μ λ¬νλ λ°©λν μν λ°μ΄ν°(μμ , λ Όλ¬Έ, μΉ λ°μ΄ν° λ±)λ₯Ό μμ§ν©λλ€. νμ§λ§ μ΄ λ°μ΄ν°μλ μ°λ κΈ° μ 보λ μ€λ³΅λ λ΄μ©μ΄ μμ¬ μμ μ μμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μ°κ΅¬μ§μ κ³ κΈ°λ₯ μΈμ² νμ΄νλΌμΈμ ꡬμΆνμ΅λλ€. ν΄μ κΈ°λ° μ€λ³΅ μ κ±°μ κ·μΉ κΈ°λ° νν°λ§μ λκ·λͺ¨λ‘ μννκ³ , μνμ© FastText λΆλ₯κΈ°λ₯Ό νλ ¨μμΌ κ³ νμ§μ λ°μ΄ν°λ§μ μμ νμ¬ λͺ¨λΈμκ² λ¨Ήμ λλ€. μ΄λ μλμμκ² κ°μ₯ μ΅μ μ μ μ λ κ΅κ³Όμλ§ μ½κ² νλ κ²κ³Ό κ°μ΅λλ€.
λ€μμΌλ‘, λͺ¨λΈμ βλ―Έλ νΈλ μ΄λ(Mid-Training)βμ΄λΌλ νΉλ³ν κ³Όμ μ κ±°μΉ©λλ€. μ΄ λ¨κ³μμλ λ¨μν μ§μμ μκΈ°νλ κ²μ λμ΄, λꡬλ₯Ό μ¬μ©νκ³ μ¦μμ λ¨κ³μ μΌλ‘ λΆμνλ λ₯λ ₯μ ν€μλλ€. μμ¬κ° νμμ μ¦μμ λ³΄κ³ βμ΄κ²μ΄λ―λ‘ μ κ²μΌ κ²μ΄λ€βλΌκ³ μΆλ‘ νλ μ¬κ³ κ³Όμ μ λͺ¨λΈμκ² κ°λ₯΄μΉκΈ° μν΄ βμ¬κ³ μ μ°μ(Chain-of-Thought)β λ°μ΄ν°λ₯Ό ν©μ±ν©λλ€. μ¬λ¬ μμ΄μ νΈκ° ν λ‘ νμ¬ ν©μλ₯Ό 보λ λ°©μμΌλ‘ λ Όλ¦¬μ μΌλ‘ μ³μ μ§λ¨ κ²½λ‘λ₯Ό λ§λ€μ΄λ΄μ΄, λͺ¨λΈμ΄ νκ°(Hallucination) μμ΄ κ·Όκ±° κΈ°λ°μ μ§λ¨μ λ΄λ¦΄ μ μλλ‘ νλ ¨μν΅λλ€.
λ§μ§λ§μΌλ‘ λͺ¨λΈμ κ°ν νμ΅μ ν΅ν΄ μ€μ μλ£μ§μ μ νΈλμ λ§κ² νλνλλ‘ μ‘°μ λ©λλ€. μ΄ κ³Όμ μμ λ€μ€ μ λ¬Έκ° κ±°λΆ μνλ§ κΈ°λ² λ±μ΄ μ¬μ©λμ΄ λͺ¨λΈμ μΆλ‘ μ΄ μΈκ³Όμ μΌλ‘ νλΉνμ§ κ²μ¦λ°μ΅λλ€. μ¦, λ¨μν μ λ΅μ λ§νλ λͺ¨λΈμ΄ μλλΌ, μ§λ¨ κ³Όμ μ μ€λͺ ν μ μκ³ μ λ’°ν μ μλ μλ£ μ λ¬Έκ° λͺ¨λΈλ‘ νλ°κΏνλ κ²μ λλ€.
3. μ€ν κ²°κ³Ό λΆμ
μ΄ λ Όλ¬Έμ λ€μν μλ£ λ²€μΉλ§ν¬μμ ν μ€νΈλ₯Ό μννμΌλ©°, μ 곡λ ν μ€νΈμ μ΄λ‘μ λ°λ₯΄λ©΄ λλΆμ μ±κ³Όλ₯Ό κ±°λμμ΅λλ€. ꡬ체μ μΈ μμΉλ λ³Έλ¬Έμ μμΈν κΈ°μ λμ΄ μμ§ μμΌλ, MedXIAOHEλ λ€μν μν νκ°μ§νμμ μ΅μ²¨λ¨(SOTA, State-of-the-Art) μ±λ₯μ λ¬μ±νλ€κ³ λ°νκ³ μμ΅λλ€. νΉν λ¨μν μ€ν μμ€ λͺ¨λΈλ€λΏλ§ μλλΌ GPT-4Vμ κ°μ μ΅κ³ μμ€μ νμν λ©ν°λͺ¨λ¬ μμ€ν μ μ¬λ¬ λ₯λ ₯ λ©΄μμ λ₯κ°νλ€λ μ μ΄ μ£Όλͺ©ν λ§ν©λλ€.
ꡬ체μ μΌλ‘ μ΄ν΄λ³΄λ©΄, λ°©λν μ§μμ λ°νμΌλ‘ μλ£ λΆμΌμ ν¬κ· μ§λ³μ΄λ μ νμ μ΄μ§ μμ μ¦μμ λ€λ£¨λ βκΈ΄ 꼬리(Long-tail)β λ¬Έμ μμ ν° ν₯μμ 보μμ΅λλ€. λν, μλ£ λ³΄κ³ μ μμ± κ³Όμ μμ λ°μν μ μλ κ±°μ§ μ 보 μμ±(νκ°)μ νκΈ°μ μΌλ‘ μ€μμΌλ©°, μλ£ μμ μΈμ(OCR) κ°κ±΄μ±κ³Ό λ³λ³ μμ€μ μ€λͺ λ₯λ ₯μμλ νμν μ±κ³Όλ₯Ό μ μ¦νμ΅λλ€. μ΄λ λͺ¨λΈμ΄ μ€μ μμ νμ₯μμ μ¬μ©μμ μ§μλ₯Ό μ λ°λ₯΄λ©΄μλ μ λ’°ν μ μλ κ·Όκ±°λ₯Ό κΈ°λ°μΌλ‘ λ΅λ³ν μ μμμ μλ―Έν©λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μλ λ Όλ¬Έμ μλ‘ λΆλΆμμ νμ¬ μλ£ λ©ν°λͺ¨odal λͺ¨λΈμ νκ° νκ²½μ΄ μ‘°κ°νλμ΄ μκ³ , ν둬ννΈμ μ μ λ§€κΈ°κΈ° λ°©μμ΄ μΌκ΄λμ§ μμ κ²°κ³Όλ₯Ό μ¬ννκ³ λΉκ΅νκΈ° μ΄λ ΅λ€λ μ μ μ§μ νμ΅λλ€. μ΄λ MedXIAOHEμ μ±λ₯μ μ μ¦νλ λ° μμ΄ μ¬μ ν κ³Όμ λ‘ λ¨μ μμΌλ©°, μμΌλ‘λ νμ€νλκ³ μ€μΌμ΄ ν΅μ λ νκ° λ°©μμ΄ νμν κ²μ λλ€.
λν, μ€μ μμ λ°μ΄ν°λ κΈ°κ΄λ§λ€ μμ νλ‘ν μ½μ΄ λ€λ₯΄κ³ λ³΄κ³ μμ μμ± μ€νμΌμ΄ μμ΄νλ©°, μ μ΄λμ§ μμ νκ²½μμ 촬μλ μ΄λ―Έμ§λ₯Ό ν¬ν¨νλ λ± μ΄μ§μ±μ΄ λ§€μ° ν½λλ€. MedXIAOHEκ° μ΄λ¬ν νμ€μ 볡μ‘μ±μ μλ²½νκ² κ·Ήλ³΅νλλΌλ, μλ‘μ΄ μ νμ λ°μ΄ν°λ λλ©μΈ λ³νμ μΌλ§λ μ μ°νκ² λμ²ν μ μμμ§λ μ§μμ μΈ κ²μ¦μ΄ νμν©λλ€. ν₯ν μ°κ΅¬μμλ λ λ€μν μμ νκ²½κ³Ό λꡬ ν΅ν© νκ²½μμ λͺ¨λΈμ μ λ’°μ±μ κ²μ¦νλ μμ μ΄ μ΄μ΄μ§ κ²μΌλ‘ 보μ λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄ λͺ¨λΈμ λ³μ μ§λ£ κ³Όμ μ λ°μ μ¦μ μ μ©λ μ μλ μ μ¬λ ₯μ κ°μ§κ³ μμ΅λλ€. μλ₯Ό λ€μ΄, λ°©μ¬μ κ³Ό μ λ¬Έμκ° μμ€λ μ΄λ MRIλ₯Ό νλ ν λ 1μ°¨ μ§λ¨ λ³΄κ³ μλ₯Ό μλμΌλ‘ μμ±νκ±°λ, ν¬κ· μ§νμ μ¦λ‘λ₯Ό κ²ν νμ¬ μ§λ¨ λ°©ν₯μ μ μνλ 보쑰 λκ΅¬λ‘ μ¬μ©λ μ μμ΅λλ€. λν, νμμ λ³λ ₯ μ΄λ―Έμ§μ ν μ€νΈλ₯Ό ν΅ν© λΆμνμ¬ μλ£μ§μκ² μ’ ν©μ μΈ μΈμ¬μ΄νΈλ₯Ό μ 곡νλ μμ μμ¬κ²°μ μ§μ μμ€ν (CDSS)μ ν΅μ¬ μμ§μΌλ‘ νμ©λ μ μμ΅λλ€.
λ€λ§, μ΄ λͺ¨λΈμ μ€μ λ‘ κ΅¬μΆνκ³ μ΄μνκΈ° μν΄μλ λ§λν μ»΄ν¨ν μμμ΄ νμν©λλ€. μ΄ 6,400μ΅ ν ν°μ λ¬νλ μ½νΌμ€λ₯Ό μ μ νκ³ νμ΅μν€κΈ° μν΄μλ μμ² κ°μ GPUλ‘ κ΅¬μ±λ λκ·λͺ¨ ν΄λ¬μ€ν°κ° νμμ μ΄λ©°, μν λλ©μΈ νΉν λ°μ΄ν°λ₯Ό μμ§νκ³ κ΄λ¦¬νλ μ λ¬Έμ μΈ λ°μ΄ν° μμ§λμ΄λ§ νμ΄ λ·λ°μΉ¨λμ΄μΌ ν©λλ€. λ°λΌμ κ°λ° μμ λ³μμ΄λ μ€ννΈμ μ΄ λ¨λ μΌλ‘ ꡬμΆν기보λ€λ λν λ³μ IT νμ μΌν°λ μλ£ AI μ λ¬Έ κΈ°μ μμ€μμ λμ νλ κ²μ΄ νμ€μ μ λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- Vision-Language Model (VLM): μ΄λ―Έμ§μ ν μ€νΈλ₯Ό λμμ μ΄ν΄νκ³ μ²λ¦¬ν μ μλ μΈκ³΅μ§λ₯ λͺ¨λΈμ λλ€.
- Continual Pre-training: μ΄λ―Έ νμ΅λ λͺ¨λΈμ μλ‘μ΄ λ°μ΄ν°μ μΌλ‘ μΆκ°λ‘ νμ΅μμΌ νΉμ λλ©μΈ μ§μμ κ°ννλ κ³Όμ μ λλ€.
- Chain-of-Thought (CoT): λͺ¨λΈμ΄ λ΅μ λ°λ‘ λμΆνμ§ μκ³ , μ¬λμ²λΌ λ¬Έμ λ₯Ό ν΄κ²°νλ κ³Όμ μ λ¨κ³μ μΌλ‘ μμ νμ¬ μΆλ‘ λ₯λ ₯μ λμ΄λ κΈ°λ²μ λλ€.
- Hallucination (νκ°): AIκ° μ¬μ€μ΄ μλ λ΄μ©μ λ§μΉ μ§μ§μΈ κ²μ²λΌ κ·Έλ΄μΈνκ² μμ±νλ νμμ λ§ν©λλ€.
- Reinforcement Learning (κ°ν νμ΅): μμ΄μ νΈκ° νκ²½κ³Ό μνΈμμ©νλ©° 보μμ ν΅ν΄ μ΅μ μ νλ μ λ΅μ μ€μ€λ‘ νμ΅νλ λ¨Έμ λ¬λ λ°©λ²μ λλ€.
- Entity-aware (μν°ν° μΈμ§): λ¬Έμ₯μ΄λ λ°μ΄ν°μμ μλ―Έ μλ λ¨μ(μ: μ§λ³λͺ , μ½νλͺ , μ₯κΈ° λͺ μΉ)λ₯Ό μ νν μΈμνκ³ λΆλ₯νλ λ₯λ ₯μ λλ€.
- Long-tail Problem (κΈ΄ 꼬리 λ¬Έμ ): λ°μ΄ν°μμ μμ£Ό λ±μ₯νλ μνμ λ§μ§λ§, λλ¬Όκ² λ±μ₯νλ μν(ν¬κ· μ§λ³ λ±)μ νμ΅μ΄ μ λμ§ μμ μ±λ₯μ΄ λ¨μ΄μ§λ λ¬Έμ μ λλ€.
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Less is Enough: Synthesizing Diversβ¦ | DD-026 |
| π₯ | SQuTR: A Robustness Benchmark for Sβ¦ | DD-027 |
| π₯ | GLM-5: from Vibe Coding to Agentic β¦ | DD-028 |
| 4. | Experiential Reinforcement Learning | DD-029 |
| 5. | MedXIAOHE: A Comprehensive Recipe fβ¦ | π νμ¬ λ¬Έμ |
π μμ±μΌ: 2026-02-22 | π€ GLM-4.7 Deep Dive