← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-030 MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

arXiv: 2602.12705 κΈ°κ΄€: ByteDance Upvotes: 58 | Comments: 10 μˆœμœ„: 이번 μ£Ό Top 5

Figure 1


MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs λ…Όλ¬Έ 리뷰

1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€?

κΈ°μ‘΄ 의료용 λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈλ“€μ€ λ“œλ¬Έ μ§ˆλ³‘μ΄λ‚˜ λ³΅μž‘ν•œ μž„μƒμ  μΆ”λ‘  λŠ₯λ ₯μ—μ„œ ν•œκ³„κ°€ μžˆμ—ˆμœΌλ©°, μ‹€μ œ μž„μƒ ν˜„μž₯μ—μ„œ ν•„μš”ν•œ μ‹ λ’°μ„±κ³Ό 정확성을 κ°–μΆ”μ§€ λͺ»ν–ˆμŠ΅λ‹ˆλ‹€. 이 논문은 6,400μ–΅ 개의 토큰을 μ •μ œν•˜κ³  κ°•ν™” ν•™μŠ΅μ„ λ„μž…ν•˜μ—¬ 의료 λΆ„μ•Όμ˜ κΈ΄ 꼬리 뢄포 문제λ₯Ό ν•΄κ²°ν•˜κ³ , μƒμš© νμ‡„ν˜• λͺ¨λΈμ„ λŠ₯κ°€ν•˜λŠ” μΆ”λ‘  λŠ₯λ ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 의료 인곡지λŠ₯이 λ‹¨μˆœν•œ νŒλ… 도ꡬλ₯Ό λ„˜μ–΄ μ˜λ£Œμ§„μ˜ μ˜μ‚¬κ²°μ •μ„ λ³΄μ‘°ν•˜λŠ” μ‹€μ§ˆμ μΈ μ „λ¬Έκ°€ μ—μ΄μ „νŠΈλ‘œ μ§„ν™”ν•  수 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆλ‹€λŠ” μ μ—μ„œ 큰 의의λ₯Ό κ°–μŠ΅λ‹ˆλ‹€.

2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ°

이 λ…Όλ¬Έμ˜ 핡심은 β€˜μ΅œκ³ μ˜ μ˜μ‚¬λ₯Ό μ–‘μ„±ν•˜λŠ” 과정’과 μ•„μ£Ό ν‘μ‚¬ν•©λ‹ˆλ‹€. μ˜λŒ€μƒμ΄ μ˜μ‚¬κ°€ 되기 μœ„ν•΄μ„œλŠ” λ°©λŒ€ν•œ μ˜ν•™ μ„œμ μ„ μ½λŠ” 것(지식 μŠ΅λ“)λ§ŒμœΌλ‘œλŠ” λΆ€μ‘±ν•˜λ©°, μ‹€μ œ ν™˜μžλ₯Ό 보고 증상을 λ…Όλ¦¬μ μœΌλ‘œ λΆ„μ„ν•˜λŠ” λ ˆμ§€λ˜νŠΈ κ³Όμ •(μž„μƒ μΆ”λ‘  ν›ˆλ ¨)을 거쳐야 ν•©λ‹ˆλ‹€. MedXIAOHEλŠ” 이 과정을 인곡지λŠ₯에 κ·ΈλŒ€λ‘œ κ΅¬ν˜„ν–ˆμŠ΅λ‹ˆλ‹€.

λ¨Όμ € 6,400μ–΅ 개의 토큰에 λ‹¬ν•˜λŠ” λ°©λŒ€ν•œ μ˜ν•™ 데이터(μ„œμ , λ…Όλ¬Έ, μ›Ή 데이터 λ“±)λ₯Ό μˆ˜μ§‘ν•©λ‹ˆλ‹€. ν•˜μ§€λ§Œ 이 λ°μ΄ν„°μ—λŠ” μ“°λ ˆκΈ° μ •λ³΄λ‚˜ μ€‘λ³΅λœ λ‚΄μš©μ΄ μ„žμ—¬ μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 연ꡬ진은 κ³ κΈ°λŠ₯ μ„Έμ²™ νŒŒμ΄ν”„λΌμΈμ„ κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€. ν•΄μ‹œ 기반 쀑볡 μ œκ±°μ™€ κ·œμΉ™ 기반 필터링을 λŒ€κ·œλͺ¨λ‘œ μˆ˜ν–‰ν•˜κ³ , μ˜ν•™μš© FastText λΆ„λ₯˜κΈ°λ₯Ό ν›ˆλ ¨μ‹œμΌœ κ³ ν’ˆμ§ˆμ˜ λ°μ΄ν„°λ§Œμ„ μ—„μ„ ν•˜μ—¬ λͺ¨λΈμ—κ²Œ λ¨Ήμž…λ‹ˆλ‹€. μ΄λŠ” μ˜λŒ€μƒμ—κ²Œ κ°€μž₯ μ΅œμ‹ μ˜ μ •μ œλœ κ΅κ³Όμ„œλ§Œ 읽게 ν•˜λŠ” 것과 κ°™μŠ΅λ‹ˆλ‹€.

λ‹€μŒμœΌλ‘œ, λͺ¨λΈμ€ β€˜λ―Έλ“œ νŠΈλ ˆμ΄λ‹(Mid-Training)β€˜μ΄λΌλŠ” νŠΉλ³„ν•œ 과정을 κ±°μΉ©λ‹ˆλ‹€. 이 λ‹¨κ³„μ—μ„œλŠ” λ‹¨μˆœνžˆ 지식을 μ•”κΈ°ν•˜λŠ” 것을 λ„˜μ–΄, 도ꡬλ₯Ό μ‚¬μš©ν•˜κ³  증상을 λ‹¨κ³„μ μœΌλ‘œ λΆ„μ„ν•˜λŠ” λŠ₯λ ₯을 ν‚€μ›λ‹ˆλ‹€. μ˜μ‚¬κ°€ ν™˜μžμ˜ 증상을 보고 β€˜μ΄κ²ƒμ΄λ―€λ‘œ 저것일 것이닀’라고 μΆ”λ‘ ν•˜λŠ” 사고 과정을 λͺ¨λΈμ—κ²Œ κ°€λ₯΄μΉ˜κΈ° μœ„ν•΄ β€˜μ‚¬κ³ μ˜ 연쇄(Chain-of-Thought)’ 데이터λ₯Ό ν•©μ„±ν•©λ‹ˆλ‹€. μ—¬λŸ¬ μ—μ΄μ „νŠΈκ°€ ν† λ‘ ν•˜μ—¬ ν•©μ˜λ₯Ό λ³΄λŠ” λ°©μ‹μœΌλ‘œ λ…Όλ¦¬μ μœΌλ‘œ μ˜³μ€ 진단 경둜λ₯Ό λ§Œλ“€μ–΄λ‚΄μ–΄, λͺ¨λΈμ΄ ν™˜κ°(Hallucination) 없이 κ·Όκ±° 기반의 진단을 내릴 수 μžˆλ„λ‘ ν›ˆλ ¨μ‹œν‚΅λ‹ˆλ‹€.

λ§ˆμ§€λ§‰μœΌλ‘œ λͺ¨λΈμ€ κ°•ν™” ν•™μŠ΅μ„ 톡해 μ‹€μ œ μ˜λ£Œμ§„μ˜ μ„ ν˜Έλ„μ— 맞게 ν–‰λ™ν•˜λ„λ‘ μ‘°μ •λ©λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ 닀쀑 μ „λ¬Έκ°€ κ±°λΆ€ μƒ˜ν”Œλ§ 기법 등이 μ‚¬μš©λ˜μ–΄ λͺ¨λΈμ˜ 좔둠이 인과적으둜 νƒ€λ‹Ήν•œμ§€ κ²€μ¦λ°›μŠ΅λ‹ˆλ‹€. 즉, λ‹¨μˆœνžˆ 정닡을 λ§žνžˆλŠ” λͺ¨λΈμ΄ μ•„λ‹ˆλΌ, 진단 과정을 μ„€λͺ…ν•  수 있고 μ‹ λ’°ν•  수 μžˆλŠ” 의료 μ „λ¬Έκ°€ λͺ¨λΈλ‘œ νƒˆλ°”κΏˆν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

3. μ‹€ν—˜ κ²°κ³Ό 뢄석

이 논문은 λ‹€μ–‘ν•œ 의료 λ²€μΉ˜λ§ˆν¬μ—μ„œ ν…ŒμŠ€νŠΈλ₯Ό μˆ˜ν–‰ν–ˆμœΌλ©°, 제곡된 ν…μŠ€νŠΈμ™€ μ΄ˆλ‘μ— λ”°λ₯΄λ©΄ λˆˆλΆ€μ‹  μ„±κ³Όλ₯Ό κ±°λ‘μ—ˆμŠ΅λ‹ˆλ‹€. ꡬ체적인 μˆ˜μΉ˜λŠ” 본문에 μƒμ„Ένžˆ κΈ°μˆ λ˜μ–΄ μžˆμ§€ μ•ŠμœΌλ‚˜, MedXIAOHEλŠ” λ‹€μ–‘ν•œ μ˜ν•™ ν‰κ°€μ§€ν‘œμ—μ„œ μ΅œμ²¨λ‹¨(SOTA, State-of-the-Art) μ„±λŠ₯을 λ‹¬μ„±ν–ˆλ‹€κ³  밝히고 μžˆμŠ΅λ‹ˆλ‹€. 특히 λ‹¨μˆœν•œ μ˜€ν”ˆ μ†ŒμŠ€ λͺ¨λΈλ“€λΏλ§Œ μ•„λ‹ˆλΌ GPT-4V와 같은 졜고 μˆ˜μ€€μ˜ νμ‡„ν˜• λ©€ν‹°λͺ¨λ‹¬ μ‹œμŠ€ν…œμ„ μ—¬λŸ¬ λŠ₯λ ₯ λ©΄μ—μ„œ λŠ₯κ°€ν–ˆλ‹€λŠ” 점이 μ£Όλͺ©ν•  λ§Œν•©λ‹ˆλ‹€.

ꡬ체적으둜 μ‚΄νŽ΄λ³΄λ©΄, λ°©λŒ€ν•œ 지식을 λ°”νƒ•μœΌλ‘œ 의료 λΆ„μ•Όμ˜ 희귀 μ§ˆλ³‘μ΄λ‚˜ μ „ν˜•μ μ΄μ§€ μ•Šμ€ 증상을 λ‹€λ£¨λŠ” β€˜κΈ΄ 꼬리(Long-tail)’ λ¬Έμ œμ—μ„œ 큰 ν–₯상을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€. λ˜ν•œ, 의료 λ³΄κ³ μ„œ 생성 κ³Όμ •μ—μ„œ λ°œμƒν•  수 μžˆλŠ” κ±°μ§“ 정보 생성(ν™˜κ°)을 획기적으둜 μ€„μ˜€μœΌλ©°, 의료 μ˜μƒ 인식(OCR) 강건성과 병변 μˆ˜μ€€μ˜ μ„€λͺ… λŠ₯λ ₯μ—μ„œλ„ νƒμ›”ν•œ μ„±κ³Όλ₯Ό μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ΄ μ‹€μ œ μž„μƒ ν˜„μž₯μ—μ„œ μ‚¬μš©μžμ˜ μ§€μ‹œλ₯Ό 잘 λ”°λ₯΄λ©΄μ„œλ„ μ‹ λ’°ν•  수 μžˆλŠ” κ·Όκ±°λ₯Ό 기반으둜 λ‹΅λ³€ν•  수 μžˆμŒμ„ μ˜λ―Έν•©λ‹ˆλ‹€.

4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯

μ €μžλŠ” λ…Όλ¬Έμ˜ μ„œλ‘  λΆ€λΆ„μ—μ„œ ν˜„μž¬ 의료 λ©€ν‹°λͺ¨odal λͺ¨λΈμ˜ 평가 ν™˜κ²½μ΄ μ‘°κ°ν™”λ˜μ–΄ 있고, ν”„λ‘¬ν”„νŠΈμ™€ 점수 λ§€κΈ°κΈ° 방식이 μΌκ΄€λ˜μ§€ μ•Šμ•„ κ²°κ³Όλ₯Ό μž¬ν˜„ν•˜κ³  λΉ„κ΅ν•˜κΈ° μ–΄λ ΅λ‹€λŠ” 점을 μ§€μ ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” MedXIAOHE의 μ„±λŠ₯을 μž…μ¦ν•˜λŠ” 데 μžˆμ–΄ μ—¬μ „νžˆ 과제둜 남아 있으며, μ•žμœΌλ‘œλŠ” ν‘œμ€€ν™”λ˜κ³  μ˜€μ—Όμ΄ ν†΅μ œλœ 평가 방식이 ν•„μš”ν•  κ²ƒμž…λ‹ˆλ‹€.

λ˜ν•œ, μ‹€μ œ μž„μƒ λ°μ΄ν„°λŠ” κΈ°κ΄€λ§ˆλ‹€ μ˜μƒ ν”„λ‘œν† μ½œμ΄ λ‹€λ₯΄κ³  λ³΄κ³ μ„œμ˜ μž‘μ„± μŠ€νƒ€μΌμ΄ μƒμ΄ν•˜λ©°, μ œμ–΄λ˜μ§€ μ•Šμ€ ν™˜κ²½μ—μ„œ 촬영된 이미지λ₯Ό ν¬ν•¨ν•˜λŠ” λ“± μ΄μ§ˆμ„±μ΄ 맀우 ν½λ‹ˆλ‹€. MedXIAOHEκ°€ μ΄λŸ¬ν•œ ν˜„μ‹€μ˜ λ³΅μž‘μ„±μ„ μ™„λ²½ν•˜κ²Œ κ·Ήλ³΅ν–ˆλ”λΌλ„, μƒˆλ‘œμš΄ μœ ν˜•μ˜ λ°μ΄ν„°λ‚˜ 도메인 변화에 μ–Όλ§ˆλ‚˜ μœ μ—°ν•˜κ²Œ λŒ€μ²˜ν•  수 μžˆμ„μ§€λŠ” 지속적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€. ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ‹€μ–‘ν•œ μž„μƒ ν™˜κ²½κ³Ό 도ꡬ 톡합 ν™˜κ²½μ—μ„œ λͺ¨λΈμ˜ 신뒰성을 κ²€μ¦ν•˜λŠ” μž‘μ—…μ΄ μ΄μ–΄μ§ˆ κ²ƒμœΌλ‘œ λ³΄μž…λ‹ˆλ‹€.

5. 싀무 적용 κ°€λŠ₯μ„±

이 λͺ¨λΈμ€ 병원 μ§„λ£Œ κ³Όμ • μ „λ°˜μ— μ¦‰μ‹œ 적용될 수 μžˆλŠ” 잠재λ ₯을 κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 방사선과 μ „λ¬Έμ˜κ°€ μ—‘μŠ€λ ˆμ΄λ‚˜ MRIλ₯Ό νŒλ…ν•  λ•Œ 1μ°¨ 진단 λ³΄κ³ μ„œλ₯Ό μžλ™μœΌλ‘œ μž‘μ„±ν•˜κ±°λ‚˜, 희귀 μ§ˆν™˜μ˜ 증둀λ₯Ό κ²€ν† ν•˜μ—¬ 진단 λ°©ν–₯을 μ œμ‹œν•˜λŠ” 보쑰 λ„κ΅¬λ‘œ μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, ν™˜μžμ˜ 병λ ₯ 이미지와 ν…μŠ€νŠΈλ₯Ό 톡합 λΆ„μ„ν•˜μ—¬ μ˜λ£Œμ§„μ—κ²Œ 쒅합적인 μΈμ‚¬μ΄νŠΈλ₯Ό μ œκ³΅ν•˜λŠ” μž„μƒ μ˜μ‚¬κ²°μ • 지원 μ‹œμŠ€ν…œ(CDSS)의 핡심 μ—”μ§„μœΌλ‘œ ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.

λ‹€λ§Œ, 이 λͺ¨λΈμ„ μ‹€μ œλ‘œ κ΅¬μΆ•ν•˜κ³  μš΄μ˜ν•˜κΈ° μœ„ν•΄μ„œλŠ” λ§‰λŒ€ν•œ μ»΄ν“¨νŒ… μžμ›μ΄ ν•„μš”ν•©λ‹ˆλ‹€. 총 6,400μ–΅ 토큰에 λ‹¬ν•˜λŠ” μ½”νΌμŠ€λ₯Ό μ •μ œν•˜κ³  ν•™μŠ΅μ‹œν‚€κΈ° μœ„ν•΄μ„œλŠ” 수천 개의 GPU둜 κ΅¬μ„±λœ λŒ€κ·œλͺ¨ ν΄λŸ¬μŠ€ν„°κ°€ ν•„μˆ˜μ μ΄λ©°, μ˜ν•™ 도메인 νŠΉν™” 데이터λ₯Ό μˆ˜μ§‘ν•˜κ³  κ΄€λ¦¬ν•˜λŠ” 전문적인 데이터 μ—”μ§€λ‹ˆμ–΄λ§ νŒ€μ΄ λ’·λ°›μΉ¨λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. λ”°λΌμ„œ 개발 μž‘μ€ λ³‘μ›μ΄λ‚˜ μŠ€νƒ€νŠΈμ—…μ΄ λ‹¨λ…μœΌλ‘œ κ΅¬μΆ•ν•˜κΈ°λ³΄λ‹€λŠ” λŒ€ν˜• 병원 IT ν˜μ‹  μ„Όν„°λ‚˜ 의료 AI μ „λ¬Έ κΈ°μ—… μˆ˜μ€€μ—μ„œ λ„μž…ν•˜λŠ” 것이 ν˜„μ‹€μ μž…λ‹ˆλ‹€.

6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식

  • Vision-Language Model (VLM): 이미지와 ν…μŠ€νŠΈλ₯Ό λ™μ‹œμ— μ΄ν•΄ν•˜κ³  μ²˜λ¦¬ν•  수 μžˆλŠ” 인곡지λŠ₯ λͺ¨λΈμž…λ‹ˆλ‹€.
  • Continual Pre-training: 이미 ν•™μŠ΅λœ λͺ¨λΈμ„ μƒˆλ‘œμš΄ λ°μ΄ν„°μ…‹μœΌλ‘œ μΆ”κ°€λ‘œ ν•™μŠ΅μ‹œμΌœ νŠΉμ • 도메인 지식을 κ°•ν™”ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.
  • Chain-of-Thought (CoT): λͺ¨λΈμ΄ 닡을 λ°”λ‘œ λ„μΆœν•˜μ§€ μ•Šκ³ , μ‚¬λžŒμ²˜λŸΌ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” 과정을 λ‹¨κ³„μ μœΌλ‘œ μ„œμˆ ν•˜μ—¬ μΆ”λ‘  λŠ₯λ ₯을 λ†’μ΄λŠ” κΈ°λ²•μž…λ‹ˆλ‹€.
  • Hallucination (ν™˜κ°): AIκ°€ 사싀이 μ•„λ‹Œ λ‚΄μš©μ„ 마치 μ§„μ§œμΈ κ²ƒμ²˜λŸΌ κ·ΈλŸ΄μ‹Έν•˜κ²Œ μƒμ„±ν•˜λŠ” ν˜„μƒμ„ λ§ν•©λ‹ˆλ‹€.
  • Reinforcement Learning (κ°•ν™” ν•™μŠ΅): μ—μ΄μ „νŠΈκ°€ ν™˜κ²½κ³Ό μƒν˜Έμž‘μš©ν•˜λ©° 보상을 톡해 졜적의 행동 μ „λž΅μ„ 슀슀둜 ν•™μŠ΅ν•˜λŠ” λ¨Έμ‹ λŸ¬λ‹ λ°©λ²•μž…λ‹ˆλ‹€.
  • Entity-aware (μ—”ν‹°ν‹° 인지): λ¬Έμž₯μ΄λ‚˜ λ°μ΄ν„°μ—μ„œ 의미 μžˆλŠ” λ‹¨μœ„(예: μ§ˆλ³‘λͺ…, μ•½ν’ˆλͺ…, μž₯κΈ° λͺ…μΉ­)λ₯Ό μ •ν™•νžˆ μΈμ‹ν•˜κ³  λΆ„λ₯˜ν•˜λŠ” λŠ₯λ ₯μž…λ‹ˆλ‹€.
  • Long-tail Problem (κΈ΄ 꼬리 문제): λ°μ΄ν„°μ—μ„œ 자주 λ“±μž₯ν•˜λŠ” μƒ˜ν”Œμ€ λ§Žμ§€λ§Œ, λ“œλ¬Όκ²Œ λ“±μž₯ν•˜λŠ” μƒ˜ν”Œ(희귀 μ§ˆλ³‘ λ“±)은 ν•™μŠ΅μ΄ 잘 λ˜μ§€ μ•Šμ•„ μ„±λŠ₯이 λ–¨μ–΄μ§€λŠ” λ¬Έμ œμž…λ‹ˆλ‹€.

πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡Less is Enough: Synthesizing Divers…DD-026
πŸ₯ˆSQuTR: A Robustness Benchmark for S…DD-027
πŸ₯‰GLM-5: from Vibe Coding to Agentic …DD-028
4.Experiential Reinforcement LearningDD-029
5.MedXIAOHE: A Comprehensive Recipe fβ€¦πŸ“ ν˜„μž¬ λ¬Έμ„œ

πŸ“… 생성일: 2026-02-22 | πŸ€– GLM-4.7 Deep Dive