의료 파운데이션 모델(Medical Foundation Model, F-MFM) 평가의 패러다임이 2024-2026년을 기점으로 재편되고 있습니다. USMLE 객관식을 외우는 LLM이 98점을 받아도 실제 임상 질문의 2/3는 벤치마크가 커버하지 못하는 영역(치료 의사결정·환자 커뮤니케이션·문서화)임이 드러났고, HealthBench · MedHELM · MedAgentBench · AMIE · CRAFT-MD 등 실제 의료환경을 시뮬레이션하는 2세대 벤치마크가 급속히 등장했습니다. 이 페이지는 FrailMIND 14B F-MFM 평가 전략 수립을 위한 체계적 정리입니다.
2025년 발표된 MedArena(Stanford HAI)와 JMIR 리뷰가 수천 건의 실제 임상의 질의를 분석한 결과, 기존 MCQA 벤치마크(MedQA, MMLU-Medical)가 커버하는 "의학 지식·근거" 영역은 실제 임상 질의의 약 1/3에 불과했고, 대다수는 치료 의사결정·환자 커뮤니케이션·문서화 등 맥락이 필요한 영역이었습니다.
지식 기반 벤치마크 평균 정확도 70–79% vs. 실무 기반 벤치마크 46–70%. 최대 24%p의 성능 차이 (JMIR 2025).
실제 임상 대화의 ~20%가 multi-turn인데, 기존 벤치마크는 단일 질문만 평가. MedQA를 sequential 형식으로 풀면 정확도가 1/10 이하로 급락 (AgentClinic, 2024).
MedQA 객관식에서 78.6% → 동일 내용 open-ended 생성 평가로 전환 시 큰 폭 하락. 실제 임상은 객관식이 아님.
MedArena 실측 결과 임상의는 깊이·명료성을 raw 정확도보다 더 자주 언급. 벤치마크 1위 ≠ 임상 유용성 1위.
2019-2023년 의료 LLM 붐을 이끈 1세대 벤치마크는 공인 의학 시험 문제를 그대로 사용했습니다. 객관성 확보와 자동 채점이 용이한 장점이 있지만, "단답식·단일턴·맥락 없음"이라는 구조적 한계를 갖습니다.
| 벤치마크 | 데이터 출처 | 포맷 | 한계 |
|---|---|---|---|
| MedQA | USMLE Step 1-3 (미국) | MCQ 5지선다 | 암기 중심, 임상 맥락 부족 |
| MedMCQA | 인도 AIIMS·NEET-PG | MCQ | 데이터 오염 가능성, open-ended × |
| PubMedQA | PubMed 초록 | Yes/No/Maybe | 3지선다, 실제 진료 무관 |
| MMLU-Medical | 다양한 의학 분야 | MCQ | 일반 지식 평가, 추론 과정 미평가 |
| MedXpertQA (ICML 2025) | 전문의 시험 · 기존 MCQ 고난이도 필터링 | MCQ · 추론 강화 | 여전히 MCQ, 대화 무관 — 단 추론 chain 평가 |
2024-2026년 등장한 2세대 벤치마크는 대화·루브릭·에이전트·EHR 시뮬레이션을 결합합니다. 각 벤치마크가 "어떤 현실"을 반영하는지 서로 다르지만, 공통적으로 MCQ를 벗어나 open-ended · multi-turn · multi-axis 평가를 지향합니다.
2세대 벤치마크의 공통 엔진은 물음-루브릭-채점자 3요소입니다. 물음은 실제 임상 질의이고, 루브릭은 전문가가 정의한 다축 기준이며, 채점자는 인간 + LLM 혼합입니다.
HealthBench는 여기에 7개 테마 × 각 대화별 맞춤 criteria를 얹어 가중 채점합니다.
MedHELM은 LLM-jury가 전문가와 ICC = 0.47 일치를 달성해 전문가 간 일치도(0.43)를 넘어섰다고 보고합니다. BERTScore(0.44)·ROUGE-L(0.36) 등 전통 자동 지표보다 의미있게 우수합니다.
CLEVER(Clinical LLM Evaluation by Expert Review) 같은 프레임워크는 hybrid를 지향 — AI 자동 사전 스크리닝 + 전문가 최종 검증. HealthBench도 HealthBench Consensus(34개 핵심 기준 전문가 합의) 서브셋을 별도 제공합니다.
의료 도메인에서 환각(hallucination)은 곧 위해입니다. Med-HALT · MedHallBench · MedHallu 등 전용 평가가 등장했고, 놀랍게도 의료 특화 모델이 일반 모델보다 환각이 많다는 MIT 연구 결과가 2025년 보고되었습니다.
이는 의료 도메인 파인튜닝이 오히려 모델의 "모르는 것을 모른다"는 능력을 약화시킬 수 있음을 시사하며, FrailMIND의 14B F-MFM 설계에서 도메인 특화와 범용 능력 유지의 균형이 중요함을 보여줍니다.
한국어 의료 LLM 평가는 KorMedMCQA(2024)가 처음 본격 체계를 제시했고, 최근 KorMedMCQA-V(2026) 멀티모달 확장이 등장했습니다. 다만 여전히 객관식 중심이며, 한국어 실제 임상 대화·멀티턴 시뮬레이션 벤치마크는 공백입니다.
2025년 NEJM AI가 제시한 A Novel Playbook for Pragmatic Trial Operations는 벤치마크를 넘어 실제 임상 배치 환경에서의 지속 평가 프레임워크입니다. Ambient AI Scribe를 대상으로 실증된 이 접근은 벤치마크 → 파일럿 → 프래그머틱 RCT의 3단 파이프라인을 제안합니다.
Drift 감지에는 difference-in-differences 분석을 time in notes, work outside work, utilization 3개 프로세스 지표에 적용. 실측 utilization 중앙값 65.4% (IQR 50.6-84.0%) — 템플릿 재설계 이후 정확도 회복.
이상의 2세대 벤치마크 지형을 FrailMIND 과제에 매핑하면, 평가는 4개 레이어로 설계하는 것이 합리적입니다. 이는 과제 제안서의 "노쇠 위험도 벤치마크 6종" 설계와도 정합합니다.
| 레이어 | 목적 | FrailMIND 적용 | 참조 벤치마크 |
|---|---|---|---|
| L1 · 지식 | 의학 기본 지식 하한선 | F-MFM SOTA 입증 — 한국어 의료 MCQA | KorMedMCQA · MedQA · MedXpertQA |
| L2 · 대화 | 노쇠 병력청취·환자 소통·안전 대응 | HealthBench 방식 한국어 노쇠 대화 5,000건 + rubric | HealthBench · CRAFT-MD · AMIE |
| L3 · 에이전트 | KR-CDI/FHIR 연동 EHR 상호작용 | MCP Agent Mesh 환경 시뮬레이션, 처방·조회 정확도 | MedAgentBench · AgentClinic |
| L4 · 실증 | 6개 지역 배치, 실사용자 만족·drift | NEJM AI Pragmatic Playbook 준용, HIMSS CCMM 인증 | NEJM AI Pragmatic Trial · MedArena |
arxiv.org/pdf/2505.08775 같은 직접 PDF URL · GitHub 레포: 페이지 URL · Google Drive: 공유 링크