핵심 요약
기존 의료 AI 벤치마크는 단순 지식 암기나 단일 단계 작업에 치중되어 실제 병원 시스템의 복잡한 워크플로우를 반영하지 못했다. 이 논문은 실제 환자 기록과 표준 API를 사용하는 EHR 환경을 구축하여, AI 에이전트가 자율적인 임상 에이전트로 기능하기 위해 극복해야 할 기술적 격차를 명확히 제시한다.
왜 중요한가
기존 의료 AI 벤치마크는 단순 지식 암기나 단일 단계 작업에 치중되어 실제 병원 시스템의 복잡한 워크플로우를 반영하지 못했다. 이 논문은 실제 환자 기록과 표준 API를 사용하는 EHR 환경을 구축하여, AI 에이전트가 자율적인 임상 에이전트로 기능하기 위해 극복해야 할 기술적 격차를 명확히 제시한다.
핵심 기여
실제 임상 사례 기반의 PhysicianBench 구축
1차 진료 및 전문의 간의 실제 협진 사례에서 추출한 100개의 장기적(long-horizon) 작업을 포함하며, 11명의 의사 패널이 검증한 벤치마크를 제안한다.
실행 기반의 검증 프레임워크 도입
단순 텍스트 생성이 아닌 FHIR 표준 API를 통한 실제 EHR 환경과의 상호작용을 평가하며, 670개의 구조화된 체크포인트를 통해 단계별 성공 여부를 검증한다.
12종의 최신 LLM 에이전트 성능 분석
GPT-5.5, Claude 4.7 등 상용 및 오픈소스 모델을 평가한 결과, 최고 성능 모델도 46%의 성공률에 그쳐 실제 의료 현장 적용을 위한 한계점을 노출했다.
핵심 아이디어 이해하기
기존의 의료 AI 평가는 Transformer 모델이 학습 데이터 내의 의학 지식을 얼마나 잘 인출(Retrieval)하는지에 초점을 맞춘 '객관식 시험'과 같았다. 하지만 실제 진료는 환자의 과거 기록을 뒤지고, 검사 결과를 해석하며, 처방전을 발행하는 등 여러 도구를 순차적으로 사용하는 에이전트적 능력이 필수적이다.
이 논문은 이러한 한계를 극복하기 위해 POMDP(부분 관측 가능 마르코프 결정 과정) 프레임워크를 임상 환경에 이식했다. 에이전트는 한 번에 모든 환자 정보를 볼 수 없으며, FHIR API라는 도구를 통해 필요한 정보를 능동적으로 쿼리하고 그 결과에 따라 다음 행동을 결정해야 한다. 이는 단순한 확률적 텍스트 생성을 넘어, 상태(State) 변화를 수반하는 실행(Execution) 중심의 사고를 요구한다.
결과적으로 PhysicianBench는 에이전트가 복잡한 임상 추론 과정에서 발생하는 '추론 누수'나 '도구 사용 오류'를 정밀하게 포착할 수 있게 한다. 이는 AI가 단순한 정보 제공자를 넘어 실제 의료 시스템 내에서 안전하게 동작하는 실행 주체로 진화하기 위한 필수적인 평가 척도이다.
방법론
PhysicianBench는 실제 환자 데이터를 비식별화하여 HAPI FHIR 서버에 탑재한 Docker 컨테이너 환경을 사용한다. 에이전트는 14개의 도구(13개의 FHIR API 및 1개의 파일 쓰기 도구)를 사용하여 환자 인구통계, 관찰 결과, 약물 처방 기록 등을 조회하거나 생성한다.
평가는 670개의 체크포인트를 통해 이루어지며, 이는 데이터 검색, 임상 추론, 작업 실행, 문서화의 네 가지 범주로 분류된다. 각 체크포인트는 코드 기반 검증기(EHR 상태 확인), 하이브리드 검증기(LLM 추출 + 결정론적 계산), LLM 판독기(루브릭 기반 채점)의 세 가지 방식으로 정밀하게 채점된다.
에이전트 프레임워크는 OpenAI 호환 API를 래핑한 약 300라인의 Python 모듈로 구현되어 외부 SDK의 영향을 최소화했다. 각 작업당 최대 100회의 도구 호출 턴을 허용하며, 루프 감지 및 출력 절단 등의 견고성 메커니즘을 포함하여 공정한 모델 비교 환경을 제공한다.
관련 Figure

실제 진료 사례가 어떻게 에이전트 작업으로 변환되는지, 그리고 FHIR 표준을 통해 EHR 샌드박스와 상호작용하며 체크포인트별로 평가받는 전체 파이프라인을 설명한다.
PhysicianBench의 작업 큐레이션, 지침 구조, 에이전트 환경 및 평가 체계 개요도
주요 결과
상용 모델 중 GPT-5.5가 46.3%의 Pass@1 성공률로 가장 앞섰으며, 이는 2위인 Claude Opus 4.6(31.7%)과 14.6%p의 큰 격차를 보였다. 오픈소스 모델 중에서는 DeepSeek V4-Pro가 18.7%로 가장 높은 성능을 기록했으나 상용 모델과의 격차는 여전히 뚜렷했다.
오류 분석 결과, 실패의 50.4%가 '임상 추론(Clinical Reasoning)' 단계에서 발생했다. 이는 에이전트가 도구 사용법이나 데이터 접근 방식은 익혔으나, 수집된 복잡한 정보를 통합하여 올바른 의학적 판단을 내리는 데 여전히 어려움을 겪고 있음을 시사한다.
신뢰성 지표인 Pass^3(3회 독립 실행 시 모두 성공할 확률)에서 GPT-5.5는 28.0%를 기록했다. 이는 최고 성능 모델조차 동일한 환자 케이스에 대해 일관된 처방이나 진단을 내리는 능력이 부족함을 의미하며, 자율 임상 에이전트의 실무 투입을 위해서는 신뢰성 개선이 최우선 과제임을 보여준다.
관련 Figure

GPT-5.5가 46.3%로 압도적 1위를 차지하고 있으며, 오픈소스 모델인 DeepSeek V4-Pro와 Kimi-K2.6은 10% 후반대에 머물러 상용 모델과의 성능 격차를 보여준다.
PhysicianBench에서 평가된 12개 LLM 에이전트의 Pass@1 성공률 순위 차트
기술 상세
PhysicianBench는 임상 작업을 POMDP (S, A, T, O, Ω, I, C)로 정형화했다. 상태 공간 S는 전체 EHR 콘텐츠를 포함하며, 행동 공간 A는 14개의 구조화된 도구 호출로 정의된다. 전이 함수 T는 약물 요청 생성과 같은 쓰기 작업 시 EHR 상태를 결정론적으로 변경한다.
데이터셋은 Stanford STARR 저장소의 실제 e-consult 사례에서 추출되었으며, 21개의 세부 전공을 아우르는 다양성을 확보했다. 특히 데이터 오염을 방지하기 위해 날짜 이동, 인구통계 변조, 임상 수치 미세 조정 등의 섭동(Perturbation)을 가하면서도 의학적 개연성을 유지하도록 설계되었다.
검증 프로세스는 11명의 전문의가 참여한 3단계 파이프라인(초기 검토, 에이전트 기반 수정, 최종 승인)을 거쳤다. 이는 벤치마크 자체의 의학적 타당성과 안전성을 보장하며, 에이전트가 생성한 문서의 임상적 건전성을 평가하는 엄격한 기준이 된다.
관련 Figure

두 모델 모두 임상 추론 실패가 가장 많았으나, GPT-5.5는 '잘못된 결론'이 0%인 반면 Claude는 일부 존재하여 GPT-5.5가 더 높은 논리적 일관성을 가짐을 입증한다.
GPT-5.5와 Claude Opus 4.6의 실패 원인 세부 비교 분석
한계점
현재 PhysicianBench는 EHR 매개형 e-consult 작업에 집중되어 있어 퇴원 요약지 작성이나 약물 관리 등 광범위한 입원 환자 워크플로우를 모두 포괄하지는 못한다. 또한 이미지나 파형 데이터와 같은 멀티모달 입력 처리가 아직 포함되지 않았다.
실무 활용
의료 AI 에이전트의 성능을 실제 병원 시스템(EHR)과 유사한 환경에서 객관적으로 검증할 수 있는 표준 도구로 활용 가능하다.
- 병원 내 자동 처방 검토 및 임상 의사결정 지원 시스템(CDSS) 에이전트 평가
- 의료 특화 LLM의 도구 사용(Tool-use) 및 장기 추론 능력 벤치마킹
- 비식별화된 환자 데이터를 활용한 안전한 의료 AI 에이전트 학습 데이터셋 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.