핵심 요약
기존 의료 AI 평가는 전문가가 미리 골라준 2D 사진 한 장에 의존하여 실제 임상 현장과의 괴리가 컸다. 이 논문은 AI가 의사처럼 직접 3D 영상을 조작하고 탐색하며 진단하는 환경을 구축하여, 실제 병원 업무에 적용 가능한 투명하고 감사 가능한 AI 에이전트의 토대를 마련했다.
왜 중요한가
기존 의료 AI 평가는 전문가가 미리 골라준 2D 사진 한 장에 의존하여 실제 임상 현장과의 괴리가 컸다. 이 논문은 AI가 의사처럼 직접 3D 영상을 조작하고 탐색하며 진단하는 환경을 구축하여, 실제 병원 업무에 적용 가능한 투명하고 감사 가능한 AI 에이전트의 토대를 마련했다.
핵심 기여
MEDOPENCLAW 런타임 개발
VLM 에이전트가 3D Slicer와 같은 표준 의료 영상 뷰어 내에서 슬라이스 스크롤, 윈도잉 조절 등 실제 의사의 동작을 수행할 수 있도록 연결하는 감사 가능한 API 레이어를 구축했다.
MEDFLOW-BENCH 벤치마크 구축
뇌 MRI 및 폐 CT/PET 전체 검사 데이터를 활용하여, 에이전트가 스스로 증거를 수집하고 진단하는 능력을 평가하는 체계를 제안했다.
도구 사용의 역설(Tool-Use Paradox) 규명
고성능 모델이 전문 분석 도구를 사용할 때, 정밀한 공간 좌표 지정 능력 부족으로 인해 오히려 진단 성능이 저하되는 현상을 발견하고 원인을 분석했다.
핵심 아이디어 이해하기
기존 의료 영상 AI는 주로 사람이 잘라준 2D 단면에서 특징을 추출해 정답을 맞히는 방식이었다. 하지만 실제 진단은 수백 장의 슬라이드를 넘겨보고, 대조하고, 측정하는 동적인 과정이다. Transformer 기반의 VLM은 텍스트와 이미지의 관계를 잘 이해하지만, 이를 실제 환경에서 '행동'으로 옮기는 능력이 부족했다.
본 논문은 VLM을 단순한 분류기가 아닌 '에이전트'로 정의한다. 에이전트는 뷰어의 상태를 입력으로 받고, 다음 행동(예: 슬라이스 이동)을 결정하며, 이 과정을 로그로 남겨 추론 근거를 투명하게 공개한다. 이는 딥러닝 모델의 블랙박스 문제를 해결하고 의료진이 AI의 판단 과정을 검토할 수 있게 한다.
특히 3D 공간에서의 '공간적 접지'가 핵심이다. 모델이 단순히 종양이 있다고 말하는 것을 넘어, 3D 좌표계 상에서 정확한 위치를 짚어내어 분석 도구를 실행해야만 실제 의료 현장에서 신뢰를 얻을 수 있음을 보여준다.
방법론
MEDOPENCLAW는 VLM과 의료 뷰어 사이의 REST API 인터페이스 역할을 수행한다. 에이전트는 Python 스크립트를 직접 실행하는 대신, 정의된 행동 공간 내에서만 움직인다. [에이전트의 텍스트 명령 입력] → [REST API를 통한 뷰어 명령 전달] → [뷰어 화면 캡처 및 상태 정보 출력] → [에이전트의 다음 판단 근거로 활용] 순으로 루프가 작동한다.
행동 공간은 세 계층으로 구조화했다. 1단계는 슬라이스 이동 및 윈도잉 조절과 같은 기본 조작, 2단계는 북마크 및 증거 캡처, 3단계는 전문 분석 도구(Segmentation 등) 호출이다. 이 계층 구조는 에이전트의 행동을 제한하여 보안성을 높이고 모든 과정을 재현 가능하게 만든다.
MEDFLOW-BENCH는 뇌 MRI(UCSF-PDGM)와 폐 CT/PET(NSCLC) 데이터를 사용하여 Viewer-Only, Tool-Use, Open-Method의 세 가지 트랙으로 평가를 진행한다. 각 에피소드는 전체 볼륨 데이터와 진단 과업 프롬프트를 포함하며, LLM 판독관을 통해 정답 여부를 검증한다.
주요 결과
최신 모델인 Gemini 3.1 Pro와 GPT-5.4는 뷰어 조작만으로도 뇌 MRI 진단에서 각각 0.63, 0.61의 정확도를 기록하며 기초적인 탐색 능력을 입증했다. 하지만 폐 CT/PET의 조직학적 등급 예측과 같은 미세한 작업에서는 무작위 확률에 가까운 낮은 성능을 보였다.
'도구 사용의 역설' 실험에서 GPT-5.4는 기본 도구만 쓸 때(0.61)보다 전문 세그멘테이션 도구를 함께 쓸 때(0.57) 성능이 하락했다. 이는 모델이 도구 실행에 필요한 밀리미터 단위의 정밀 좌표를 생성하지 못해 잘못된 영역을 분석했기 때문이다.
실험 결과, 현재의 VLM은 거시적인 탐색은 가능하나, 전문적인 정량 분석 도구를 신뢰성 있게 제어하기 위한 정밀한 공간 인지 능력이 아직 부족함이 확인되었다.
기술 상세
MEDOPENCLAW는 3D Slicer의 내장 Python 콘솔을 직접 노출하지 않고, WebServer REST 엔드포인트로 래핑하여 보안과 감사 가능성을 확보했다. 이는 임의 코드 실행으로 인한 공격 표면을 줄이고 실행 로그를 표준화한다.
에이전트의 추론 과정은 'Visible Trace'로 남는다. 각 단계의 도구 인자, 시각적 스냅샷, 생성된 리포트가 모두 기록되어 사후 검토가 가능하다. 이는 의료 규제 프레임워크가 요구하는 투명성을 충족한다.
공간적 접지의 한계는 VLM이 이미지 픽셀 좌표와 실제 환자의 3D 좌표계(LPS/RAS) 사이의 변환 및 정밀한 수치 출력을 학습하지 못했기 때문에 발생한다. 이는 향후 의료 특화 VLM 학습 시 3D 공간 인지 능력을 강화해야 함을 시사한다.
한계점
현재 릴리스는 뇌 MRI와 폐 CT/PET 두 가지 모듈에 한정되어 있으며, 초음파나 유방 촬영술 등 다른 모달리티로의 확장이 필요하다. 또한 다회차 대화형 평가나 전자의무기록(EHR)과의 통합은 아직 구현되지 않았다.
실무 활용
의료 영상 판독 보조 시스템(MEDCOPILOT)으로 활용 가능하며, 의사가 수동으로 하던 슬라이스 탐색이나 모달리티 융합 작업을 자동화할 수 있다.
- 3D MRI/CT 영상의 자동 슬라이스 탐색 및 주요 소견 위치 특정
- 다중 모달리티(PET/CT) 영상의 자동 융합 및 정합 조작
- 판독 과정의 투명한 기록 및 교육용 케이스 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.