핵심 요약
기존의 의료 AI 모델은 판독 결과만 제공하는 '블랙박스' 형태여서 임상 현장에서의 신뢰도가 낮았다. 이 논문은 AI가 어떤 도구를 사용하여 어떤 근거로 결론에 도달했는지 단계별 추론 과정을 시각화함으로써 의료진이 검증 가능한 투명한 진단 시스템을 구축했다.
왜 중요한가
기존의 의료 AI 모델은 판독 결과만 제공하는 '블랙박스' 형태여서 임상 현장에서의 신뢰도가 낮았다. 이 논문은 AI가 어떤 도구를 사용하여 어떤 근거로 결론에 도달했는지 단계별 추론 과정을 시각화함으로써 의료진이 검증 가능한 투명한 진단 시스템을 구축했다.
핵심 기여
단계적 추론 기반의 RadAgent 프레임워크 개발
흉부 CT 판독을 위해 10가지 전문 도구를 자율적으로 선택하고 사용하는 RL 기반 에이전트를 구축했다. 판독 보고서 생성 시 중간 의사결정 과정과 도구 상호작용 기록을 추적 가능한 형태로 제공한다.
임상 체크리스트 기반의 진단 프로세스 최적화
영상의학과 전문의가 검토한 9가지 범주의 진단 체크리스트를 에이전트의 행동 지침으로 활용했다. 이를 통해 AI가 주요 병변을 누락하지 않고 체계적으로 검사하도록 유도했다.
강화학습을 통한 도구 활용 전략 자동 발견
GRPO 알고리즘과 복합 보상 함수를 사용하여 에이전트가 스스로 효과적인 도구 호출 순서와 쿼리 방식을 학습하게 했다. 이는 수동으로 설계된 워크플로보다 높은 유연성과 성능을 보여준다.
핵심 아이디어 이해하기
기존의 3D VLM은 수천 장의 CT 슬라이스를 한 번에 입력받아 보고서를 출력하려 하므로, 특정 병변을 찾은 구체적인 근거를 제시하기 어렵고 연산 효율도 낮다. 이는 고차원 데이터를 단일 임베딩 벡터로 압축하는 과정에서 발생하는 정보 손실과 해석 가능성 결여라는 한계를 가진다.
RadAgent는 이 문제를 '분할 정복' 관점에서 해결한다. 전체 볼륨을 한 번에 처리하는 대신, 먼저 초안 보고서를 작성하고 전문의의 진단 체크리스트를 따라가며 세부 항목을 하나씩 검증한다. 예를 들어 '흉수' 여부를 확인할 때, 에이전트는 스스로 분할(Segmentation) 도구를 호출해 위치를 찾고, 해당 슬라이스만 추출해 2D VQA 도구로 정밀 분석하는 단계를 거친다.
이러한 방식은 딥러닝의 Attention 메커니즘이 특정 영역에 집중하는 것과 유사하지만, 이를 명시적인 도구 호출과 텍스트 추론 로그로 치환했다는 점이 다르다. 결과적으로 모델은 자신이 본 증거와 결론 사이의 논리적 연결 고리를 생성하며, 이는 임상 정확도 향상뿐만 아니라 오답 유도 프롬프트에 대한 방어력(Robustness)을 크게 높이는 결과를 가져온다.
방법론
RadAgent는 Qwen3-14B를 중추 모델로 사용하며 ReAct 패턴을 따라 반복적으로 추론과 행동을 수행한다. 시스템은 초기 보고서 생성 도구, 질환 분류기, 해부학적 구조 및 병변 분할 도구, 2D/3D 시각 질의응답(VQA) 도구 등 총 10가지 전문 도구 툴박스를 갖추고 있다. 각 도구는 MCP 서버를 통해 에이전트와 통신하며 독립적인 GPU 자원을 할당받아 실행된다.
학습은 GRPO(Group Relative Policy Optimization) 알고리즘을 활용한 강화학습으로 진행된다. 보상 함수는 보고서의 품질(F1 score), 도구 사용의 성공률, 도구 사용의 다양성, 그리고 체크리스트 준수 여부를 종합하여 계산된다. 구체적으로 [에이전트의 행동 궤적 입력] → [도구 호출 성공 여부 및 생성 보고서와 정답지 비교 연산] → [복합 보상 점수 산출] → [정책 모델 가중치 업데이트] 순으로 학습이 이루어진다.
특히 보상 설계 시 '커리큘럼 학습' 전략을 도입했다. 초기 90단계까지는 도구의 자유로운 탐색과 다양성에 높은 가중치를 부여하고, 이후에는 도구 호출의 논리적 일관성과 체크리스트 준수 여부에 더 높은 비중을 두어 에이전트가 효율적이고 체계적인 진단 경로를 찾도록 유도했다.
관련 Figure

사용자 쿼리로부터 초기 보고서를 생성한 후, 체크리스트에 따라 도구 박스의 다양한 도구들을 호출하며 진단을 정교화하는 루프 구조를 보여준다. 하단에는 실제 에이전트가 흉수를 확인하기 위해 분할 및 VQA 도구를 순차적으로 사용하는 추적 기록이 제시되어 있다.
RadAgent의 전체 아키텍처 개요와 추론 과정 예시
주요 결과
RadAgent는 기존 SOTA 모델인 CT-Chat 대비 임상 정확도에서 Macro-F1 기준 6.0포인트(36.4% 상대 향상), Micro-F1 기준 5.4포인트(19.6% 상대 향상)의 성능 개선을 달성했다. 특히 진단이 어려운 희귀 병변이나 미세한 이상 징후 탐지에서 도구 활용을 통한 정밀 분석의 효과가 두드러지게 나타났다.
강건성(Robustness) 실험에서는 잘못된 힌트가 포함된 프롬프트 주입 시에도 CT-Chat보다 24.7포인트 높은 성능을 유지하며 외부 간섭에 대한 저항력을 입증했다. 또한, 모델이 생성한 보고서가 실제 도구 분석 결과와 얼마나 일치하는지를 나타내는 충실도(Faithfulness) 지표에서 37.0%를 기록했는데, 이는 한 번에 보고서를 생성하는 기존 모델들이 0%를 기록한 것과 대조적인 성과이다.
관련 Figure

내부 데이터셋(CT-RATE)과 외부 데이터셋(RadChestCT) 모두에서 RadAgent가 Macro-F1 및 Micro-F1 점수에서 통계적으로 유의미하게 우수한 성능을 보임을 증명한다. 특히 외부 데이터셋에서도 성능 우위가 유지되어 일반화 능력이 뛰어남을 알 수 있다.
기존 모델(CT-Chat)과 RadAgent의 성능 비교 차트

잘못된 힌트가 주어졌을 때 RadAgent는 80% 이상의 강건성을 유지하는 반면, 기존 VLM은 60% 미만으로 떨어진다. 또한 기존 모델은 충실도가 0인 반면 RadAgent는 37%를 기록하여 자신의 판단 근거를 명확히 설명할 수 있음을 보여준다.
오답 유도 프롬프트에 대한 강건성 및 충실도 평가 결과
기술 상세
RadAgent의 핵심 아키텍처는 14B 파라미터 규모의 언어 모델을 정책 결정자로 사용하고, 이를 LoRA(rank=16, alpha=32) 방식으로 파인튜닝한 구조이다. 8개의 GH200 GPU 환경에서 분산 학습되었으며, 각 훈련 예제당 8개의 롤아웃(Rollout)을 생성하여 GRPO 보상을 계산했다.
도구 활용의 일관성을 평가하기 위해 별도의 LLM 기반 판정 모델(Judge)을 도입했다. 이 모델은 에이전트가 생성한 도구 호출 그래프가 논리적으로 타당한지, 즉 이전 도구의 출력이 다음 단계의 입력으로 적절히 사용되었는지를 평가하여 보상에 반영한다. 이는 에이전트가 불필요한 도구 호출을 줄이고 계산 자원을 효율적으로 사용하게 만드는 기술적 장치이다.
관련 Figure

질환 분류, 장기 분할, 슬라이스 추출, 윈도잉 처리 등 CT 판독에 특화된 개별 도구들의 입력과 출력 형태를 시각화했다. 이러한 모듈형 도구 구성이 에이전트의 유연한 대응을 가능하게 하는 핵심 요소이다.
RadAgent가 사용하는 10가지 전문 분석 도구 목록
한계점
시스템 운영을 위해 다수의 GPU가 필요하며, 특히 여러 무거운 분석 도구와 오케스트레이터 모델을 동시에 호스팅해야 하므로 자원이 제한된 환경에서는 실행이 어렵다. 또한, 학습 시 사용된 도구 세트에 최적화되어 있어 새로운 도구가 추가될 경우 강화학습 파이프라인을 다시 실행해야 하는 재학습 비용이 발생한다.
실무 활용
영상의학과 전문의의 판독 보조 도구로 활용되어 업무 부하를 줄이고 진단 누락을 방지할 수 있다. AI의 판단 근거가 투명하게 공개되므로 의료진이 AI의 제안을 신속하게 검증하고 수정하는 협업 워크플로 구축이 가능하다.
- 흉부 CT 자동 초안 보고서 생성 및 전문의 검토 지원
- 복잡한 3D 영상 데이터에서 특정 병변(결절, 흉수 등)의 자동 위치 식별 및 정밀 분석
- 의료 교육 시 AI의 단계별 추론 과정을 활용한 진단 논리 학습 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.