핵심 요약
췌장암 수술의 성패는 종양이 인접 혈관을 얼마나 침범했는지 정확히 판단하는 데 달려 있으나, 전문가들 사이에서도 의견이 갈리는 경우가 많다. 이 논문은 이러한 진단적 모호성을 해결하기 위해 다수의 전문가 주석이 포함된 데이터셋과 불확실성을 고려한 새로운 AI 평가 프레임워크를 제시하여 더 안전한 수술 계획 수립을 돕는다.
왜 중요한가
췌장암 수술의 성패는 종양이 인접 혈관을 얼마나 침범했는지 정확히 판단하는 데 달려 있으나, 전문가들 사이에서도 의견이 갈리는 경우가 많다. 이 논문은 이러한 진단적 모호성을 해결하기 위해 다수의 전문가 주석이 포함된 데이터셋과 불확실성을 고려한 새로운 AI 평가 프레임워크를 제시하여 더 안전한 수술 계획 수립을 돕는다.
관련 Figure

전문가들 사이에서도 종양의 경계와 혈관 침범 정도에 대해 상당한 의견 차이가 존재함을 시각적으로 보여준다. 이는 단일 정답 기반의 기존 AI 학습 방식이 가진 한계를 명확히 드러낸다.
동일한 췌장암 CT 슬라이스에 대해 5명의 전문가가 서로 다르게 주석을 작성한 예시이다.
핵심 기여
CURVAS-PDACVI 데이터셋 구축
109개의 췌장암 CT 스캔에 대해 5명의 전문 영상의학 전문의가 독립적으로 작성한 주석을 포함하는 고밀도 데이터셋을 공개했다. 이는 진단 시 발생하는 전문가 간 의견 불일치(inter-rater variability)를 정량화하고 모델링하는 데 필수적인 자원이다.
불확실성 인지형 다중 지표 평가 프레임워크
단순한 공간적 겹침(Dice Score)을 넘어 확률적 캘리브레이션(MR-ECE)과 혈관 침범 점수의 분포 비교(Wasserstein distance)를 포함하는 평가 체계를 제안했다. 이를 통해 모델이 단순히 영역을 잘 맞추는지뿐만 아니라 자신의 예측에 대해 얼마나 신뢰할 수 있는지를 평가한다.
고난도 사례에서의 모델 강건성 분석
전문가 간 합의가 낮은 고난도 사례에서 기존 이진 세그멘테이션 모델은 성능이 급격히 저하되지만, 의견 불일치를 명시적으로 모델링한 방식은 더 나은 캘리브레이션과 강건성을 보여줌을 입증했다.
핵심 아이디어 이해하기
기존의 의료 영상 분할 AI는 여러 전문가의 의견을 하나로 합친 '정답(Gold Standard)'만을 학습하도록 설계되었다. 하지만 췌장암처럼 경계가 불분명한 질병은 전문가마다 판단이 다르며, AI가 이 모호성을 무시하고 확신에 찬 오답을 내놓을 경우 수술 현장에서 치명적인 결과를 초래할 수 있다.
이 논문은 전문가들의 서로 다른 의견 자체를 데이터의 고유한 특성인 '알레아토리 불확실성(Aleatoric Uncertainty)'으로 정의한다. 모델이 단순히 암 영역을 선으로 긋는 것이 아니라, 전문가들이 동의하지 않는 영역에서는 더 낮은 확률값을 출력하도록 유도하여 실제 임상 현장의 불확실성을 반영하도록 한다.
결과적으로 AI가 출력하는 확률 지도는 의사에게 '이 영역은 암일 가능성이 매우 높지만, 저 경계 부위는 전문가들 사이에서도 의견이 갈리는 모호한 지점이다'라는 정보를 전달하게 된다. 이는 AI를 단순한 자동화 도구가 아닌, 의사의 의사결정을 보조하는 신뢰할 수 있는 파트너로 격상시키는 핵심 원리이다.
방법론
본 연구는 CURVAS-PDACVI 챌린지를 통해 6가지 최신 알고리즘을 비교 분석했다. 모든 참가 모델은 nnU-Net 프레임워크를 기반으로 하되, 다수 전문가의 주석을 처리하는 방식에서 차별점을 두었다.
핵심 평가 지표인 MR-ECE(Multi-Rater Expected Calibration Error)는 모델의 예측 확률 p_i와 5명의 전문가 주석 a_i^(k)를 비교한다. [각 복셀의 예측 확률을 50개의 빈(bin)으로 나누고] → [각 빈에 속한 복셀들의 실제 정답 비율과 평균 확신도의 차이를 계산하여] → [이를 모든 전문가에 대해 평균 내어 하나의 숫자로 산출하며] → [이 값이 작을수록 모델의 확신도가 실제 정확도와 잘 일치함을 의미한다].
혈관 침범(VI) 평가는 Wasserstein distance를 활용한다. [예측된 확률 지도와 전문가들의 주석 분포로부터 각각 침범 점수 분포를 유도하고] → [두 분포 사이의 거리를 계산하여] → [최종적인 침범 오차를 측정하며] → [단순한 픽셀 단위 비교보다 임상적으로 유의미한 혈관-종양 인터페이스의 위험도를 더 정확히 반영한다].
관련 Figure

공간적 겹침 지표(DSC)와 혈관 침범 오차 지표 간의 상관관계가 낮음을 보여준다. 이는 단순히 영역을 잘 맞추는 모델이 실제 임상적으로 중요한 혈관 침범 평가에서도 우수하다는 보장이 없음을 의미하며, 다중 지표 평가의 필요성을 뒷받침한다.
다양한 평가 지표들 간의 상관관계를 분석한 히트맵과 네트워크 다이어그램이다.
주요 결과
실험 결과, 전체적인 영역 분할 성능(Dice Score)이 높다고 해서 반드시 임상적으로 중요한 혈관 침범 평가 성능이 비례하여 높은 것은 아님이 확인됐다. BreizhSeg 팀은 전체 Dice Score 71.04%로 1위를 차지했으나, 특정 혈관(SMA) 침범 평가에서는 다른 모델에 뒤처지는 모습을 보였다.
전문가 간 합의가 매우 낮은(Dice < 30%) 고난도 사례 분석에서 순위 변동이 두드러졌다. 일반적인 이진 분할에 최적화된 모델들은 모호한 경계에서 영역을 과도하게 확장하거나 축소하는 경향을 보인 반면, 전문가 간 불일치를 명시적으로 모델링한 OrdSTAPLE 방식은 고난도 사례에서 가장 우수한 평균 순위를 기록하며 강건성을 입증했다.
혈관별로는 대동맥(Aorta) 평가가 가장 쉬웠던 반면, 상장간막정맥(SMV)과 문맥(Portal vein)의 침범 평가는 모든 모델에서 가장 높은 오차를 기록하여 복잡한 정맥 인터페이스 처리가 향후 연구의 핵심 과제임을 시사했다.
관련 Figure

불확실성을 고려한 모델(OrdSTAPLE 등)은 모호한 경계에서 더 확산된 확률 분포를 생성하여 전문가들의 의견 불일치를 더 잘 반영하고 있음을 확인할 수 있다.
다양한 모델들이 생성한 확률 지도를 전문가 합의 지도와 비교한 결과이다.
기술 상세
본 연구는 nnU-Net 기반의 다양한 변형 모델들을 벤치마킹했다. TwinTrack은 2단계 캐스케이드 구조와 앙상블을 사용했으며, BreizhSeg는 베이지안 신경망(BNN)을 통해 확률적 예측을 수행했다. OrdSTAPLE은 전문가 간의 합의 수준을 서수적(ordinal) 레이블로 학습하여 불확실성을 직접 예측에 반영했다.
데이터셋은 PANORAMA 컬렉션에서 추출된 109개의 사례로 구성되었으며, 각 사례당 5개의 독립적인 종양 주석과 5개의 주요 혈관(Aorta, Celiac Trunk, Porta, SMV, SMA) 구조를 포함한다. 평가 프레임워크는 공간적 정확도(DSC), 캘리브레이션(MR-ECE), 확률적 볼륨 추정(CRPS), 혈관별 침범 점수(W1 distance) 등 9가지 축을 종합하여 모델의 신뢰성을 다각도로 검증한다.
한계점
고난도 사례의 수가 상대적으로 적어 통계적 유의성을 확보하는 데 한계가 있다. 또한, 지면 진리(Ground Truth)가 수술 후 병리 결과가 아닌 전문가의 영상 판독에 기반하고 있어 전문가 집단의 편향이 모델에 전이될 가능성이 존재한다.
실무 활용
췌장암 수술 전 정밀 진단 시스템에 통합되어 외과의의 수술 가능성 판단을 보조할 수 있다.
- 수술 전 CT 영상을 기반으로 한 췌장암 병기 결정 및 절제 가능성 평가
- 방사선 전문의 간 의견이 갈리는 모호한 사례에 대한 AI 기반 제2의 의견(Second Opinion) 제공
- 불확실성 지도를 활용한 수술 계획 수립 및 위험 부위 사전 파악
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.