MOOZY: 계산 병리학을 위한 환자 중심 파운데이션 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 병리 AI는 환자 한 명의 여러 슬라이드를 개별적으로 처리해 전체 맥락을 놓치는 한계가 있었다. MOOZY는 환자 단위로 데이터를 통합 분석하는 '환자 중심' 설계를 도입해, 훨씬 적은 파라미터로도 암 진단 및 생존 예측에서 세계 최고 수준의 성능을 증명했다.

왜 중요한가

핵심 기여

환자 중심 표현 학습

개별 슬라이드가 아닌 환자 케이스를 기본 단위로 설정하여 여러 슬라이드 간의 의존성을 명시적으로 모델링함.

2단계 학습 프레임워크

77,134개의 공개 슬라이드를 활용한 비지도 학습(Stage 1)과 333개 작업의 다중 작업 학습(Stage 2)을 분리하여 효율성을 극대화함.

대규모 다중 작업 감독

56개 공개 데이터셋에서 추출한 205개 분류 및 128개 생존 분석 작업을 통합하여 임상적 의미를 정렬함.

파라미터 효율성

8,577만 개의 파라미터만으로 GigaPath(1.22B) 등 거대 모델보다 우수한 성능을 기록함.

핵심 아이디어 이해하기

병리 진단에서 Whole-Slide Image(WSI)는 기가픽셀 급의 거대한 해상도를 가진다. 기존에는 이를 작은 타일로 쪼개 각각의 특징(Embedding)을 추출한 뒤 단순히 평균을 내거나 합치는 방식을 사용했다. 하지만 실제 임상에서는 한 환자에게서 나온 여러 조직 슬라이드를 종합적으로 판단해야 정확한 병기 결정이나 예후 판정이 가능하다. MOOZY는 'Case Transformer'라는 구조를 통해 이 문제를 해결한다. 먼저 개별 슬라이드 내의 공간적 특징을 추출한 뒤, 환자에게 속한 모든 슬라이드 정보를 Transformer의 Attention 메커니즘으로 연결한다. 이는 모델이 특정 슬라이드의 암세포뿐만 아니라, 다른 슬라이드와의 상관관계를 스스로 학습하여 환자 전체의 상태를 하나의 벡터로 표현하게 만든다. 결과적으로 MOOZY는 수십억 개의 파라미터를 가진 거대 모델들보다 훨씬 가벼우면서도, 환자 수준의 복잡한 임상 데이터를 더 정확하게 해석한다. 특히 공개된 데이터만을 사용해 재현 가능성을 확보했으며, 기존 모델 대비 가중치 F1 점수 등 주요 지표에서 7~10% 이상의 성능 향상을 달성했다.

방법론

Stage 1에서는 77,134개의 공개 슬라이드 특징 그리드를 사용하여 Masked Self-distillation 학습을 수행한다. DINOv2 스타일의 블록 마스킹을 적용하여, 마스킹된 영역의 타일 특징을 예측하도록 학습함으로써 슬라이드 내의 광범위한 공간적 맥락을 파악하는 Vision-only 인코더를 구축한다. Stage 2에서는 학습된 인코더를 기반으로 Case Transformer를 도입하여 환자 중심의 의미 정렬을 수행한다. 환자 한 명에게 속한 여러 슬라이드 임베딩을 입력으로 받아 Transformer 블록을 통과시켜 하나의 통합된 환자 케이스 임베딩을 생성한다. [입력값: 환자 내 모든 슬라이드의 특징 벡터 집합 → 연산: Case Transformer의 Self-attention → 출력 의미: 환자 전체의 임상적 상태를 요약한 단일 벡터] 최종적으로 333개의 다중 작업(Multi-task)을 동시에 학습한다. 분류 작업에는 Weighted Cross-Entropy를, 생존 분석에는 Discrete-hazard NLL Loss를 사용한다. 생존 분석의 경우, 시간을 이산적인 구간으로 나누어 각 구간에서의 위험도(Hazard)를 예측한다. [입력값: 환자 통합 임베딩 → 연산: 이산 위험도 헤드 통과 → 출력 의미: 특정 시간대 내 사건 발생 확률]

주요 결과

8개의 외부 홀드아웃 작업 평가에서 MOOZY는 대부분의 지표에서 최고 성능을 기록했다. TITAN 모델 대비 가중치 F1은 7.37%, ROC-AUC는 5.50%, 균형 정확도는 7.83% 향상되었으며, PRISM 모델과 비교 시 가중치 F1에서 8.83%, ROC-AUC에서 10.70%의 큰 개선을 보였다. 파라미터 효율성 측면에서 MOOZY는 총 85.77M 개의 파라미터를 보유하여, 1.22B 규모의 GigaPath보다 14배 이상 작다. 이는 거대한 인코더 대신 슬라이드 간 관계를 모델링하는 효율적인 집계 구조에 집중한 결과이다. Ablation Study 결과, Stage 1의 자기 지도 학습(SSL)이 없을 경우 성능이 저하됨을 확인하여 SSL이 제공하는 일반적인 공간적 사전 지식의 중요성을 입증했다. 또한 Case Aggregator를 통해 슬라이드 간 의존성을 명시적으로 모델링하는 것이 단순 평균 풀링보다 우수한 성능을 냈다.

기술 상세

Slide 인코더는 6레이어 Transformer 아키텍처(d=768, 12 heads)를 기반으로 하며, 위치 정보를 처리하기 위해 2D ALiBi(Attention with Linear Biases)를 적용했다. ALiBi는 학습 시 보지 못한 해상도의 이미지에 대해서도 상대적 거리 기반의 어텐션 편향을 제공하여 유연한 추론을 가능하게 한다. Case Aggregator는 3레이어 Transformer로 구성되며, 환자당 슬라이드 수에 관계없이 일관된 환자 중심 임베딩 공간을 형성한다. 단일 슬라이드 케이스도 동일한 Aggregator를 통과시켜 추론 시 데이터 구조의 일관성을 보장한다. 생존 분석 모델은 Discrete-time Hazard Objective를 사용한다. 생존 시간을 훈련 세트의 이벤트 시간 분위수에 따라 가변적인 빈(Bin)으로 나누고, 각 빈에서의 조건부 확률을 예측함으로써 복잡한 생존 곡선을 모델링한다.

한계점

명시적으로 언급된 한계점: 다중 슬라이드 간의 더 깊은 추론 능력을 정량화할 수 있는 전용 작업의 부족, 케이스 수준 검색 및 보고서 공동 학습 기능의 미비, 유전체 데이터와의 융합 부재.

실무 활용

MOOZY는 공개된 데이터와 코드를 통해 재현 가능한 병리 AI 연구의 기반을 제공하며, 특히 환자 한 명의 여러 슬라이드를 통합 분석해야 하는 실제 임상 환경에서 높은 실용성을 가진다.

암 하위 유형(Subtype) 정밀 분류
환자의 장기 생존율 및 재발 위험도 예측
다중 조직 샘플 기반의 종합 병기 결정 보조

코드 공개 여부: 공개

코드 저장소 보기

키워드

WSI(전체 슬라이드 이미지)Foundation Model(파운데이션 모델)Computational Pathology(계산 병리학)Self-Supervised Learning(자기 지도 학습)Transformer(트랜스포머)Survival Analysis(생존 분석)