핵심 요약
기존의 암 연구는 유전체나 전사체 데이터에 집중했으나, 일상적으로 생성되는 H&E 염색 조직 슬라이드의 풍부한 시각적 정보는 정량화되지 못한 채 버려지는 경우가 많았다. HistoAtlas는 AI를 통해 조직의 기하학적 구조와 세포 분포를 38개의 해석 가능한 지표로 변환하여, 복잡한 유전자 변이나 환자의 생존 가능성을 예측할 수 있는 거대한 지도를 구축했다.
왜 중요한가
기존의 암 연구는 유전체나 전사체 데이터에 집중했으나, 일상적으로 생성되는 H&E 염색 조직 슬라이드의 풍부한 시각적 정보는 정량화되지 못한 채 버려지는 경우가 많았다. HistoAtlas는 AI를 통해 조직의 기하학적 구조와 세포 분포를 38개의 해석 가능한 지표로 변환하여, 복잡한 유전자 변이나 환자의 생존 가능성을 예측할 수 있는 거대한 지도를 구축했다.
핵심 기여
38종의 해석 가능한 범암 히스토믹 특징 추출 파이프라인 구축
21개 암종의 6,745개 진단 슬라이드에서 조직 구성, 세포 밀도, 핵 형태, 공간적 조직화 등 5개 카테고리의 정량적 특징을 추출하는 자동화 시스템을 개발했다.
히스토믹 특징과 다중 오믹스 데이터 간의 체계적 연결
추출된 시각적 특징을 생존율, 유전자 발현, 체세포 변이, 면역 아형과 통계적으로 연계하여 형태학적 변화가 분자 수준의 변화를 어떻게 반영하는지 입증했다.
구획별 면역 세포 분포에 따른 예후 차별성 발견
종양 내부(Intratumoral)와 기질(Stromal) 내 림프구 밀도를 구분하여 분석함으로써, 종양 내부의 림프구 밀도가 기질보다 더 강력한 생존 보호 효과를 가짐을 확인했다.
데이터 투명성 및 추적성을 갖춘 대화형 웹 아틀라스 공개
모든 통계적 연관성을 개별 세포 및 조직 구획 수준까지 시각적으로 추적할 수 있는 웹 기반 도구(HistoAtlas)를 구축하여 연구자들이 자유롭게 쿼리할 수 있도록 했다.
핵심 아이디어 이해하기
딥러닝 기반의 디지털 병리학은 그동안 이미지 임베딩(Embedding)을 통해 암을 분류하거나 생존율을 예측하는 데 뛰어난 성능을 보였으나, 모델이 왜 그런 판단을 내렸는지 설명하기 어려운 블랙박스 문제가 있었다. 특히 조직 슬라이드 내 세포의 배치나 핵의 모양 같은 구체적인 생물학적 특징이 모델 내부의 고차원 벡터와 어떻게 연결되는지 명확하지 않았다.
HistoAtlas는 이를 해결하기 위해 UNet과 같은 세그멘테이션(Segmentation) 모델을 활용하여 조직을 종양, 기질, 괴사 영역 등으로 먼저 구분하고, HistoPLUS 모델로 44억 개 이상의 개별 세포를 9가지 유형으로 분류했다. 이후 이들 간의 거리, 밀도, 형태적 변이 등을 38개의 정량적 수치로 변환함으로써, 딥러닝의 강력한 추출 능력과 인간이 이해할 수 있는 생물학적 지표를 결합했다.
결과적으로 이 시스템은 단순히 암을 진단하는 것을 넘어, 특정 시각적 패턴(예: 핵의 다형성)이 특정 유전자(예: PLK1)의 발현이나 특정 면역 상태와 밀접하게 연관되어 있음을 보여준다. 이는 AI가 추출한 형태학적 지표가 분자 생물학적 상태를 대변하는 프록시(Proxy) 역할을 할 수 있음을 의미하며, 고가의 시퀀싱 없이도 표준 조직 검사만으로 정밀 의료가 가능해지는 토대를 마련했다.
방법론
전체 파이프라인은 조직 세그멘테이션과 세포 감지의 두 단계로 구성된다. 먼저 ViT-B 백본 기반의 CellViT 아키텍처를 사용하여 전체 슬라이드 이미지(WSI)를 종양 상피, 기질, 괴사, 정상 상피, 혈액 등 5개 구획으로 분할한다. [WSI 입력 → ViT 기반 패치 분석 → 픽셀 단위 클래스 할당 → 조직 구획 맵 생성] 과정을 거친다.
두 번째 단계에서는 HistoPLUS 모델을 사용하여 종양 세포, 림프구, 섬유아세포 등 9가지 유형의 세포를 감지하고 분류한다. [조직 타일 입력 → 객체 탐지 및 분류 → 세포별 좌표 및 유형 출력 → 44억 개 세포 데이터베이스 구축] 순으로 연산이 수행된다.
추출된 38개의 히스토믹 특징은 조직 구성, 세포 밀도, 핵 형태 및 동역학, 공간적 조직화, 공간적 이질성으로 분류된다. 특히 공간적 조직화 지표는 부호화된 유클리드 거리 변환(Signed Euclidean Distance Transform)을 사용하여 종양 경계로부터의 거리를 계산한다. [종양 경계 좌표 입력 → 거리 변환 연산 → 구획별 세포 분포 계산 → 공간적 침윤 지표 산출] 방식으로 작동한다.
통계 분석에서는 Cox 비례 위험 모델(Cox Proportional-Hazards Model)을 사용하여 각 특징과 생존율 간의 연관성을 평가했다. [히스토믹 수치 + 임상 변수 입력 → 위험비(Hazard Ratio) 계산 → P-값 산출 → 다중 테스트 교정(Benjamini-Hochberg) 적용]을 통해 신뢰도를 확보했다.
주요 결과
21개 암종에 걸친 범암 분석 결과, 종양 내부 림프구 밀도는 생존율 향상과 강한 상관관계(HR=0.87, P=9.8e-4)를 보인 반면, 기질 내 림프구 밀도는 상대적으로 약한 효과(HR=0.89, P=0.031)를 나타냈다. 이는 면역 세포의 단순한 양보다 위치가 예후 예측에 더 중요하다는 것을 시사한다.
분자적 연관성 분석에서는 38개 특징 중 18.2%가 유전자 발현 및 경로 활성도와 유의미한 상관관계를 보였다. 특히 유사분열 지수(Mitotic Index)는 증식 마커인 PLK1(ρ=0.56)과 강하게 결합되었으며, 침윤 깊이는 상피-중간엽 이행(EMT) 점수와 일치하는 양상을 보였다.
비지도 학습 기반의 K-means 클러스터링을 통해 10개의 범암 형태학적 클러스터(L1)를 식별했다. 이 중 클러스터 2는 간암(LIHC)과 갑상선암(THCA)이 주를 이루며 매우 정적인(Quiescent) 형태를 보였고, 클러스터 8은 호르몬 기반 암(BRCA, PRAD)으로 구성되어 독특한 생존 곡선을 나타냈다.
실무 활용
HistoAtlas는 추가적인 유전자 검사 없이 표준 H&E 슬라이드만으로 환자의 분자적 특성과 예후를 예측할 수 있는 강력한 도구이다. 연구자들은 공개된 웹 아틀라스를 통해 특정 암종에서 어떤 시각적 특징이 중요한지 즉시 탐색할 수 있다.
- 표준 조직 검사 슬라이드를 활용한 저비용 바이오마커 발굴
- 암 환자의 면역 세포 침윤 패턴에 따른 맞춤형 치료 전략 수립
- 대규모 병리 데이터셋에서의 자동화된 형태학적 특징 추출 및 정량화
- 유전자 변이와 조직 형태 간의 상관관계 연구를 위한 참조 데이터셋 활용
기술 상세
아키텍처는 Phikon 자기지도학습(Self-supervised) ViT-B 백본을 활용한 세그멘테이션 모델과 HistoPLUS 세포 분류 모델을 결합한 형태이다. 0.5 µm/px 해상도에서 추론을 수행하며, 다수결 투표(Majority Voting) 방식을 통해 최종 세그멘테이션 마스크를 생성한다.
38개의 특징 추출 로직은 생물학적 해석 가능성을 최우선으로 설계되었다. 예를 들어, 인터페이스 정규화 면역 압력(Interface-normalized immune pressure)은 종양-기질 경계 50µm 이내의 림프구 수를 경계 길이로 나누어 계산함으로써 면역 세포의 실제 교전 강도를 수치화한다.
통계적 엄밀성을 위해 모든 연관성 분석에는 Benjamini-Hochberg 다중 테스트 교정이 적용되었으며, 증거 강도에 따라 Strong, Moderate, Suggestive, Insufficient의 4단계 배지를 부여했다. 이는 소규모 코호트에서 발생할 수 있는 위양성 결과를 방지하기 위함이다.
데이터 분포의 편향을 제거하기 위해 22개의 특징에 로그 변환을 적용하고, 극단값 처리를 위해 0.5% 및 99.5% 백분위수에서 윈저화(Winsorization)를 수행했다. 모든 생존 분석 모델은 연령, 성별, 병기 등을 공변량으로 조정하여 독립적인 예측 가치를 평가했다.
한계점
모든 데이터가 TCGA 코호트에 국한되어 있어 외부 데이터셋에 대한 검증이 아직 이루어지지 않았으며, 주로 유럽계 혈통 데이터 위주로 구성되어 인종적 다양성에 따른 일반화 가능성이 확인되지 않았다. 또한 세포 감지 모델이 훈련 데이터에 포함되지 않은 일부 암종(OOD)에서 성능 저하를 보일 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료