핵심 요약
기존 암 진단은 조직의 형태(H&E)나 분자 정보(mIF) 중 하나에만 의존해 질병의 전체 맥락을 파악하기 어려웠다. Haiku는 이미지와 분자 데이터, 임상 텍스트를 하나의 공간에 통합하여 데이터 간 교차 검색과 정밀한 생존 예측을 가능하게 한다. 이는 의료진이 복잡한 암 진행 과정을 다각도로 분석하고 개인화된 치료 전략을 세우는 데 기여한다.
왜 중요한가
기존 암 진단은 조직의 형태(H&E)나 분자 정보(mIF) 중 하나에만 의존해 질병의 전체 맥락을 파악하기 어려웠다. Haiku는 이미지와 분자 데이터, 임상 텍스트를 하나의 공간에 통합하여 데이터 간 교차 검색과 정밀한 생존 예측을 가능하게 한다. 이는 의료진이 복잡한 암 진행 과정을 다각도로 분석하고 개인화된 치료 전략을 세우는 데 기여한다.
핵심 기여
Haiku: 대규모 3중 모달리티 파운데이션 모델 구축
11개 장기, 1,606명 환자의 3,218개 조직 섹션에서 추출한 2,670만 개의 공간 단백질체 패치를 학습했다. H&E 조직 이미지, mIF(다중 면역형광) 이미지, 임상 메타데이터 텍스트를 공유 임베딩 공간에 정렬한 최초의 모델이다.
Zero-shot Biomarker Inference 및 교차 모달 검색
학습되지 않은 데이터에서도 텍스트 설명만으로 특정 바이오마커의 분포를 예측하는 Zero-shot 성능을 입증했다. mIF-to-H&E 검색에서 Recall@50 0.604를 기록하며 단일 모달리티 대비 월등한 성능을 보였다.
Counterfactual Prediction 프레임워크 도입
조직의 형태는 고정한 채 임상 메타데이터(예: 암 단계)만 변경하여 분자 수준의 변화를 시뮬레이션하는 가상 분석 기능을 제공한다. 이를 통해 유방암 진행이나 폐암 생존과 관련된 미세환경의 변화를 가설로 생성할 수 있다.
핵심 아이디어 이해하기
기존의 전산 병리학 모델은 주로 H&E 이미지에서 질병 유무를 분류하는 단일 모달리티 방식에 치중했다. 하지만 실제 질병은 형태학적 변화와 분자적 변화가 복합적으로 일어나며, 이는 환자의 임상 정보와 밀접하게 연결된다. Haiku는 이 세 가지 서로 다른 데이터 타입을 하나의 Embedding 공간으로 투영하여 서로의 관계를 학습한다.
이 모델은 CLIP 아키텍처의 Contrastive Learning 원리를 확장하여 적용한다. H&E 패치, mIF 패치, 그리고 해당 위치의 임상 정보를 담은 Text가 서로 '쌍'을 이룰 때 임베딩 공간에서 가깝게 위치하도록 학습시킨다. 이를 통해 모델은 특정 암세포의 형태(H&E)가 어떤 단백질 발현(mIF)과 연결되는지, 그리고 그것이 임상적으로 어떤 단계(Text)를 의미하는지 통합적으로 이해하게 된다.
결과적으로 Haiku는 이미지 데이터만 보고도 보이지 않는 분자 정보를 유추하거나, 텍스트로 설명된 임상 상황에 부합하는 조직 이미지를 찾아낼 수 있다. 이는 단순한 분류를 넘어 데이터 간의 고차원적 상관관계를 파악함으로써 의료 데이터 분석의 새로운 지평을 연다.
방법론
Haiku는 세 가지 전용 Encoder를 사용하여 데이터를 처리한다. H&E 이미지는 MUSK Vision Transformer를, 임상 텍스트는 BiomedBERT를 사용하며, mIF 이미지는 VirTues 아키텍처 기반의 Encoder를 처음부터 학습시켜 사용한다. 각 Encoder의 출력은 512차원의 공유 Latent Space로 투영된다.
학습은 Tri-modal Contrastive Loss를 최소화하는 방향으로 진행된다. 배치 사이즈 B=128 내에서 매칭된 (H&E, mIF, Text) 쌍의 코사인 유사도를 계산한다. [입력값: 세 모달리티의 임베딩 벡터] → [연산: Pairwise CLIP-style Contrastive Loss 계산] → [출력 의미: 매칭된 데이터 간 유사도는 극대화하고 매칭되지 않은 데이터 간 유사도는 최소화하여 공유 공간에 정렬].
바이오마커 추론을 위해 Fusion Retrieval 기법을 사용한다. H&E 임베딩과 Text 임베딩을 가중치 α를 이용해 결합한다. [입력값: H&E 벡터와 메타데이터 텍스트 벡터] → [연산: α * H&E_vec + (1-α) * Text_vec] → [출력 의미: 두 정보가 통합된 쿼리 벡터를 생성하여 mIF 아틀라스에서 가장 유사한 패치를 검색]. 실험을 통해 최적의 가중치 α=0.8을 도출했다.
관련 Figure

H&E 이미지, mIF 이미지, 임상 메타데이터가 각각의 인코더를 거쳐 공유 임베딩 공간에서 CLIP 손실 함수를 통해 정렬되는 과정을 보여준다. 이 구조가 Haiku의 핵심인 3중 모달리티 통합의 기반임을 명시한다.
Haiku 프레임워크의 전체 데이터 구성 및 아키텍처 개요도
주요 결과
교차 모달 검색 성능에서 Haiku는 압도적인 결과를 보였다. mIF-to-H&E 검색에서 Recall@50 0.604, H&E-to-mIF에서 0.611을 기록한 반면, 기존 베이스라인은 거의 0에 가까운 성능을 보였다. 이는 Haiku가 서로 다른 모달리티 간의 의미적 연결을 성공적으로 학습했음을 증명한다.
임상 예측 작업에서도 우수성이 확인됐다. 대장암 생존 예측에서 C-index 0.737을 기록하여 기존 VirTues 모델(0.683) 대비 약 7.9%의 상대적 성능 향상을 달성했다. 흑색종 치료 반응 예측(AUPRC 0.660)과 대장암 치료 반응 예측(AUPRC 0.775)에서도 베이스라인을 상회했다.
Zero-shot 바이오마커 추론에서는 52개 바이오마커에 대해 평균 Pearson 상관계수 0.718을 달성했다. 특히 CD8, Granzyme B 등 면역 관련 마커에서 높은 정확도를 보였으며, 이는 텍스트 기반의 임상 정보가 이미지 데이터의 부족한 분자 정보를 효과적으로 보완하고 있음을 나타낸다.
관련 Figure

mIF-to-H&E, H&E-to-mIF 등 다양한 검색 시나리오에서 Haiku가 기존 MUSK나 랜덤 모델보다 월등한 Recall 및 F1 스코어를 기록함을 입증한다. 특히 텍스트 쿼리를 통한 mIF 검색의 유효성을 시각화한다.
교차 모달 검색 및 Zero-shot 성능 벤치마크 결과 그래프

Haiku가 대장암 생존 예측 및 치료 반응 예측에서 기존 모델보다 높은 AUROC와 C-index를 달성했음을 보여준다. Kaplan-Meier 곡선은 고위험군과 저위험군을 통계적으로 유의미하게 구분해냄을 증명한다.
다운스트림 임상 작업 성능 및 생존 분석 Kaplan-Meier 곡선
기술 상세
Haiku의 핵심은 H&E, mIF, Text라는 이질적인 데이터의 공간적 대응 관계를 보존하며 정렬하는 것이다. mIF 데이터의 불규칙한 채널 문제를 해결하기 위해 ESM-3 단백질 임베딩을 사용하여 각 바이오마커의 정체성을 인코딩했다. 이는 모델이 학습 시 보지 못한 새로운 바이오마커에 대해서도 대응할 수 있는 유연성을 제공한다.
모델 학습은 2단계 학습률 스케줄을 적용하여 25에포크 동안 진행됐다. AdamW 옵티마이저를 사용했으며, H&E와 Text Encoder는 마지막 2개의 Transformer 블록만 미세 조정(Fine-tuning)하고 mIF Encoder는 고정(Frozen)하여 학습 안정성을 확보했다. 투영 헤드는 2계층 MLP 구조로 설계되어 비선형적인 특징 매핑을 수행한다.
Counterfactual 분석을 위해 도입된 'Perturb-and-Retrieve' 패러다임은 생성 모델의 고질적인 문제인 할루시네이션(Hallucination)을 방지한다. 새로운 이미지를 생성하는 대신, 수정된 텍스트 쿼리에 가장 부합하는 실제 mIF 패치를 아틀라스에서 검색해 보여줌으로써 항상 실제 측정된 데이터에 기반한 근거를 제시한다.
관련 Figure

H&E 이미지와 메타데이터를 결합했을 때 바이오마커 예측 정확도(Pearson Correlation)가 향상됨을 보여준다. 52개 바이오마커 전체에 걸쳐 Haiku(Fusion)가 가장 높은 성능을 기록함을 시각화한다.
Zero-shot 퓨전 검색 기반의 바이오마커 추론 결과 분석
한계점
현재 모델은 쌍을 이룬(Paired) 데이터셋으로만 학습되어 데이터 확장성에 제한이 있다. 또한 텍스트 설명이 자유로운 서술형이 아닌 구조화된 메타데이터 템플릿에 의존하고 있어, 복잡한 임상 기록을 직접 처리하는 데는 한계가 있다. 분석 단위가 256x256 패치 수준에 머물러 있어 전체 슬라이드 수준의 아키텍처 통합이 향후 과제로 남아 있다.
실무 활용
Haiku는 대규모 병리 데이터 분석 및 신약 개발 연구에서 강력한 도구로 활용될 수 있다. 특히 고가의 mIF 검사 없이도 일반적인 H&E 이미지와 임상 정보만으로 분자 수준의 미세환경을 예측할 수 있어 비용 절감과 진단 속도 향상이 가능하다.
- H&E 조직 슬라이드로부터 특정 면역 단백질(PD-L1 등)의 발현 분포를 가상으로 생성하여 면역항암제 반응성 예측
- 임상 메타데이터 수정을 통한 암 진행 단계별 조직 미세환경 변화 시뮬레이션 및 신규 타겟 발굴
- 대규모 조직 데이터베이스에서 특정 임상 특징이나 분자 패턴을 가진 유사 사례 검색(Cross-modal Retrieval)
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

암 단계를 T2N0에서 T4N2로 가상 변경했을 때, 상피 우세 종양 핵(C3)에서 CD68 증가 및 GATA3 감소와 같은 실제 암 진행 양상과 일치하는 분자적 변화가 포착됨을 보여준다.
유방암 진행에 따른 가상(Counterfactual) 분석 결과

생존 상태를 'Deceased'에서 'Alive'로 변경했을 때의 면역 세포 침윤 증가와 체크포인트 단백질 감소 등 긍정적 예후와 관련된 미세환경 변화를 니치(Niche)별로 분석한 결과를 제시한다.
폐암 생존 여부에 따른 미세환경 재구성 시뮬레이션
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.