세포 상태의 전체상을 파악하는 새로운 멀티모달 AI 프레임워크 개발

핵심 요약

세포 연구 시 유전자 발현이나 단백질 측정 등 다양한 방식인 모달리티가 사용되지만, 기존 방식은 정보를 하나로 통합하여 분석하는 데 한계가 있었다. MIT와 브로드 연구소 연구진은 각 측정 방식에서 겹치는 정보와 고유한 정보를 자동으로 구분해내는 새로운 AI 프레임워크를 개발했다. 이 기술은 오토인코더(Autoencoder) 구조를 개선하여 세포 내 상호작용을 더 입체적으로 파악하게 함으로써 암이나 알츠하이머 같은 질병의 메커니즘 연구에 기여할 것으로 기대된다. 연구 결과는 네이처 컴퓨테이셔널 사이언스(Nature Computational Science)에 게재되었다.

배경

멀티모달 학습(Multimodal Learning), 오토인코더(Autoencoder), 단세포 분석(Single-cell Analysis)

대상 독자

생물정보학자, 질병 연구자, 멀티모달 AI 모델 개발자

의미 / 영향

이 기술은 생물학적 데이터를 단순 통합하는 단계를 넘어 데이터 간의 인과관계와 조절 메커니즘을 이해하는 교두보가 된다. 특히 신약 개발이나 정밀 의료 분야에서 실험 비용을 절감하고 데이터 해석의 정확도를 높이는 데 기여할 것으로 보인다.

섹션별 상세

세포 상태를 파악하기 위해 RNA 측정이나 염색체 형태 분석 등 다양한 기술이 동원되지만 기존 머신러닝 모델은 각 모달리티의 정보를 단순히 합쳐서 처리했다. 이로 인해 특정 정보가 세포의 어느 부분이나 어떤 측정 방식에서 기인했는지 파악하기 어려웠으나 새로운 프레임워크는 이를 명확히 구분한다. 연구팀은 각 측정 방식이 가진 고유한 가치와 공통된 가치를 분리하여 세포의 복잡한 층위를 더 정밀하게 분석하는 데 성공했다.

연구팀은 기존 오토인코더 구조를 변형하여 여러 모달리티가 공유하는 데이터를 인코딩하는 공유 표현 공간과 각 모달리티만의 고유 데이터를 담는 개별 공간을 분리했다. 이는 벤 다이어그램처럼 데이터의 중첩 부위와 독자 부위를 시각화하고 분석할 수 있게 하여 세포 상태에 대한 입체적인 해석을 가능하게 한다. 이러한 구조적 개선을 통해 연구자들은 특정 질병 마커가 어떤 생물학적 경로를 통해 발현되는지 더 명확하게 추적할 수 있다.

복잡한 멀티모달 데이터 사이에서 공유 정보를 정확히 판별하기 위해 특수한 2단계 학습 프로세스가 도입되었다. 합성 데이터셋과 실제 단세포 데이터셋을 활용한 테스트 결과, 전사체(Transcriptomics)와 염색질 접근성(Chromatin accessibility) 데이터에서 공유되는 유전자 활동을 성공적으로 식별해냈다. 이 모델은 이전에 본 적 없는 새로운 세포 데이터가 입력되어도 공유 정보와 고유 정보를 정확하게 분류하는 성능을 입증했다.

이 모델은 암 환자의 DNA 손상을 나타내는 단백질 마커가 어떤 측정 방식에서 가장 잘 포착되는지 식별하는 데 활용될 수 있다. 모든 모달리티를 직접 측정하기 어려운 현실에서 어떤 데이터를 실제로 측정하고 어떤 데이터를 AI로 예측할지 결정하는 가이드라인을 제공한다. 이는 실험 설계의 효율성을 극대화하고 임상 연구에서 가장 정보 가치가 높은 측정 기술을 선택하는 데 중요한 근거가 된다.

실무 Takeaway

멀티모달 오토인코더를 활용해 세포 측정 데이터 간의 상관관계와 독립적 특성을 수치적으로 분리하여 분석할 수 있다.
질병 연구 시 불필요한 중복 실험을 줄이고 가장 정보 가치가 높은 측정 모달리티를 우선적으로 선택하는 전략적 의사결정이 가능하다.
암, 알츠하이머, 당뇨병 등 복잡한 질병의 진행 과정을 세포 수준에서 더 정밀하게 추적할 수 있는 통합 분석 도구를 확보했다.

언급된 리소스

논문Partially shared multi-modal embedding learns holistic representation of cell state