Tevogen Bio, Databricks와 AI로 신약 개발 연구 주기를 50일에서 24시간으로 단축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

전통적인 신약 개발은 막대한 비용과 10년 이상의 시간이 소요되는 병목 현상을 겪고 있다. Tevogen Bio는 이를 해결하기 위해 Microsoft 및 Databricks와 협력하여 메달리온 아키텍처 기반의 거버넌스 데이터 플랫폼을 구축했다. 2,400만 개의 단백질 서열에서 160억 개의 데이터 포인트를 추출하여 병렬 처리함으로써 기존 50일이 소요되던 연구 사이클을 24시간으로 단축하는 성과를 거두었다. 이를 통해 개발된 PredicTcell 알파 모델은 93~97%의 재현율을 기록하며 더 빠르고 저렴한 치료제 개발의 가능성을 입증했다.

배경

데이터 레이크하우스 아키텍처 이해, 머신러닝 평가지표(Recall, Accuracy) 지식, 기본적인 생물정보학 개념

대상 독자

신약 개발 및 바이오테크 분야의 데이터 엔지니어 및 AI 연구원

의미 / 영향

데이터 레이크하우스 아키텍처가 바이오 데이터의 사일로 문제를 해결하고 AI 모델 학습 속도를 획기적으로 개선하여 신약 개발의 경제성과 접근성을 높이는 핵심 동력이 됨을 시사한다.

섹션별 상세

수동 습식 실험과 테라바이트급 데이터 사일로가 연구 속도를 저해하는 주요 원인이었다. Tevogen Bio는 ExacTcell 플랫폼을 통해 질환 타겟을 결정하고자 했으나 초기 검증에만 18~24개월이 소요되는 한계가 있었다. Databricks와의 파트너십을 통해 데이터 파이프라인을 자동화하고 직렬 프로세스를 병렬로 전환하여 효율성을 극대화했다. 이를 통해 연구진은 수개월이 걸리던 작업을 며칠 또는 몇 시간 단위로 처리할 수 있는 환경을 마련했다.

Unity Catalog와 메달리온 아키텍처를 도입하여 데이터 거버넌스와 접근 제어를 강화한 현대적 레이크하우스를 구축했다. 분산 컴퓨팅 기술을 활용해 2,400만 개의 단백질 데이터를 정제하여 160억 개의 데이터 포인트와 7억 개의 고유 펩타이드를 도출했다. 데이터가 Bronze에서 Silver 레이어로 이동하며 정제되는 구조는 대규모 머신러닝 모델 학습의 견고한 토대가 되었다. 이러한 아키텍처 혁신은 데이터 처리 시간을 기존 50일에서 24시간으로 98% 이상 단축하는 결과로 이어졌다.

XGBoost와 ESM 모델을 활용한 MLOps 프레임워크를 구축하여 자동 학습, 추론, 모니터링 체계를 완성했다. 개발된 PredicTcell 알파 모델은 테스트 결과 93~97%의 재현율과 38~43%의 정확도를 달성하며 면역 활성 펩타이드 예측 능력을 증명했다. 현재는 Agent Bricks와 RAG 기술을 통합하여 3,700만 건의 전문 학술 자료에서 생화학적 특성을 실시간으로 분석하는 기능을 추가하고 있다. 이는 향후 단백질 결합 친화도를 예측하는 베타 버전 모델의 성능을 더욱 높이는 핵심 요소가 될 것이다.

실무 Takeaway

데이터 레이크하우스의 메달리온 아키텍처와 분산 컴퓨팅을 결합하면 수십 일이 소요되는 대규모 바이오 데이터 분석 주기를 24시간 이내로 단축할 수 있다.
XGBoost와 ESM 같은 머신러닝 모델을 앙상블하여 160억 개의 데이터 포인트를 학습시키면 신약 타겟 예측의 재현율을 93% 이상으로 확보 가능하다.
RAG 기술을 에이전트 구조에 통합하여 수천만 건의 학술 논문을 실시간 분석함으로써 모델 학습에 필요한 생화학적 통찰력을 빠르게 보완할 수 있다.

언급된 리소스

문서Data intelligence reshapes industries report