핵심 요약
기존의 단백질 설계 AI는 활성 부위를 미리 정의해야 하거나 서열과 구조를 따로 설계해야 하는 한계가 있었다. 이 논문은 서열과 3D 구조를 동시에 생성하는 멀티모달 확산 모델을 통해, 자연계에 존재하지 않는 새로운 화학 반응을 수행하는 효소를 재학습 없이도 정밀하게 설계할 수 있음을 입증했다.
왜 중요한가
기존의 단백질 설계 AI는 활성 부위를 미리 정의해야 하거나 서열과 구조를 따로 설계해야 하는 한계가 있었다. 이 논문은 서열과 3D 구조를 동시에 생성하는 멀티모달 확산 모델을 통해, 자연계에 존재하지 않는 새로운 화학 반응을 수행하는 효소를 재학습 없이도 정밀하게 설계할 수 있음을 입증했다.
핵심 기여
서열-구조 동시 설계 모델 DISCO 개발
단백질의 아미노산 서열(이산 데이터)과 3D 원자 좌표(연속 데이터)를 단일 신경망 내에서 동시에 생성하는 멀티모달 확산 모델을 구축했다. 이를 통해 서열과 구조가 서로의 생성 과정에 실시간으로 영향을 미치며 최적화되도록 구현했다.
Feynman-Kac Corrector를 이용한 추론 시간 최적화
모델의 재학습 없이도 추론 단계에서 특정 생물학적 목표(이황화 결합 형성, 양이온-π 상호작용 등)를 달성하도록 샘플링 경로를 조정하는 수학적 기법을 도입했다. 이는 기존의 단순 필터링 방식보다 희귀한 특성을 가진 단백질을 생성하는 데 훨씬 효율적이다.
새로운 화학 반응을 촉매하는 효소 설계 및 실험 검증
자연계 효소가 수행하지 않는 카르벤 전이(carbene-transfer) 반응 4종에 대해 효소를 설계했다. 실험 결과, 설계된 효소들은 기존에 인위적으로 개량된 효소들보다 높은 활성(최대 5,170 TTN)과 선택성을 보였다.
활성 부위 사전 정의 없는 효소 설계 성공
반응 중간체(reactive intermediate)의 기하학적 정보만 입력하면 모델이 그 주변에 적합한 활성 부위와 단백질 골격을 스스로 구축한다. 이는 메커니즘이 불분명한 새로운 반응에 대해서도 효소를 설계할 수 있는 길을 열었다.
핵심 아이디어 이해하기
기존의 단백질 설계는 먼저 뼈대(Backbone)를 만들고 그에 맞는 아미노산 서열을 채워넣는(Inverse Folding) 순차적 방식을 사용했다. 하지만 단백질의 기능은 서열과 구조가 복합적으로 결정하므로, 한쪽을 고정한 채 다른 쪽을 맞추는 방식은 최적의 성능을 내기 어렵다. 특히 효소 설계에서는 특정 화학 반응을 위한 정밀한 원자 배치가 필요한데, 기존 방식은 이를 위해 '테오자임'이라는 가상의 활성 부위를 사람이 직접 정의해야 하는 번거로움이 있었다.
DISCO는 이를 해결하기 위해 서열과 구조를 하나의 결합 분포(Joint Distribution)로 보고 동시에 노이즈를 제거하며 생성한다. 텍스트 생성에 쓰이는 Masked Language Model 방식과 3D 좌표 생성에 쓰이는 연속 확산 모델을 결합하여, 모델이 서열을 결정하면서 동시에 그 서열이 가질 수 있는 최적의 3D 배치를 함께 고민하도록 만든 것이다. 이 과정에서 '교차 모달 재활용(Cross-modal recycling)' 메커니즘이 작동하여 현재까지 예측된 서열 정보가 구조 예측에 반영되고, 반대로 구조 정보가 서열 결정에 다시 영향을 주는 피드백 루프가 형성된다.
결과적으로 모델은 사람이 활성 부위의 위치를 지정해주지 않아도, 입력된 반응물 분자 주변에 화학적으로 가장 적절한 아미노산들을 배치하고 이를 지지하는 안정적인 전체 구조를 스스로 찾아낸다. 이는 마치 조각가가 돌의 결을 보며 형태를 잡는 동시에 세부 묘사를 진행하는 것과 유사한 원리로, 훨씬 더 자연스럽고 기능적인 단백질 설계가 가능해진다.
방법론
DISCO는 AlphaFold 3의 아키텍처를 기반으로 하되, 서열과 구조의 공동 설계를 위해 대폭 수정된 구조를 가진다. 입력 임베더는 아미노산 서열, 분자 구조(SMILES), 결합 정보를 받아 단일 및 쌍(Pair) 표현을 생성한다. 이때 진화 정보를 활용하기 위해 기존의 MSA 모듈 대신 고정된 단백질 언어 모델(pLM, DPLM 650M)을 사용하여 연산 효율성을 높였다.
핵심 메커니즘은 '교차 모달 재활용(Cross-modal recycling)'이다. 각 생성 단계에서 모델은 현재 예측된 서열 x_seq와 구조 x_struct를 다시 입력으로 받아 다음 단계의 예측을 정교화한다. 서열은 마스킹된 토큰을 채워가는 이산 확산 과정을 거치고, 구조는 원자 좌표의 노이즈를 줄여가는 연속 확산 과정을 거친다. 이 두 과정은 단일 신경망 내에서 병렬로 진행되며, 각 모달리티의 손실 함수(Loss function)를 독립적으로 계산하여 결합 역과정을 학습한다.
추론 시에는 'Feynman-Kac Corrector(FKC)'를 사용하여 생성 결과물을 제어한다. FKC는 현재 샘플의 분포를 목표하는 보상 함수(Reward function) 방향으로 기울이는(Tilting) 역할을 한다. 예를 들어 이황화 결합을 늘리고 싶다면, 서열과 구조 정보를 동시에 입력받아 결합 형성 가능성을 계산하는 보상 함수를 정의하고, FKC가 매 단계마다 이 값이 높아지는 방향으로 샘플을 미세 조정한다. 이는 수만 개의 샘플을 뽑아 거르는 방식보다 훨씬 적은 샘플로도 고품질의 설계를 얻게 해준다.
주요 결과
무작위 단백질 생성 실험에서 DISCO는 약 90%의 설계 성공률(ESMFold 재접힘 시 RMSD < 2Å)을 기록하며 기존 SOTA 모델들을 압도했다. 특히 서열과 구조의 다양성 및 참신성 지표에서도 가장 높은 점수를 얻어, 단순히 기존 데이터를 모방하는 것이 아니라 새로운 단백질 공간을 탐색하고 있음을 보여주었다.
179종의 다양한 리간드(작은 분자, 금속 이온, 핵산 등)를 대상으로 한 조건부 생성 벤치마크(STUDIO-179)에서도 DISCO는 거의 모든 케이스에서 가장 높은 설계 성공률을 보였다. 리간드의 소수성(Lipophilicity)에 따라 단백질 결합 부위의 아미노산 조성이 유의미하게 변화하는 등, 물리화학적 원리를 정확히 반영한 설계가 이루어짐이 확인됐다.
실제 효소 설계 실험에서는 카르벤 전이 반응에 대해 단 90개의 후보군만 테스트했음에도 불구하고, B-H 삽입 반응에서 98%의 수율과 5,170의 TTN(Total Turnover Number)을 달성하는 효소를 찾아냈다. 이는 기존에 실험실에서 수십 차례 진화시켜 만든 효소보다 우수한 성능이다. 또한 C(sp3)-H 삽입 반응과 같이 메커니즘이 복잡해 기존 방식으로 설계가 불가능했던 반응에서도 2,360 TTN의 높은 활성을 가진 효소를 성공적으로 설계했다.
기술 상세
DISCO 아키텍처는 AlphaFold 3의 구조를 따르되 MSA 모듈을 제거하고 DPLM 650M 언어 모델로 대체했다. 이는 추론 시 매번 MSA를 계산해야 하는 병목 현상을 제거하여 실시간 서열-구조 공동 설계를 가능하게 한다. 모델은 약 8.88억 개의 파라미터를 가지며, 그 중 2.35억 개가 학습 가능한 파라미터이다.
수학적으로 DISCO는 연속 공간의 SDE(Stochastic Differential Equation)와 이산 공간의 마르코프 점프 프로세스를 결합한 멀티모달 확산 프레임워크를 사용한다. 서열 생성 시에는 '경로 계획(Path Planning, P2)' 기법을 도입하여 한 번 결정된 토큰을 다시 수정할 수 없는 기존 Masked Diffusion의 한계를 극복하고 자가 교정(Self-correction)이 가능하도록 했다.
학습 데이터는 2021년 9월 이전의 PDB 데이터를 사용했으며, 특정 필터링 없이 전체 데이터를 학습시켜 모델이 '설계 가능한' 구조에만 편향되지 않도록 했다. SE(3) 대칭성은 아키텍처 제약 대신 데이터 증강(Data Augmentation)을 통해 부드럽게 주입되었다. 실험 검증 단계에서는 AlphaFold 3와 Chai-1이라는 두 개의 독립적인 구조 예측 모델을 오라클로 사용하여 설계된 단백질의 신뢰성을 이중으로 확인했다.
한계점
현재 DISCO에 내장된 단백질 언어 모델(pLM)은 단일 체인 데이터로만 학습되었기 때문에, 여러 단백질이 결합된 복합체(Multimeric complexes) 설계에는 한계가 있을 수 있다. 또한 이번 연구에서는 비단백질 리간드와의 결합에 집중했으므로 단백질-단백질 상호작용 설계 성능은 추가 검증이 필요하다.
실무 활용
자연계에 없는 새로운 화학 반응을 수행하는 맞춤형 효소를 설계하는 데 즉시 활용 가능하다. 특히 제약, 정밀 화학 분야에서 기존의 비싼 금속 촉매를 대체할 수 있는 친환경 바이오 촉매 개발 속도를 획기적으로 높일 수 있다.
- 새로운 의약품 합성을 위한 고성능 카르벤 전이 효소 설계
- 특정 소분자나 DNA/RNA에 결합하는 맞춤형 단백질 바인더 생성
- 이황화 결합이나 특정 상호작용이 강화된 산업용 고안정성 단백질 설계
- 메커니즘이 알려지지 않은 신규 화학 반응용 효소의 초기 후보군 도출
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.