공정한 분할이 리더보드를 뒤집다: CHANRG가 밝혀낸 RNA 2차 구조 예측의 제한된 일반화 능력

최신 RNA 파운데이션 모델들이 기존 벤치마크에서는 높은 성능을 보이지만, 실제로는 학습 데이터의 구조를 암기하고 있을 가능성이 높음을 시사한다. 17만 개의 구조적 비중복 데이터를 포함한 CHANRG 벤치마크를 통해 모델의 진정한 일반화 능력을 평가할 수 있는 엄격한 기준을 제시했다.

왜 중요한가

핵심 기여

CHANRG 벤치마크 구축

Rfam 15.0의 1,000만 개 시퀀스에서 구조 기반 중복 제거를 수행하여 170,083개의 구조적 비중복 RNA 데이터를 추출하고, 생물학적 계층 구조에 기반한 3가지 OOD 평가 시나리오를 설계했다.

파운데이션 모델의 일반화 한계 규명

RiNALMo, ERNIE-RNA 등 대규모 모델이 내부 테스트에서는 우수하지만, 새로운 아키텍처나 진화적 거리가 먼 데이터에서는 구조적 디코더보다 성능 유지율이 현저히 낮음을 확인했다.

계층적 구조 평가 체계 도입

단순 염기쌍 회복률을 넘어 헬릭스(Stem) 단위, 고차원 위상(Topology) 구조 및 그래프 편집 거리(GED)를 포함한 다단계 평가 지표를 통해 모델의 실패 지점을 정밀하게 분석했다.

NestedTensor 기반 고속 연산 스택

가변 길이 RNA 처리를 위해 패딩을 제거한 연산 방식을 도입하여 추론 속도를 3.3배 향상시키고 GPU 메모리 사용량을 6.7배 절감하는 효율적인 구현체를 제공했다.

핵심 아이디어 이해하기

RNA 2차 구조 예측은 서열 내 염기들이 어떻게 짝을 이루는지 찾는 문제이다. 기존에는 서열 유사성만으로 데이터를 나누어 평가했으나, 서열이 달라도 구조가 비슷한 경우가 많아 모델이 물리적 원리를 배우기보다 익숙한 패턴을 암기하는 '데이터 누수'가 발생했다. CHANRG는 서열이 아닌 '구조' 자체의 중복을 제거하여 모델이 한 번도 보지 못한 완전히 새로운 형태의 RNA 구조를 예측하도록 강제한다.

딥러닝의 기초인 Attention 메커니즘은 서열 내 모든 관계를 계산하지만, 이것이 실제 생물학적 구조의 위상적 연결성(Topology)을 보장하지는 않는다. 실험 결과, 거대 모델들은 국소적인 패턴 매칭에는 능숙하지만 고차원적인 구조적 연결을 논리적으로 완성하는 능력은 전통적인 물리 법칙 기반 모델보다 취약함이 드러났다.

결국 모델의 크기를 키우는 것만으로는 새로운 생물학적 도메인에 대한 일반화 문제를 해결할 수 없으며, 물리적 제약 조건을 반영한 구조적 편향(Structural Bias)이나 더 정교한 학습 전략이 필요함을 시사한다.

방법론

데이터 정제 파이프라인은 Rfam 15.0의 1,000만 개 시퀀스를 대상으로 무결성 검사, 서열 기반 중복 제거, 그리고 bpRNA-CosMoS 점수를 이용한 구조 기반 중복 제거를 순차적으로 수행한다. [입력: 1,000만 개 시퀀스 → 연산: 구조 유사도 계산 및 필터링 → 출력: 17만 개 비중복 데이터 → 의미: 모델의 암기 효과를 배제한 순수 일반화 평가용 데이터셋 확보]

OOD(분포 외) 분할은 생물학적 계층 구조를 활용한다. GenA(새로운 아키텍처), GenC(훈련에 포함되지 않은 클랜), GenF(게놈 다양성이 낮은 희귀 패밀리)로 나누어 모델의 전이 능력을 다각도로 검증한다. 특히 GenC는 훈련 데이터와 진화적으로 가장 먼 데이터를 포함하여 모델의 극한 성능을 시험한다.

연산 효율화를 위해 마스크 인식 NestedTensor 실행 경로를 구현했다. [입력: 서로 다른 길이의 RNA 시퀀스 배치 → 연산: 패딩 영역을 연산 그래프에서 제외하고 대칭 행렬의 절반만 계산하는 삼각 컨볼루션 수행 → 출력: 패딩 없는 접촉 지도(Contact Map) → 의미: 연산 낭비 제거 및 배치 구성에 따른 예측 변동성 차단]

주요 결과

파운데이션 모델(FM)은 내부 테스트(Test)에서 평균 F1 0.6731로 가장 높았으나, OOD 평균에서는 0.1796으로 급락하며 성능 유지율이 26.7%에 불과했다. 반면 구조적 디코더(SD)는 OOD 환경에서도 92.3%의 성능을 유지하며 더 강건한 일반화 능력을 보였다.

모델 규모 확장(Scaling) 분석 결과, RiNALMo 모델의 파라미터를 늘릴수록 내부 테스트 성능은 0.6222에서 0.7579로 크게 향상되었으나, OOD 성능은 0.1460에서 0.2140으로 소폭 상승하는 데 그쳤다. 이는 모델 크기만으로는 구조적 일반화 문제를 해결할 수 없음을 증명한다.

계층적 평가 결과, FM 모델은 국소적인 헬릭스(Stem) 회복에는 어느 정도 성공하지만, 이들을 전체적인 위상 구조로 연결하는 과정(Wiring)에서 심각한 오류를 범하며 Topology F1 점수가 Test 대비 17.2% 수준으로 붕괴되는 양상을 보였다.

실무 활용

RNA 치료제 설계나 비코딩 RNA 분석 시, 기존 AI 모델의 높은 벤치마크 점수만 믿기보다 CHANRG를 통해 실제 일반화 능력을 검증해야 한다. 제공된 효율적인 연산 스택은 대규모 데이터 처리 시 비용 절감에 직접적으로 기여한다.

새로운 RNA 바이러스의 2차 구조 예측 및 변이 분석
RNA 기반 약물 설계를 위한 고차원 위상 구조 검증 및 최적화
대규모 RNA 시퀀스 데이터베이스의 고속 구조 주석(Annotation) 생성
AI 모델의 배치 처리 효율화를 위한 NestedTensor 연산 프레임워크 적용

기술 상세

CHANRG는 RNArchitecture의 계층적 분류 체계를 따르며, 훈련 데이터와 평가 데이터 간의 구조적 결합을 최소화하기 위해 bpRNA-CosMoS를 통한 엄격한 구조적 중복 제거를 수행했다. 이는 단순 서열 유사도 필터링보다 33배 더 많은 중복을 제거하는 효과를 냈다.

평가 지표는 Base-pair F1, Stem F1, Topology F1, Topology GED로 구성된 '메트릭 사다리'를 사용하여 모델의 실패 지점을 국소적 오류와 전역적 연결 오류로 구분한다. 이를 통해 모델이 단순히 염기쌍을 잘 찾는지, 아니면 전체적인 RNA의 형태를 이해하는지 판별한다.

파운데이션 모델의 주요 실패 모드는 '커버리지 실패(Coverage failure)'와 '배선 실패(Wiring failure)'로 정의된다. 커버리지 실패는 실제 상호작용을 누락하는 보수적 예측 경향을 의미하며, 배선 실패는 개별 헬릭스는 찾았으나 이를 잘못된 전역 구조로 연결하는 것을 의미한다.

NestedTensor 구현은 PyTorch의 기능을 확장하여 패딩된 위치를 연산 그래프에서 완전히 제외하고, 대칭적인 접촉 지도의 중복 연산을 방지하는 삼각 컨볼루션(Triangular convolution)을 결합하여 추론 속도와 메모리 효율을 동시에 최적화했다.

한계점

비교차(Non-crossing) 2차 구조 위주로 설계되어 있어, 슈도노트(Pseudoknot)와 관련된 복잡한 상호작용은 현재 평가 체계에서도 여전히 회복하기 어려운 한계로 남아 있다.

키워드

RNA 2차 구조(RNA Secondary Structure)벤치마크(Benchmark)분포 외 일반화(Out-of-distribution Generalization)구조 기반 중복 제거(Structure-aware Deduplication)파운데이션 모델(Foundation Model)

공정한 분할이 리더보드를 뒤집다: CHANRG가 밝혀낸 RNA 2차 구조 예측의 제한된 일반화 능력

왜 중요한가

핵심 기여

CHANRG 벤치마크 구축

파운데이션 모델의 일반화 한계 규명

계층적 구조 평가 체계 도입

NestedTensor 기반 고속 연산 스택

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

새로운 RNA 바이러스의 2차 구조 예측 및 변이 분석
RNA 기반 약물 설계를 위한 고차원 위상 구조 검증 및 최적화
대규모 RNA 시퀀스 데이터베이스의 고속 구조 주석(Annotation) 생성
AI 모델의 배치 처리 효율화를 위한 NestedTensor 연산 프레임워크 적용

공정한 분할이 리더보드를 뒤집다: CHANRG가 밝혀낸 RNA 2차 구조 예측의 제한된 일반화 능력

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

공정한 분할이 리더보드를 뒤집다: CHANRG가 밝혀낸 RNA 2차 구조 예측의 제한된 일반화 능력

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드