MOOSE-Star: 복잡성 장벽을 깨고 과학적 발견을 위한 다룰 수 있는 학습 구현하기

왜 중요한가

기존 LLM은 방대한 과학 문헌 속에서 새로운 가설을 조합해내는 과정의 천문학적인 복잡성 때문에 직접적인 학습이 불가능했다. 이 논문은 이 과정을 논리적으로 분해하고 계층화하여 학습 가능한 형태로 변환함으로써, AI가 스스로 과학적 발견을 수행할 수 있는 실질적인 토대를 마련했다.

핵심 기여

과학적 발견 학습의 불가능성에 대한 이론적 분석

배경지식에서 가설을 직접 생성하는 P(h|b) 모델링이 지식 베이스 크기 N과 영감 개수 k에 대해 O(N^k)의 조합 복잡성을 가짐을 수학적으로 증명했다.

MOOSE-STAR 프레임워크 개발

복잡한 생성 과정을 영감 검색(IR)과 가설 구성(HC)으로 분해하고, 계층적 검색과 동기 부여 계획을 도입하여 복잡성을 최적의 경우 O(log N)까지 단축했다.

TOMATO-STAR 대규모 데이터셋 구축

생물학, 화학, 인지과학 분야의 논문 108,717개를 구조화된 배경지식, 영감, 가설 단위로 분해한 대규모 학습 데이터를 공개했다.

지속적인 테스트 타임 스케일링 입증

무작위 샘플링이 복잡성 벽에 부딪히는 것과 달리, MOOSE-STAR는 추론 예산 증가에 따라 복잡한 가설도 성공적으로 생성하는 선형적 성능 향상을 보여줬다.

핵심 아이디어 이해하기

과학적 발견은 기존 지식이라는 거대한 바다에서 몇 가지 핵심 아이디어(영감)를 낚아 올려 새로운 가설로 엮어내는 과정이다. 기존 방식은 이 모든 조합을 한꺼번에 학습하려 했으나, 이는 마치 수조 개의 모래알 중 특정 3알을 한 번에 집어 올리려는 것과 같아 확률적으로 거의 불가능하다. Transformer의 Attention 메커니즘이 모든 토큰 간의 관계를 계산하듯, 모든 지식 조합을 고려하면 연산량이 폭발하기 때문이다.

MOOSE-STAR는 이 문제를 '목표 설정 → 검색 → 요약'의 단계로 쪼개어 해결한다. 먼저 연구 배경을 보고 '어떤 방향의 아이디어가 필요한지' 동기를 설정하고, 이를 바탕으로 지식 트리를 타고 내려가 필요한 논문을 찾는다. 마지막으로 찾은 논문의 핵심 원리를 기존 지식에 결합해 가설을 완성한다. 이는 거대한 Cartesian Product 공간에서의 탐색을 선형적인 단계별 선택으로 전환하는 원리이다.

결과적으로 모델은 한 번에 정답을 맞혀야 하는 부담에서 벗어나, 각 단계에서 높은 확률의 선택을 이어가며 최종 가설에 도달한다. 이는 마치 미로 전체를 한눈에 파악해 탈출구를 찾는 대신, 갈림길마다 표지판을 보고 이동하는 것과 같아 학습과 추론 모두에서 효율성이 극대화된다.

방법론

전체 접근 방식은 확률적 분해 이론에 기반한다. 전체 가설 생성 확률 P(h|b)를 영감 검색 P(i|b, h_prev)와 가설 구성 P(h_new|b, h_prev, i)의 곱으로 분해하여 복잡성을 O(N^k)에서 O(k * N)으로 선형화했다. [N^k 입력 → 단계별 분해 연산 → k * N 출력 → 지수적 복잡성을 선형적 복잡성으로 변환]

Hierarchical Search 메커니즘은 지식 베이스 I를 의미적 유사도에 따라 트리 구조로 조직한다. SPECTER2 임베딩을 사용하여 논문들을 클러스터링하고, 추론 시 최상단 노드부터 확률이 높은 가지를 따라 내려가는 Best-First Search를 수행한다. [전체 지식 N 입력 → 트리 경로 탐색 → log N 노드 방문 → 검색 복잡성을 로그 단위로 축소]

Bounded Composition은 검색 노이즈에 대한 강건성을 확보한다. 정답 영감 i*뿐만 아니라 그 주변의 유사한 논문들을 '의미적 허용 범위'로 설정하고, 모델이 약간 빗나간 영감을 참조하더라도 올바른 가설을 도출하도록 학습시킨다. [유사도 점수 입력 → 계층별 샘플링 → 노이즈 섞인 데이터 학습 → 추론 시 검색 오차 복구 능력 확보]

Motivation Planning 단계는 검색 전 고수준의 의도를 생성한다. 연구 배경 b로부터 추상적인 요구사항 m을 먼저 도출하고, 이를 검색 쿼리에 추가하여 관련 없는 지식 공간을 사전에 차단한다. [연구 배경 b 입력 → 추론 → 동기 m 출력 → 검색 공간을 Nm으로 제한]

주요 결과

영감 검색(IR) 실험에서 MS-IR-7B 모델은 R1-Distilled-Qwen-7B(28.42%) 대비 월등히 높은 54.37%의 정확도를 기록했다. 이는 계층적 검색과 동기 부여 계획이 유효했음을 입증한다.

가설 구성(HC) 성능 측정 결과, Bounded Composition 데이터를 추가 학습한 모델이 모든 난이도(Easy, Medium, Hard)에서 베이스라인을 상회하는 M3 점수를 획득했다. 특히 노이즈가 섞인 Hard 샘플에서 성능 향상 폭이 가장 컸다.

테스트 타임 스케일링 분석에서 MOOSE-STAR는 추론 횟수가 약 6,000회에 도달했을 때 테스트 세트의 100%를 해결했다. 반면 일반적인 Brute-force 샘플링 방식은 9,500회 이상의 시도에도 불구하고 복잡한 문제(k=3)에서 성공률이 8% 미만으로 급락하는 '복잡성 절벽' 현상을 보였다.

학습 데이터 규모에 따른 성능 변화 분석 결과, IR 모델은 로그-선형적인 개선을 보였으며 HC 모델은 데이터셋이 1,000개 이상 확보된 시점부터 급격한 성능 향상을 나타내는 임계점 거동을 확인했다.

실무 활용

MOOSE-STAR는 방대한 전문 문헌을 분석하여 새로운 과학적 가설을 제안해야 하는 R&D 분야에 즉시 적용 가능하다. 특히 지식의 조합이 중요한 신약 개발이나 신소재 설계 분야에서 연구자의 아이디어 발상을 돕는 보조 도구로 활용될 수 있다.

생물학/화학 분야의 기존 논문들을 조합하여 새로운 실험 가설 생성
수천만 건의 특허 및 논문 데이터베이스에서 특정 기술 문제를 해결할 영감 검색
복잡한 논리적 단계가 필요한 전문 도메인의 지식 기반 추론 에이전트 구축
연구 배경을 입력하면 관련 문헌을 자동으로 찾아 가설적 메커니즘을 제안하는 AI 과학자 시스템

기술 상세

아키텍처는 Hierarchical MDP(계층적 마르코프 결정 과정)를 기반으로 한다. 상태(State)는 연구 배경과 현재까지 생성된 중간 가설의 쌍으로 정의되며, 행동(Action)은 고수준의 동기 설정과 저수준의 영감 선택으로 이원화된다. 이는 복잡한 생성 문제를 제어 가능한 하위 문제로 치환하는 수학적 기반이 된다.

지식 트리는 Offline 단계에서 SPECTER2 임베딩과 재귀적 K-means 클러스터링을 통해 구축된다. 각 노드는 최대 15개의 자식 노드를 가지도록 제한하여 모델의 컨텍스트 윈도우 내에서 효율적인 비교가 가능하도록 설계했다. 추론 시에는 경로 확률의 기하 평균을 점수로 사용하여 깊이에 따른 편향을 제거한 Best-First Search를 수행한다.

학습 데이터 생성에는 DeepSeek-R1 및 R1-distilled-Qwen-32b를 활용한 Teacher-based Rejection Sampling Fine-Tuning(RFT) 기법이 사용됐다. 생성된 가설은 동기(Motivation), 메커니즘(Mechanism), 방법론(Methodology)의 세 가지 차원에서 엄격한 루브릭 평가를 거쳐 고품질 샘플만 선별되었다.

이론적으로 MOOSE-STAR는 고정 순서 가정(Fixed-Order Assumption)과 고유성 가정(Uniqueness Assumption)을 통해 마진 확률 계산 시 발생할 수 있는 무한한 순열 문제를 해결했다. 이를 통해 모델이 가장 가능성 높은 단일 추론 경로에 확률 질량을 집중할 수 있도록 유도한다.

키워드

LLM(대형 언어 모델)Scientific Discovery(과학적 발견)Combinatorial Complexity(조합 복잡성)Hierarchical Search(계층적 검색)MDP(마르코프 결정 과정)