EvoScientist: 엔드투엔드 과학적 발견을 위한 멀티 에이전트 진화형 AI 과학자

왜 중요한가

기존 AI 과학자 시스템은 고정된 파이프라인을 사용하여 과거의 실패를 반복하거나 비효율적인 연구 방향을 고수하는 한계가 있었다. EvoScientist는 연구 과정에서 얻은 성공과 실패의 경험을 영구 메모리에 저장하고 이를 다음 연구에 반영하여 스스로 진화한다. 이를 통해 실제 학술 대회에서 논문이 채택될 수준의 고품질 연구 아이디어와 실행 가능한 실험 코드를 생성할 수 있음을 입증했다.

핵심 기여

자가 진화형 멀티 에이전트 프레임워크 EvoScientist 구축

연구 아이디어를 도출하는 Researcher Agent, 실험을 수행하는 Engineer Agent, 경험을 지식으로 변환하는 Evolution Manager Agent로 구성된 시스템을 구축했다.

영구 메모리 기반의 지식 축적 및 재사용 메커니즘 도입

아이디어 생성을 위한 ideation memory와 실험 전략을 위한 experimentation memory를 통해 과거의 성공 사례와 실패 원인을 체계적으로 관리한다.

세 가지 핵심 자가 진화 메커니즘 구현

아이디어 방향 진화, 아이디어 검증 진화, 실험 전략 진화 프로세스를 통해 시간이 지남에 따라 연구 품질과 코드 실행 성공률을 지속적으로 향상시킨다.

실제 학술 대회 수준의 엔드투엔드 과학적 발견 성능 입증

생성된 6편의 논문이 모두 ICAIS 2025 AI Scientist 트랙에 채택되었으며, 그중 1편은 Best Paper Award를 수상하는 성과를 거두었다.

핵심 아이디어 이해하기

기존 AI 과학자 시스템은 LLM의 추론 능력을 활용해 아이디어를 내고 코드를 짜지만, 한 번의 연구 사이클이 끝나면 그 과정에서 얻은 교훈을 잊어버리는 휘발성 문제를 겪는다. 이는 마치 매번 새로운 연구자가 아무런 전임자의 기록 없이 연구를 시작하는 것과 같아, 이미 실패했던 방식을 반복하거나 구현 불가능한 아이디어를 내놓는 비효율을 초래한다.

EvoScientist는 이를 해결하기 위해 딥러닝의 Embedding 공간을 활용한 영구 메모리 시스템을 도입한다. 연구 과정에서 발생한 모든 상호작용 이력을 버리지 않고, Evolution Manager Agent가 이를 평가하여 유망한 방향과 실패한 경로로 요약한다. 이 요약된 정보는 벡터화되어 저장되었다가, 다음 연구 시 유사한 맥락에서 RAG(검색 증강 생성) 방식으로 호출되어 프롬프트에 주입된다.

결과적으로 시스템은 단순히 지식을 검색하는 수준을 넘어, 자신의 과거 행동 결과를 바탕으로 전략을 수정하는 자가 진화를 이룬다. Researcher Agent는 검증된 방향으로 아이디어를 정교화하고, Engineer Agent는 과거에 성공했던 데이터 처리 로직이나 하이퍼파라미터 튜닝 패턴을 재사용함으로써 실험의 신뢰도를 높인다.

방법론

전체 구조는 Researcher Agent(RA), Engineer Agent(EA), Evolution Manager Agent(EMA)의 협업 체계로 이루어진다. RA는 문헌 조사와 메모리 검색을 통해 아이디어를 도출하고, EA는 이를 실행 가능한 코드로 구현하며, EMA는 이 모든 과정을 지식화하여 메모리를 갱신한다.

RA는 아이디어 트리 탐색(Idea Tree Search)과 Elo 기반 토너먼트 방식을 사용한다. 여러 후보 아이디어를 생성한 뒤 [두 아이디어의 텍스트 입력 → LLM 비교 연산 → 승률 기반 Elo 점수 산출] 과정을 거쳐 가장 우수한 아이디어를 선별한다. 이 과정에서 ideation memory로부터 과거의 성공/실패 사례를 검색하여 아이디어의 참신성과 실현 가능성을 보장한다.

EA는 실험 트리 탐색(Experiment Tree Search)을 통해 4단계(초기 구현, 하이퍼파라미터 튜닝, 제안 방법론 적용, 절제 연구) 실험을 수행한다. 각 단계에서 [연구 제안서 입력 → 코드 생성 및 실행 → 로그 분석 → 오류 수정] 루프를 반복하며, experimentation memory에서 추출한 최적의 데이터 처리 및 모델 학습 전략을 적용한다.

EMA는 연구 종료 후 상호작용 이력을 세 가지 방식으로 진화시킨다. 유망한 연구 방향을 요약하는 IDE(Idea Direction Evolution), 실패한 아이디어를 기록하는 IVE(Idea Validation Evolution), 그리고 성공적인 코드 구현 패턴을 추출하는 ESE(Experiment Strategy Evolution)를 통해 영구 메모리를 업데이트한다.

주요 결과

아이디어 생성 성능 평가에서 EvoScientist는 Virtual Scientist, AI Scientist-v2 등 7개의 오픈소스 및 상용 시스템을 압도했다. Gemini-3-flash를 이용한 자동 평가에서 참신성(Novelty), 실현 가능성(Feasibility), 관련성(Relevance), 명확성(Clarity) 모든 지표에서 양수(+)의 성능 차이(Avg. gap +29.17 ~ +93.34)를 기록했다.

전문가(PhD급) 평가에서도 높은 성능이 확인되었다. 특히 참신성 부문에서 82.50%, 실현 가능성 부문에서 64.17%의 승률을 기록하며 기존 SOTA 모델들보다 뛰어난 연구 설계 능력을 나타냈다.

자가 진화 메커니즘의 효과로 실험 코드 실행 성공률이 대폭 향상되었다. 진화 전 평균 34.39%였던 성공률은 실험 전략 진화(ESE) 적용 후 44.56%로 증가했으며, 특히 하이퍼파라미터 튜닝 단계에서는 48.94%에서 58.62%로 큰 폭의 개선이 나타났다.

엔드투엔드 성능의 최종 결과로, EvoScientist가 생성한 6편의 논문이 ICAIS 2025에 모두 채택(채택률 100%)되었으며, 이 중 한 편은 Best Paper Award를 수상하여 AI 과학자로서의 실질적인 역량을 증명했다.

실무 활용

연구소나 기업의 R&D 부서에서 초기 가설 설정부터 실험 검증까지의 과정을 자동화하여 연구 생산성을 극대화할 수 있다. 특히 과거의 실험 실패 데이터를 자산화하여 시행착오를 줄이는 데 유용하다.

신규 딥러닝 아키텍처의 가설 설정 및 베이스라인 실험 자동화
대규모 하이퍼파라미터 탐색 및 최적화 전략 수립
기존 문헌 기반의 참신한 연구 주제 발굴 및 제안서 작성
도메인 특화 데이터셋에 대한 데이터 전처리 및 학습 파이프라인 자동 구축

기술 상세

EvoScientist의 핵심은 상호작용 이력을 버리지 않고 지식으로 승화시키는 메모리 기반 자가 진화 아키텍처에 있다. 이는 기존의 정적인 에이전트 파이프라인과 차별화되는 지점으로, 장기적인 연구 컨텍스트를 유지할 수 있게 한다.

아이디어 선택 과정에서 사용된 Elo 기반 토너먼트는 절대적인 점수 산정의 모호함을 해결한다. [두 아이디어 입력 → LLM 판단 → 승자 결정]의 상대 비교를 반복하여 노이즈가 섞인 판단 환경에서도 안정적인 순위를 도출한다.

실험 단계의 트리 탐색은 코드 생성의 불확실성을 관리한다. 각 단계별로 최대 시도 횟수를 설정하고, 실행 로그를 바탕으로 한 자가 진단(Self-diagnosis) 루프를 통해 코드를 반복 수정함으로써 실행 성공률을 높인다.

EMA의 진화 로직은 RAG의 성능을 극대화하도록 설계되었다. 단순히 텍스트를 저장하는 것이 아니라, LLM을 이용해 핵심 전략(Data processing, Model training)을 추상화하여 저장함으로써 새로운 과제에 대한 전이 학습(Transfer Learning) 효과를 유도한다.

한계점

현재 평가는 시뮬레이션과 코드 실행이 가능한 컴퓨터 과학 분야에 국한되어 있다. 재료 과학이나 신약 개발과 같이 실제 물리적 실험이 필요한 분야로 확장하기 위해서는 실험실 워크플로우 및 로봇 시스템과의 통합이 필요하다.

키워드

LLM(대형 언어 모델)Multi-Agent(멀티 에이전트)Self-Evolving(자가 진화)Scientific Discovery(과학적 발견)RAG(검색 증강 생성)