ASI-Evolve: AI가 AI 연구와 개발을 스스로 가속화하는 에이전트 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI 모델을 만드는 과정은 여전히 인간 연구자의 반복적인 실험과 분석에 크게 의존하고 있어 시간과 비용이 많이 소요된다. ASI-Evolve는 AI가 스스로 논문을 읽고 실험 결과를 분석하여 모델 구조, 학습 데이터, 알고리즘을 개선하는 자동화된 연구 루프를 구현함으로써 AI 발전 속도를 획기적으로 높일 수 있음을 증명했다.

왜 중요한가

핵심 기여

ASI-Evolve 프레임워크 구축

학습-설계-실험-분석의 4단계 순환 구조를 통해 AI 연구의 전 과정을 자동화하는 에이전트 시스템을 제안했다.

Cognition Base 지식 주입

인간의 연구 문헌과 과거의 성공/실패 사례를 지식 베이스화하여 에이전트가 처음부터 무작위로 탐색하지 않고 기존 지식을 바탕으로 효율적으로 연구를 수행하도록 설계했다.

3대 핵심 영역 성능 입증

데이터 정제, 신경망 아키텍처 설계, 강화학습 알고리즘 설계라는 AI 개발의 핵심 분야 모두에서 인간 설계 수준을 뛰어넘는 성과를 거두었다.

도메인 확장성 확인

AI 개발뿐만 아니라 수학 문제 풀이 및 약물-표적 상호작용 예측과 같은 생물 의학 분야에서도 유효한 모델 구조를 발견할 수 있는 범용성을 입증했다.

핵심 아이디어 이해하기

기존 AI 연구는 사람이 가설을 세우고 코드를 작성한 뒤, 실험 결과 로그를 보며 원인을 고민하는 인지적 과정에 의존한다. ASI-Evolve는 이 '분석'과 '지식 활용' 단계를 자동화하는 것이 핵심이다. 먼저 'Cognition Base'는 수백 편의 논문에서 추출한 설계 원칙을 저장하고 있다. 에이전트가 새로운 모델을 설계할 때, 현재 상황과 가장 유사한 논문의 지식을 검색하여 참고한다. 이는 딥러닝의 Embedding 공간에서 유사한 벡터를 찾는 원리와 같으며, 에이전트가 막연한 추측이 아닌 검증된 이론을 바탕으로 가설을 세우게 돕는다.

실험이 끝나면 'Analyzer' 모듈이 수천 줄의 로그와 벤치마크 점수를 읽어 들인다. Analyzer는 이 데이터에서 성능 향상의 원인이나 실패의 이유를 자연어로 요약하여 데이터베이스에 기록한다. 다음 라운드에서 에이전트는 이 기록을 읽고 이전의 실수를 반복하지 않으며 점점 더 정교한 설계를 내놓게 된다.

결과적으로 시스템은 단순한 시행착오를 넘어 시간이 지날수록 연구 역량이 스스로 진화하는 구조를 갖는다. 이는 AI가 스스로를 개선하는 폐쇄 루프(Closed-loop) 시스템의 실현 가능성을 보여준다.

방법론

시스템은 Researcher, Engineer, Analyzer, Cognition, Database의 5개 모듈로 구성된다. Researcher는 LLM을 기반으로 하며, Database에 저장된 과거 실험 결과와 Cognition Base의 외부 지식을 결합하여 새로운 알고리즘이나 아키텍처 코드를 생성한다.

Engineer는 생성된 코드를 실제 GPU 환경에서 실행한다. 이때 [코드 입력 → 모델 학습 및 벤치마크 테스트 → 성능 점수(Fitness Score) 출력] 과정을 수행한다. 자원 낭비를 막기 위해 성능이 낮은 후보는 조기에 탈락시키는 Early Rejection 메커니즘을 적용한다.

Analyzer는 실험에서 발생한 방대한 원시 데이터를 처리한다. [실험 로그 및 다차원 메트릭 입력 → 인과 관계 분석 및 통찰 추출 → 자연어 리포트 출력] 과정을 통해 복잡한 수치를 다음 세대 설계에 활용 가능한 지식 형태로 변환한다.

Cognition Base는 약 150편의 논문 데이터를 벡터화하여 관리한다. [현재 설계 목표 입력 → 벡터 유사도 검색 → 관련 설계 가이드라인 출력] 순으로 동작하며, 에이전트가 초기 탐색 단계에서 겪는 시행착오를 줄여주는 'Cold-start' 방지 역할을 한다.

주요 결과

모델 아키텍처 설계에서 1,773회의 탐색을 통해 DeltaNet을 능가하는 105개의 선형 어텐션 구조를 발견했다. 최적의 모델은 DeltaNet 대비 +0.97점 향상되었으며, 이는 최근 인간 연구자가 달성한 SOTA 개선 폭의 약 3배에 해당한다.

데이터 정제 분야에서는 Nemotron-CC 데이터셋을 대상으로 최적의 큐레이션 전략을 설계했다. 이를 통해 학습된 3B 모델은 평균 점수가 3.96점 상승했으며, 특히 지식 집약적인 MMLU 벤치마크에서는 18점 이상의 성능 향상을 기록했다.

강화학습 알고리즘 설계에서는 GRPO를 기반으로 새로운 보상 할당 및 그래디언트 클리핑 기법을 고안했다. 결과적으로 AMC32(+12.5), AIME24(+11.67), OlympiadBench(+5.04) 등 고난도 수학 벤치마크에서 기존 GRPO를 크게 앞질렀다.

기술 상세

ASI-Evolve는 자율 연구의 난이도를 측정하기 위해 'Scientific Task Length (L_task)' 프레임워크를 제안한다. 이는 실행 비용(C_exec), 탐색 공간 복잡도(S_space), 피드백 복잡도(D_feedback)라는 세 가지 지표로 구성된다.

발견된 아키텍처 중 'PathGateFusionNet'은 입력 콘텐츠에 따라 로컬/컨텍스트 처리에 자원을 동적으로 할당하는 계층적 라우팅 구조를 채택했다. 이는 고정된 구조보다 데이터의 특성에 유연하게 대응할 수 있게 한다.

강화학습 알고리즘인 'Pairwise Asymmetric Optimization'은 그룹 평균 대신 쌍별 보상 차이를 tanh 함수로 정규화하여 Advantage를 계산한다. 또한 Advantage의 부호에 따라 PPO 클리핑 범위를 동적으로 조절하여 학습의 안정성을 높였다.

한계점

시스템이 어텐션 메커니즘의 논리적 설계 수준에서 작동하므로, 발견된 구조에 최적화된 저수준 CUDA 커널을 직접 생성하지는 못한다. 이로 인해 이론적 연산량 감소가 실제 하드웨어에서의 실행 속도 향상으로 즉각 연결되지 않을 수 있다.

실무 활용

AI 모델 개발의 전 과정을 자동화하려는 연구소나 기업에서 데이터 정제 및 아키텍처 최적화 도구로 활용할 수 있다.

특정 도메인 특화 LLM 구축을 위한 고품질 데이터 필터링 자동화
기존 Transformer를 대체할 저비용 고효율 어텐션 구조 탐색
복잡한 수학적 추론을 위한 강화학습 최적화 알고리즘 개발

코드 공개 여부: 공개

코드 저장소 보기

키워드

AI-for-AI(AI를 위한 AI)Agentic Framework(에이전트 프레임워크)Neural Architecture Search(신경망 구조 탐색)Data Curation(데이터 정제)Reinforcement Learning(강화학습)