에이전트 주도 신경 아키텍처 발견: AIRA-Compose와 AIRA-Design

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

LLM 에이전트가 프런티어 연구를 수행하는 능력을 검증하는 RSI 연구로, predefined 프리미티브의 조합을 넘어서는 자율 아키텍처 탐색과 저수준 설계의 가능성을 제시한다. 1B 규모에서의 성능 우위, 스케일-대-효율성 프런티어의 발견, 그리고 LRA/Autoresearch 벤치에서의 실용적 개선이 보고된다.

왜 중요한가

LLM 에이전트가 프런티어 연구를 수행하는 능력을 검증하는 RSI 연구로, predefined 프리미티브의 조합을 넘어서는 자율 아키텍처 탐색과 저수준 설계의 가능성을 제시한다. 1B 규모에서의 성능 우위, 스케일-대-효율성 프런티어의 발견, 그리고 LRA/Autoresearch 벤치에서의 실용적 개선이 보고된다.

핵심 기여

AIRA-Compose 도입

고수준 아키텍처 탐색을 위해 11개의 에이전트를 활용하여 2-프리미티브(M, mA) 및 3-프리미티브(M, mA, Mb) 공간에서 후보 아키텍처를 탐색한다. 소규모 프록시 데이터로 평가하고 상위 설계를 350M, 1B, 3B로 확장/extrapolate한다. 결과로 AIRAformers 및 AIRAhybrids라는 두 패밀리의 새 아키텍처를 도출한다.

AIRA-Design 도입

저수준 메카니즘 설계에 도전하여 novel attention 메커니즘과 고성능 학습 스크립트를 작성한다. Long Range Arena(LRA)와 Autoresearch 벤치마크에서 인간 SOTA에 근접하거나 이를 추월하는 성과를 목표로 한다.

AIRS-Bench 프레임워크를 통한 RSI

절차적 AIRS-Bench 태스크를 통해 에이전트의 독립적 연구 루프 구동 능력을 평가하고, NAS 및 알고리즘 최적화의 자동화를 입증한다.

IsoFLOP 및 스케일링 프런티어 분석

350M, 1B, 3B 규모에서의 IsoFLOP 분석을 통해 선형-대-비선형 프런티어를 비교하고, AIRAformers/AIRAhybrids의 효율적 확장을 확인한다.

Autoresearch 성능 향상 사례

Opus 4.6 및 4.5에 Literature를 추가적으로 활용한 경우 BPB 최저치를 0.968로 달성하는 등, 학습 루프 최적화 및 코드/문헌 활용이 수렴 속도에 미치는 영향을 보여준다.

핵심 아이디어 이해하기

출발점과 한계: Transformer의 Self-Attention은 시퀀스 내 모든 토큰 쌍 간 관계를 계산하여 O(N^2) 복잡도를 야기한다. 긴 컨텍스트에서는 메모리 사용과 연산이 증가하므로 대규모 언어 모델의 효율성에 제약이 생긴다. 하이브리드 프리미티브(Attention, MLP, Mamba) 간 인터리빙은 성능과 효율의 상충을 완화하는 가능한 설계 방향이다. AIRS-Bench는 연구 루프의 엔드-투-엔드 평가를 위한 표준을 제공하며, AIRA-Compose는 고수준 아키텍처를, AIRA-Design은 저수준 메커니즘 구현에 집중한다.

방법론

AIRA-Compose는 11개 에이전트를 이용해 16층 소규모 프록시 아키텍처를 탐색하고, 상위 후보를 350M, 1B, 3B로 확장한다. 탐색은 Draft/Improve/Debug/Analyze의 탐색 연쇄로 이루어지며, 작은 proxy에서의 성능이 큰 모델로의 확장에 잘 예측되도록 Aggregation 및 Extrapolation을 수행한다. AIRA-Design은 LRA와 Autoresearch 태스크에 맞춰 novel attention 및 학습 스크립트를 구현하도록 에이전트를 유도하며, Configurable 버전에서 하이퍼파라미터를 수정해 최적화를 시도한다.

주요 결과

2-프리미티브 공간에서 AIRAformers/AIRAhybrids가 Llama 3.2 및 Composer 기반 모델을 능가하는 다운스트림 성능을 보이고, 1B 스케일에서 AIRAformer-D(Str.)가 최저 Val Loss 2.734를 달성했다. 3-프리미티브 탐색에서 AIRAhybrid-D(Str.)가 최저 Val Loss 2.719를 기록했다. LRA에서 AIRA-Design의 Best 솔루션은 ListOps(0.51) 및 Text(0.88)에서 SOTA에 근접하며, Autoresearch에서 BPB 0.968로 기존 Baseline 1.0121에서 개선했다. IsoFLOP 분석은 최적 프런티어가 Nemotron 계열보다 빠르게 수렴하며, 균형 있는 Mamba-Attn 비율의 구조가 일반적으로 더 좋은 성능/효율을 보임을 시사한다.

실무 활용

에이전트 주도 연구 루프를 통해 하이브리드 아키텍처의 자동 탐색과 구현이 가능함을 실증한다. 이는 향후 재귀적 자기개선(RSI) 시스템의 실현 가능성에 기여한다.

자동 NAS를 통한 하이브리드 LLM 아키텍처 설계
저수준 메커니즘 구현 및 검증 자동화
AIRS-Bench를 활용한 에이전트 기반 연구 평가 자동화

코드 공개 여부: 미확인

키워드

AIRS-BenchAIRA-ComposeAIRA-Designhybrid-architecturesState-Space ModelMambaLong Range ArenaAutoresearch