핵심 요약
사람의 개입 없이 AI 에이전트가 스스로 가설을 세우고 코드를 수정하며 실험 결과로부터 배우는 폐쇄 루프 연구 시스템을 구현했다. 단순한 하이퍼파라미터 튜닝을 넘어 아키텍처와 시스템 최적화까지 수행하여 실제 학습 효율을 크게 개선할 수 있음을 입증했다.
왜 중요한가
사람의 개입 없이 AI 에이전트가 스스로 가설을 세우고 코드를 수정하며 실험 결과로부터 배우는 폐쇄 루프 연구 시스템을 구현했다. 단순한 하이퍼파라미터 튜닝을 넘어 아키텍처와 시스템 최적화까지 수행하여 실제 학습 효율을 크게 개선할 수 있음을 입증했다.
핵심 기여
폐쇄 루프 자동 연구 프레임워크 구축
가설 수립, 코드 수정, 외부 평가기 기반 측정, 피드백 반영이 반복되는 구조를 설계하여 인간의 개입 없는 자율적 연구 궤적을 생성한다.
전문가 에이전트 역할 분담 및 이력 공유
아키텍처, 최적화, 데이터 등 특정 영역을 담당하는 전문가 에이전트들이 측정된 이력(Lineage)을 공유하며 협력하여 복잡한 레시피 공간을 탐색한다.
실제 학습 환경에서의 성능 입증
Parameter Golf에서 손실률 0.81% 감소, NanoChat-D12에서 CORE 점수 38.7% 향상, CIFAR-10 Airbench96에서 학습 시간 4.59% 단축을 달성했다.
핵심 아이디어 이해하기
기존의 자동화된 연구는 주로 정해진 범위 내에서 숫자 값을 바꾸는 하이퍼파라미터 최적화에 머물렀다. 하지만 실제 딥러닝 연구는 코드를 직접 수정하고, 에러 로그를 읽으며, 실행 시간 병목을 해결하는 복잡한 과정이다. 본 논문은 이를 해결하기 위해 에이전트에게 '이력 피드백(Lineage Feedback)'을 제공한다.
에이전트는 단순히 '성능이 좋아졌다'는 결과만 받는 것이 아니라, '메모리 초과로 실패함' 또는 '특정 커널에서 시간이 지체됨'과 같은 구체적인 측정 데이터를 받는다. 이는 딥러닝의 Gradient Descent가 오차를 줄이기 위해 방향을 찾는 것과 유사하게, 에이전트가 연구의 방향성을 결정하는 가이드 역할을 한다.
결과적으로 에이전트는 시스템 병목을 발견하면 이를 해결하기 위해 아키텍처 코드를 재작성하고, 절약된 시간을 더 많은 데이터 학습에 할당하는 등 인간 연구자와 유사한 전략적 판단을 내리게 된다. 이는 단순한 최적화를 넘어 프로그램 수준의 창의적인 레시피 수정을 가능하게 한다.
방법론
연구 방법론은 외부 측정 환경과 제출된 시도(Trial) 기반의 피드백 루프로 구성된다. 각 시도는 가설, 실행 가능한 코드 수정(Diff), 평가 결과, 피드백 신호를 포함하며 이를 '이력 메모리'에 저장하여 다음 제안의 근거로 삼는다.
전문가 에이전트들은 아키텍처, 최적화, 데이터, 스케줄 등 각자의 전문 영역(Domain Preamble)에 따라 레시피를 분할하여 탐색한다. 예를 들어 시스템 전문가 에이전트는 실행 시간 병목을 진단하고, 아키텍처 전문가는 모델 구조를 변경한다. [이전 시도들의 코드와 결과 입력] → [전문가 역할에 따른 가설 생성 및 코드 수정] → [외부 평가기를 통한 실제 학습 실행 및 측정] → [성공/실패 여부와 수치적 지표 반환] 과정을 거쳐 연구가 진행된다.
특히 '정확도 게이트(Accuracy Gate)'와 '예산 제약(Budget Cap)'을 외부 평가기에 설정하여, 에이전트가 단순히 속도만 높이거나 모델 크기를 무한정 키우지 못하도록 강제한다. 이는 에이전트가 현실적인 제약 조건 하에서 최적의 트레이드오프를 찾도록 유도한다.
관련 Figure

에이전트가 어떻게 외부 평가기의 피드백 신호(점수, 상태, 실행 시간 등)를 받아 다음 실험을 가이드하는지 보여준다. 특히 전문가 역할 분담과 공유 메모리 구조가 핵심임을 나타낸다.
제약 조건 설정부터 에이전트 역할 분담, 이력 메모리, 폐쇄 루프 실험 주기로 이어지는 전체 자동 연구 프레임워크의 다이어그램이다.
주요 결과
Parameter Golf 실험에서는 900번의 시도를 통해 검증 bpb(bits per byte)를 기존 대비 0.81% 낮추는 데 성공했다. 이는 단순한 수치 조정을 넘어 TTT(Test-Time Training) 전용 z-loss 도입과 같은 비자명한 구조적 변화를 포함한 결과이다.
NanoChat-D12 환경에서는 200번의 시도 끝에 CORE 점수를 0.1618에서 0.2244로 38.7% 향상시켰다. 에이전트는 SSSL 패턴을 Flash SDPA로 교체하여 확보한 시간 여유를 토큰 학습량 증가에 재투자하는 전략을 스스로 찾아냈다.
CIFAR-10 Airbench96에서는 97번의 시도로 학습 시간을 4.59% 단축하면서도 96% 이상의 정확도 게이트를 통과했다. 에이전트는 정확도 미달 시 워밍업 비율을 조정하여 성능을 복구하는 등 동적인 학습 스케줄 최적화를 수행했다.
관련 Figure

단순한 파라미터 수정을 넘어 3레이어 순환 구조, Muon 최적화 도구, TTT 전용 z-loss 등 복잡한 기법들이 어떻게 결합되어 최종 성능 향상을 이끌어냈는지 설명한다.
Parameter Golf 환경에서 에이전트가 개발한 최종 레시피의 구성 요소와 성능 개선 과정을 보여주는 도식이다.
기술 상세
시스템 아키텍처는 전문가 에이전트 군집(Specialist Swarm)과 공유 이력(Shared Lineage)을 중심으로 설계되었다. 각 에이전트 세션은 독립적인 LLM 호출로 이루어지며, 세션 시작 시 현재까지의 최고 기록, 최근 시도 이력, 실패 사례 등을 컨텍스트로 주입받는다.
기술적 차별점은 에이전트가 단순히 텍스트 제안을 하는 것이 아니라, 실제 Python 코드를 수정(Edit)하고 로컬에서 구문 검사(Syntax Check) 및 크기 예측(Size Project)을 수행한 뒤 제출한다는 점이다. 이는 에이전트가 실행 가능한 결과물을 책임지게 만든다.
구현 측면에서 Claude Opus 4.7 모델을 사용하여 복잡한 추론과 코드 수정을 수행했으며, 각 환경별로 엄격한 외부 평가기(Evaluator)를 두어 에이전트가 보상 해킹(Reward Hacking)을 하지 못하도록 차단했다. 모든 실험 궤적은 감사 가능한(Auditable) 형태로 기록되어 연구 과정을 사후 분석할 수 있다.
한계점
현재 시스템은 기존에 알려진 기법들을 조합하고 전이하는 데 강점이 있으며, Transformer를 완전히 대체할 만한 수준의 근본적으로 새로운 아키텍처를 발명하는 단계까지는 도달하지 못했다. 또한 주관적이거나 자동 측정이 불가능한 피드백이 필요한 연구 영역에는 적용하기 어렵다.
실무 활용
제한된 컴퓨팅 예산 내에서 최적의 모델 학습 레시피를 자동으로 찾고자 하는 엔지니어링 팀에 유용하다.
- 특정 하드웨어 제약 조건(메모리, 시간) 하에서의 모델 아키텍처 최적화
- 대규모 언어 모델 학습 시 최적의 데이터 혼합 비율 및 학습 스케줄 자동 탐색
- 새로운 학습 기법(예: 새로운 Optimizer나 Loss)의 효과를 실제 파이프라인에서 검증
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.