핵심 요약
대형 언어 모델(LLM)은 복잡한 과제를 해결하기 위해 도구를 사용하는 자율 에이전트의 기반이 되고 있습니다. 강화학습(Reinforcement Learning, RL)은 이러한 에이전트 능력을 주입하기 위한 일반적인 접근 방식으로 부상했지만, 대개 엄격하게 통제된 학습 환경에 의존합니다. 이는 종종 정교하게 구축된 과제-해결 쌍과 상당한 수준의 인간 감독을 필요로 하며, 이는 초지능 시스템을 향한 개방형 자가 진화에 근본적인 장애물이 됩니다. 본 논문에서는 제로 데이터 가정(zero-data assumption) 하에 셀프 플레이(self-play) 강화학습을 사용하여 처음부터 범용 도구 호출 에이전트를 학습시키는 Tool-R0 프레임워크를 제안합니다. 동일한 기본 LLM에서 초기화된 Tool-R0는 상호 보완적인 보상을 가진 생성기(Generator)와 해결기(Solver)를 공동 진화(co-evolve)시킵니다. 생성기는 해결기의 역량 경계에 있는 도전적인 과제를 제안하고, 해결기는 실제 도구 호출을 통해 이를 해결하는 법을 배웁니다. 이는 기존의 과제나 데이터셋이 필요 없는 자가 진화 사이클을 생성합니다. 다양한 도구 사용 벤치마크 평가 결과, Tool-R0는 기본 모델 대비 92.5의 상대적 향상을 보였으며 동일한 설정의 완전 지도 학습(fully supervised) 도구 호출 베이스라인을 능가했습니다. 또한 본 연구는 공동 진화, 커리큘럼 역학 및 스케일링 법칙(scaling behavior) 분석을 통해 셀프 플레이 LLM 에이전트에 대한 실증적인 통찰을 제공합니다.
핵심 기여
제로 데이터 기반의 자가 진화 프레임워크
인간이 작성한 데이터나 기존 과제 세트 없이도 LLM이 스스로 도구 사용법을 학습할 수 있는 Tool-R0 프레임워크를 구축했습니다.
생성기와 해결기의 공동 진화 메커니즘
과제를 생성하는 모델과 이를 해결하는 모델이 서로의 성능에 맞춰 난이도를 조절하며 함께 성장하는 셀프 플레이 구조를 설계했습니다.
지도 학습 모델을 능가하는 성능 입증
다양한 벤치마크에서 기본 모델 대비 92.5의 상대적 성능 향상을 기록했으며, 사람이 라벨링한 데이터를 사용한 모델보다 더 뛰어난 성능을 보였습니다.
방법론
동일한 베이스 모델에서 파생된 생성기(Generator)와 해결기(Solver)가 서로 경쟁하며 학습하는 셀프 플레이(Self-play) 강화학습 구조를 채택했습니다. 생성기는 해결사의 역량 한계에 있는 도전적인 과제를 생성하고, 해결사는 실제 도구 호출을 수행하여 과제를 완수하며 상호 보완적인 보상을 통해 공동 진화(Co-evolution)를 달성합니다.
주요 결과
다양한 도구 사용 벤치마크에서 베이스 모델 대비 92.5의 상대적 성능 향상을 기록했습니다. 특히 동일한 조건에서 사람이 직접 제작한 데이터를 활용한 완전 지도 학습(Fully Supervised) 방식의 베이스라인보다 높은 성능을 나타내며 데이터 효율성을 입증했습니다.
시사점
데이터 수집 비용이 높은 특수 도구 활용 분야에서 LLM 에이전트의 효과적인 학습 가능성을 열어줍니다. 인간의 개입 없이 모델이 스스로 학습 커리큘럼을 형성하며 성능을 높일 수 있어 자율적인 AI 시스템 구축의 핵심 기술로 활용될 수 있습니다.
키워드
섹션별 상세
제로 데이터 기반의 자가 진화 프레임워크
생성기와 해결기의 공동 진화 메커니즘
지도 학습 모델을 능가하는 성능 입증
AI 요약 · 북마크 · 개인 피드 설정 — 무료