핵심 요약
기존의 자기 진화 에이전트는 인간이 정의한 보상과 워크플로우에 의존하는 한계가 있었습니다. 이 논문은 에이전트가 새로운 환경을 스스로 탐색하고 'World Knowledge'를 구축하여 외부 도움 없이도 성능을 개선하는 Native Agency 패러다임을 제시하며, 소형 모델이 대형 모델을 능가할 수 있는 가능성을 보여줍니다.
왜 중요한가
기존의 자기 진화 에이전트는 인간이 정의한 보상과 워크플로우에 의존하는 한계가 있었습니다. 이 논문은 에이전트가 새로운 환경을 스스로 탐색하고 'World Knowledge'를 구축하여 외부 도움 없이도 성능을 개선하는 Native Agency 패러다임을 제시하며, 소형 모델이 대형 모델을 능가할 수 있는 가능성을 보여줍니다.
핵심 기여
Native Agency 및 Meta-Evolution 패러다임
작업 수행 전 환경을 자발적으로 탐색하고 관찰 내용을 구조화된 World Knowledge로 요약하는 능력을 에이전트에게 부여하여 외부 보상이나 지침 없는 자기 진화를 구현했다.
Outcome-Based Reward Mechanism
학습 단계에서 에이전트가 생성한 World Knowledge가 실제 다운스트림 작업의 성공률을 얼마나 높이는지를 측정하여 탐색 및 요약 능력을 최적화하는 보상 신호를 설계했다.
2단계 학습 프레임워크 (SFT + RFT)
교사 모델의 궤적을 모방하는 Supervised Fine-Tuning과 고효율 지식 생성을 위한 Reinforcement-based Rejection Sampling을 결합하여 에이전트의 자율적 적응력을 극대화했다.
핵심 아이디어 이해하기
기존 LLM 에이전트는 특정 작업(Task)이 주어져야만 움직이는 수동적인 구조를 가집니다. 이는 Transformer 기반 모델이 입력된 프롬프트에 반응하도록 학습되었기 때문인데, 새로운 환경에 놓였을 때 스스로 학습하는 인간의 호기심과는 거리가 멉니다. 본 연구는 에이전트가 작업을 받기 전(Pre-task)에 환경을 먼저 탐험하고 이를 '정신적 지도(Mental Map)'인 World Knowledge로 압축하도록 유도합니다.
이 과정에서 핵심은 '무엇이 좋은 지식인가'를 정의하는 것입니다. 연구진은 에이전트가 스스로 만든 지식을 활용했을 때와 그렇지 않았을 때의 작업 성공률 차이를 보상으로 사용했습니다. 즉, 지식의 가치를 내용의 정확성 자체가 아닌 '실제 문제 해결에 얼마나 도움이 되는가(Utility)'라는 결과 중심적 관점으로 평가하여 모델이 고부가가치 정보를 선별하도록 학습시켰습니다.
결과적으로 학습된 에이전트는 추론 시점에 별도의 보상 함수나 인간의 가이드 없이도 낯선 웹사이트나 환경을 스스로 분석합니다. 이렇게 생성된 지식은 모델의 내부 파라미터를 수정하지 않고도 컨텍스트로 주입되어, 14B 규모의 작은 모델이 지식 보조를 받지 않은 Gemini-2.5-Flash와 같은 거대 모델보다 더 정확하게 복잡한 문제를 해결하는 성과를 거두었습니다.
방법론
에이전트의 생애 주기를 Native Evolution Phase와 Knowledge-Enhanced Execution Phase로 분리했습니다. Native Evolution Phase에서는 에이전트가 환경 E를 탐색하여 World Knowledge K를 생성하며, 이는 K ← π_evolve(K|E)로 정의됩니다. 생성된 K는 Markdown 문서 형태로 구현되어 기존 에이전트 아키텍처에 외부 모듈로 쉽게 로드될 수 있습니다.
Outcome-Based Reward Design은 Revolve(K) = Success(TE|K) - Success(TE|∅) 수식을 기반으로 합니다. [생성된 지식 K와 다운스트림 작업 세트 TE를 입력으로] → [지식이 있을 때와 없을 때의 성공률 차이를 계산하여] → [보상 값을 얻고] → [이 값이 클수록 해당 지식 생성 궤적이 우수함을 의미]하게 설계했습니다.
학습은 두 단계로 진행됩니다. 첫째, SFT 단계에서는 Gemini-2.5-Pro를 교사 모델로 사용하여 웹 환경 탐색 및 요약 궤적을 생성하고, 보상 기반 선택 메커니즘을 통해 고품질 데이터만 선별해 학습합니다. 둘째, RFT 단계에서는 학습된 모델이 스스로 여러 후보 지식을 생성하게 한 뒤, 가장 높은 보상을 받은 궤적을 다시 학습 데이터로 사용하는 반복적 최적화를 수행합니다.
관련 Figure

에이전트가 환경에서 World Knowledge를 생성하는 과정과 이를 활용해 작업을 수행하는 Knowledge-Enhanced Execution의 분리 구조를 보여줍니다. 특히 학습 시에만 Reward Calculator가 개입하고 추론 시에는 자율적으로 진화하는 메커니즘을 시각화합니다.
데이터 생성, 다단계 학습(SFT, RFT), 그리고 추론 단계로 이어지는 전체 시스템 아키텍처 다이어그램입니다.
주요 결과
Qwen3-30B 및 Seed-OSS-36B 모델에 적용한 결과, WebVoyager와 WebWalker 벤치마크에서 기본 모델 대비 약 20%의 절대적인 성능 향상을 기록했습니다. 특히 World Knowledge를 활용할 경우 작업 수행에 필요한 실행 단계(Execution Steps)가 평균 17% 감소하여 효율성이 크게 개선되었습니다.
모델 간 지식 전이(Cross-Model Transfer) 실험에서는 Seed-36B가 생성한 지식을 Qwen3-14B에 주입했을 때 성능이 18.3% 향상되었습니다. 가장 인상적인 결과는 World Knowledge를 갖춘 14B 모델이 지식 지원이 없는 Gemini-2.5-Flash보다 높은 성능(Conference 도메인 35.6% vs 31.3%)을 보였다는 점입니다.
관련 Figure

지식이 없는 에이전트는 7단계에 걸쳐 탐색했음에도 오답을 냈지만, World Knowledge를 가진 에이전트는 단 2단계 만에 핵심 정보를 식별하여 정답을 도출함을 입증합니다. 이는 효율성과 정확성의 동시 향상을 증명합니다.
World Knowledge 유무에 따른 에이전트의 문제 해결 과정과 단계 수 차이를 비교한 사례 연구입니다.
기술 상세
본 연구는 Test-Time Training(TTT)과 달리 추론 시 가중치 업데이트 없이 컨텍스트 주입만으로 적응을 구현하여 고처리량 추론 프레임워크와의 호환성을 유지했습니다. 웹 환경의 복잡성을 제어하기 위해 웹사이트를 유향 그래프로 모델링하고, 연결성 기반의 중요도 점수(Importance Scoring)와 URL 접두사 기반 클러스터링을 통해 입력 데이터를 전처리했습니다.
보상 계산 시 발생하는 긴 호라이즌(Long Horizon) 문제와 과도한 계산 비용을 해결하기 위해 온라인 RL 대신 Rejection Sampling Fine-Tuning(RFT)을 채택했습니다. 이는 궤적 생성과 정책 업데이트를 분리하여 수백 단계에 달하는 탐색 과정을 효율적으로 최적화할 수 있게 합니다. 생성된 World Knowledge는 토큰 예산 제약 내에서 정보 밀도를 극대화하도록 설계되었습니다.
한계점
웹 환경 탐색 시 하위 페이지가 너무 많은 경우 런타임이 길어지고 출력이 불안정해질 수 있는 문제가 언급되었습니다. 또한 World Knowledge의 길이가 지나치게 길어지면 중복된 노이즈가 발생하여 오히려 에이전트의 성능을 저하시키는 비선형적 경향이 관찰되었습니다.
실무 활용
복잡한 웹 인터페이스나 내부 코드 저장소와 같이 구조 파악이 우선시되는 환경에서 에이전트의 자율성을 높이는 데 즉시 활용 가능합니다.
- 대규모 사내 위키나 복잡한 웹 서비스의 구조를 스스로 파악하고 가이드를 생성하는 고객 지원 에이전트
- 새로운 소프트웨어 라이브러리나 API 문서를 탐색하여 개발자에게 최적의 사용법을 제안하는 코딩 어시스턴트
- 복잡한 게임 환경이나 시뮬레이션에서 사전 탐색을 통해 최적의 전략 지도를 구축하는 자율 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.