Continual Harness: Self-Improving Foundation Agents를 위한 온라인 적응

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

에이전트가 부분 관찰과 긴 시퀀스 의사결정을 다뤄야 하는 상황에서, 인간의 개입 없이도 하니스와 모델이 함께 점진적으로 개선되도록 하는 프레임워크의 필요성이 커졌다. Continual Harness는 최소 환경 인터페이스에서 시작해 harness의 시스템 프롬프트(p), 서브에이전트(G), 스킬(K), 기억(M)을 온라인으로 업데이트하는 중첩 루프를 제시하며, Open‑Source 모델과의 공동 학습 파이프라인을 통해 비단 프로토타입 수준이 아닌 실제 학습 루프를 구현한다. 이를 통해 핸드 엔지니어링 하니스에 비견될 만큼의 성능을 유지하거나 개선하면서도 재설정 없이 지속적으로 학습할 수 있음을 보여준다.

왜 중요한가

에이전트가 부분 관찰과 긴 시퀀스 의사결정을 다뤄야 하는 상황에서, 인간의 개입 없이도 하니스와 모델이 함께 점진적으로 개선되도록 하는 프레임워크의 필요성이 커졌다. Continual Harness는 최소 환경 인터페이스에서 시작해 harness의 시스템 프롬프트(p), 서브에이전트(G), 스킬(K), 기억(M)을 온라인으로 업데이트하는 중첩 루프를 제시하며, Open‑Source 모델과의 공동 학습 파이프라인을 통해 비단 프로토타입 수준이 아닌 실제 학습 루프를 구현한다. 이를 통해 핸드 엔지니어링 하니스에 비견될 만큼의 성능을 유지하거나 개선하면서도 재설정 없이 지속적으로 학습할 수 있음을 보여준다.

핵심 기여

GPP: Gemini Plays Pokémon를 통해 다중 RPG를 완수한 최초의 AI 시스템

Gemini 모델을 이용한 인간‑감독 하니스 정제 루프를 통해 Pokémon Blue, Yellow Legacy(Hard mode), Crystal를 연속으로 완수한 사례를 제시한다.

Continual Harness: reset-free 하니스 정제 프레임워크

최소한의 환경 인터페이스에서 시작해 trajectory를 바탕으로 p, G, K, M을 CRUD 방식으로 업데이트하는 Refiner를 도입하고, 이를 통해 하니스를 온라인에서 자동으로 개선한다.

모델 능력에 따른 하니스 이익의 차이 및 Pareto-효율성

Emerald Red/ Emerald에서 Pro 모델의 경우 Hmin 대비 비용-완성의 Pareto frontier를 형성하며, 130달 median 버튼 프레스에 100% Milestones를 달성하고, 215의 비용에서 98% 달성인 기존 대안 대비 약 40%의 비용 절감을 달성한다.

온라인 모델‑하니스 공동 학습 파이프라인

Reset-free DAgger+PRM 루프를 통해 롤아웃을 점수화하고 frontier teacher로 저보상 윈도우를 재레이블한 뒤 Soft SFT로 θ를 업데이트하여 오픈 소스 Gemma‑4에서 지속적인 학습을 유도한다.

핵심 아이디어 이해하기

출발점: Embodied 에이전트는 시야가 한정되고, 환경 정보를 한정된 맵 텍스트와 화면 버퍼로만 얻는 긴 시퀀스 의사결정을 요구한다. 기존의 도구 기반 하니스는 도메인 scaffolding에 의존하고 재설정이 필요하지만, Continual Harness는 최소 인터페이스에서 시작해 Trajectory를 이용한 온라인 하니스 개선과 메타 도구를 통한 구성 요소의 CRUD 업데이트로 이를 극복한다. 제안하는 방식은 (1) inner loop에서 Agent M이 st, Ht, τ를 바탕으로 행동을 결정하고, (2) outer loop에서 Refiner가 최근 trajectory를 분석해 Δp, ΔG, ΔK, ΔM를 통해 Ht를 업데이트하며 다시 환경으로 돌아가는 구조이다. 또, (3) 학습 단계에서 PRM으로 평가하고 frontier teacher로 재레이블한 샤드를 Soft SFT로 모델 파라미터에 반영하는 온라인 코-learning 루프를 도입한다. 이로써 긴 호라이즌의 학습 데이터가 지속적으로 누적되며, 핸드 엔지니어링 없이도 모델과 하니스가 서로 보완하는 지속 가능한 학습 흐름이 생성된다.

방법론

전체 접근은 두 루프로 구성된다. (1) 내부 루프: 환경 ot, 맵 mt, 동작 at이 주어지면 현재 harness Ht가 πθk에 의해 작동하여 행동을 산출하고 τ를 생성한다. (2) 외부 루프: F 스텝마다 Refiner가 τt−F:t를 분석해 실패 시그니처를 식별하고 p, G, K, M 각각에 대해 CRUD 업데이트 Δ=(Δp, ΔG, ΔK, ΔM)를 생성한 뒤 Ht+1=Ht⊕Δ로 업데이트한다. 내부/외부 루프는 동일한 모델 M을 공유하며 Gemini 3 변형(Pro, Flash, Flash-Lite)을 통해 구현된다. 표준 프롬프트, 서브에이전트, 스킬, 메모리의 구성은 meta-tool API로 수정 가능하다. (패턴: 입력 τ → 연산 Δ를 산출 → 출력 Ht+1) 하니스의 변경은 연속적으로 누적되며, 초기 warm-up 이후에도 업데이트가 계속된다. (3) Continual Model‑Harness Co‑Learning 루프: warm-up 후 πθk를 live-refining harness에서 256스텝 실행하고, PRM R(st, at, τ)으로 윈도우를 평가한 뒤 낮은 보상 윈도우를 frontier teacher가 재레이블하고, Soft SFT로 θ를 갱신한다. (패턴: 입력 τ, 보상 R, 재레이레이브, θ 갱신 → 다음 롤아웃) 루프는 reset-free로 유지되며, 저장된 emulator 상태를 활용해 각 iteration의 시작점을 이어간다. (4) 데이터 흐름: Dθ는 harness에 의해 정의되며, θ는 θk→θk+1로 업데이트되고 Ht는 각 iteration에서 Refiner에 의해 갱신되며, 두 구성 요소가 서로를 변화시키며 트래젝토리 분포를 형성한다.

주요 결과

주요 벤치마크 결과: Gemini 3 Pro에서 Continual Harness는 Hmin 대비 Pareto-dominant로 작동한다. Red Emerald에서 Pro의 경우 from-scratch HCH가 Milestones의 100%를 달성하는데 중간값 130달러를 소비하고, Hmin은 98%를 달성하는데 215달러가 소요되어 약 40% 비용 절감을 달성한다. Emerald의 Bootstrap-Updating은 80% 달성에 42달러를 넘기지 않는 경우가 많았으며, Flash-Lite의 경우 20% 미만으로 성능이 저하된다. 또한, Emerald Pareto frontier에서 각 변종의 비용-완성 곡선이 제시되며, 8–10% 구간의 비용 차이로도 뚜렷한 다름을 보인다. Open-source Gemma-4로의 전이도 online co-learning 루프를 통해 검증되었으며, 24시간 동안의 Seed별 사례에서 SFT가 tool_format을 끌어올리고, Offline GRPO(히에라치) 및 Gemini 오라클 보상 모두에서 개선이 확인된다. 4.6절은 경로 탐색 스킬의 자체 개선을 측정하며, Dijkstra 오라클 대비 top-10%의 경로 비용 차이가 24시간 동안 지속적으로 감소하고, 24시간 내에 경로 비용 격차를 단일 자리로 축소하는 모습을 보인다. 전반적으로 reset-free refinements는 hand-engineered harness에 근접한 성능과 더불어 모델-하니스 공동 학습의 가능성을 실증한다.

기술 상세

아키텍처: Harness H는 System prompt p, Sub-agents G, Skills K, Memory M의 네 구성으로 환경과 상호작용한다. 내부 루프에서 Agent M은 st, Ht, τ에 따라 행동을 생성하고, 외부 루프에서 Refiner는 τt−F:t를 분석해 p, G, K, M에 대해 Δ를 생성해 Ht+1=Ht⊕Δ로 업데이트한다. Refiner의 네 패스(프롬프트 재작성, 서브에이전트 생성/수정/삭제, 스킬 재구성/수정, 메모리 업데이트/정리)로Failure-signatures를 이용한 점진적 개선이 가능하다. 두 루프는 같은 모델 M을 공유하며, Gemini 3(Pro/Flash/Flash-Lite)에서 평가된다. 온라인 학습 루프는 DAgger 구조를 기반으로 하며, PRM으로 윈도우를 평가하고, frontier teacher로 저보상 윈도우를 재레이블한 뒤 Soft SFT를 통해 θ를 업데이트한다. reset-free 특성으로 각 iteration의 emulator 상태를 지속적으로 유지해 trajectory distribution을 누적 학습에 활용한다. 실험은 Pokémon Red/ Emerald에서 수행되며, 벤치마크로 Milestones와 버튼 프레스 수를 사용한다.

한계점

Flash-Lite 계열에서 20% 미만의 달성률로 체이스가 실패하는 capability floor가 존재한다. Open-source 모델은 teacher와 trainee를 동시에 수행하는 능력이 충분치 않아 완전한 교차‑도구 학습이 제한된다. 또한, 제시된 루프의 수렴점은 실험 범위 내에서만 확인되며 일반화에 대한 이론적 보장은 없다.

실무 활용

미니멈 환경 인터페이스에서 시작해 온라인으로 하니스와 모델을 함께 개선하는 체계가 제시되며, 긴 시퀀스 의사결정이 필요한 embodied 에이전트의 프로덕션 학습에 활용 가능하다.

로봇 공정에서 긴 시간 의사결정이 필요한 작업의 하니스 자동 개선
대규모 시뮬레이션 기반 학습에서의 무 resets 학습 루프 구축
게임 에이전트의 고난이도 대화·전투 전략의 온라인 개선
프롬프트-도구 체계의 중첩 학습 및 도구 생성 자동화
오픈 소스 모델의 자체 학습과정에서의 지속적 성능 향상

코드 공개 여부: 공개

코드 저장소 보기

키워드

Continual Harnessreset-free trainingin-context learningprocess reward modelsoft SFTDAggerGemini