Steve-Evolving: 세밀한 진단 및 이중 트랙 지식 증류를 통한 오픈 월드 체화형 자기 진화 프레임워크

왜 중요한가

기존 AI 에이전트는 복잡한 환경에서 실패했을 때 단순히 실패했다는 정보만 얻어 반복적인 실수를 저지르는 한계가 있었다. 이 논문은 실패의 원인을 세밀하게 진단하고 이를 가드레일이라는 지식으로 변환하여, 모델 파라미터 업데이트 없이도 에이전트가 경험이 쌓일수록 스스로 똑똑해지는 구조를 제안한다.

핵심 기여

계층적 경험 진화 패러다임

상호작용 경험을 정적인 검색 코퍼스에서 구조화된 자산으로 재정의하고, 로우 데이터에서 지식으로 정제되는 생애주기 모델을 구축했다.

세밀한 실행 진단 시스템

13종의 상태 관측값과 11종의 실패 원인 분류를 통해 단순 이진 결과를 넘어선 고밀도 진단 신호를 생성하여 정확한 원인 분석을 가능하게 했다.

이중 트랙 지식 증류 메커니즘

성공한 궤적은 재사용 가능한 스킬로, 실패한 사례는 위험 동작을 방지하는 실행 가능한 가드레일로 각각 증류하여 지식 베이스를 확장한다.

진단 기반 로컬 재계획

실행 중 실패가 감지되면 즉시 원인을 분석하고 새로운 제약 조건을 프롬프트에 주입하여 실시간으로 경로를 수정하는 폐쇄 루프 제어를 구현했다.

핵심 아이디어 이해하기

기존 LLM 기반 에이전트는 복잡한 환경에서 작업을 수행할 때 과거의 성공 사례를 벡터 검색으로 찾아 참고하는 방식에 의존했다. 하지만 이는 실패의 구체적인 원인을 파악하지 못하며, 단순히 데이터가 많아진다고 해서 지능이 고도화되지 않는 단순 축적의 한계가 있다. Steve-Evolving은 이를 해결하기 위해 경험의 구조화를 도입한다. 에이전트가 행동할 때마다 상태 변화와 실패 원인을 포함한 튜플로 기록하고, 이를 다시 추상화된 지식인 스킬과 가드레일로 변환한다. 이는 마치 사람이 실수를 통해 특정 장소의 위험성을 인지하고 규칙을 만드는 것과 유사한 원리다. 특히 실패를 가드레일로 변환하는 과정이 핵심이다. 특정 환경 조건에서 금지해야 할 행동을 명시적인 제약 조건으로 정의하여 LLM 플래너의 컨텍스트에 주입함으로써, 동일한 실수를 물리적으로 차단하고 성공률을 지속적으로 높인다.

방법론

에이전트의 모든 상호작용을 (이전 상태, 행동, 진단 결과, 이후 상태)의 고정된 스키마를 가진 구조화된 문서로 기록한다. 이때 13가지 상태 관측값을 입력으로 받아 진단 함수 D를 거쳐 성공 여부, 상태 차이, 실패 원인, 연속 지표를 출력한다. 수집된 경험은 두 가지 경로로 정제된다. 성공 궤적은 환경 전제 조건과 실행 단계, 검증 함수를 포함한 스킬로 변환된다. 실패 궤적은 누적 오류가 임계값을 넘을 때 분석되어, 특정 조건에서 금지할 동작과 처벌 결과를 담은 가드레일로 추출된다. 현재 게임 컨텍스트와 가장 관련 있는 지식을 검색하기 위해 의미론적 유사도와 구조적 해싱을 결합한 점수 함수를 사용한다. 검색된 지식은 LLM 플래너의 컨텍스트 윈도우에 주입되어, 다음 행동 생성 시 긍정적 예시와 부정적 제약으로 작용한다. 실행 중 예상치 못한 장애물이 발생하여 누적 오류가 임계값을 초과하면 로컬 재계획 메커니즘이 트리거된다. 이때 시스템은 즉시 현재 경로를 중단하고 실패 원인을 분석하여 생성된 새로운 제약 조건을 활성 프롬프트 컨텍스트에 추가한 뒤 새로운 우회 전략을 샘플링한다.

주요 결과

마인크래프트 MCU 벤치마크의 70개 작업에 대해 5가지 LLM 백본으로 실험한 결과, 모든 모델에서 Steve-Evolving이 기존 정적 검색 기반 모델보다 높은 성공률을 기록했다. 특히 Iron 단계 이상의 복잡한 장기 작업에서 성능 향상이 두드러졌으며, Qwen3.5-plus 기준 전체 성공률 52.52%를 달성했다. 소거 연구를 통해 각 모듈의 중요성을 검증했다. 지식 주입을 제거했을 때 성능 하락이 가장 컸으며, 가드레일 증류를 제거했을 때도 반복적인 실패 패턴을 제어하지 못해 성능이 유의미하게 감소했다. 경험이 누적됨에 따라 성공률이 우상향하는 자기 진화 경향을 확인했다. 단순히 인스턴스만 축적하는 기존 방식은 성능이 정체되는 반면, 계층적 경험 진화를 적용한 모델은 지식이 쌓일수록 탐색 효율이 개선되고 시행착오가 줄어드는 것을 입증했다.

실무 활용

오픈 월드 게임이나 복잡한 물리적 환경에서 작동하는 자율 에이전트 시스템에 즉시 적용 가능하다. 특히 실패 원인을 분석하여 실시간으로 제약 조건을 갱신하는 메커니즘은 로보틱스나 자동화 워크플로우의 안정성을 높이는 데 유용하다.

마인크래프트와 같은 샌드박스 게임 내 자율 플레이어 에이전트 구축
복잡한 제조 공정 내 로봇의 실패 진단 및 자가 수정 시스템
LLM 기반 소프트웨어 개발 에이전트의 반복적 오류 방지 가드레일 적용
비정형 환경에서의 드론/자율주행차 경로 재계획 및 위험 회피

기술 상세

시스템은 Plan-Execute-Memorize-Diagnose-Replan의 폐쇄 루프 구조를 가진다. LLM 플래너는 JSON 형태의 구조화된 계획을 출력하며, 각 하위 목표는 실행 레이어에서 13종의 상태 관측값을 통해 실시간 모니터링된다. 실패 진단은 11가지 카테고리로 분류된다. 특히 정체 감지 함수는 슬라이딩 윈도우 내의 좌표 분산과 자원 수집 속도를 계산하여, 물리적인 움직임은 있으나 실질적인 진전이 없는 논리적 루프를 식별한다. 지식 검색 시 사용되는 Compositional Recall 메커니즘은 텍스트 임베딩 기반의 의미론적 검색과 더불어, 현재 들고 있는 도구나 바이옴 정보를 해싱하여 가중치를 부여한다. 이는 단순 텍스트 유사도가 놓칠 수 있는 물리적 상황의 맥락을 정확히 포착하게 한다. 로컬 재계획 트리거는 누적 실행 오류가 임계값을 초과할 때 발생한다. 이때 시스템은 즉시 현재 경로를 중단하고, 실패 원인을 분석하여 생성된 새로운 제약 조건을 활성 프롬프트 컨텍스트에 추가한 뒤 새로운 우회 전략을 샘플링한다.

한계점

실험이 마인크래프트라는 시뮬레이션 환경에 국한되어 있어 실제 물리 세계의 노이즈가 심한 환경에서의 일반화 가능성에 대해서는 추가 검증이 필요할 수 있다.

키워드

Embodied AI(체화형 인공지능)Self-Evolution(자기 진화)LLM Planner(대형 언어 모델 플래너)Knowledge Distillation(지식 증류)Minecraft(마인크래프트)Fine-grained Diagnosis(세밀한 진단)