핵심 요약
기존의 추론 시간 확장 기법은 짧고 명확한 답변 생성에 최적화되어 있어, 복잡하고 긴 과정을 거치는 코딩 에이전트에는 적용하기 어려웠다. 이 논문은 에이전트의 실행 경로를 압축된 요약본으로 변환하여 효율적으로 선택하고 재사용함으로써, 대규모 언어 모델이 코딩 문제를 해결할 때 더 많은 연산 자원을 효과적으로 활용할 수 있는 프레임워크를 제공한다.
왜 중요한가
기존의 추론 시간 확장 기법은 짧고 명확한 답변 생성에 최적화되어 있어, 복잡하고 긴 과정을 거치는 코딩 에이전트에는 적용하기 어려웠다. 이 논문은 에이전트의 실행 경로를 압축된 요약본으로 변환하여 효율적으로 선택하고 재사용함으로써, 대규모 언어 모델이 코딩 문제를 해결할 때 더 많은 연산 자원을 효과적으로 활용할 수 있는 프레임워크를 제공한다.
핵심 기여
에이전트 궤적의 압축된 구조적 요약 인터페이스
에이전트의 행동, 관찰, 오류가 포함된 긴 실행 경로(Rollout)에서 핵심 가설과 실패 지점만을 보존하고 불필요한 세부 정보를 제거한 구조적 요약본을 생성하여 추론 확장 인터페이스로 활용한다.
Recursive Tournament Voting (RTV) 알고리즘
병렬로 생성된 여러 실행 요약본을 소그룹 단위로 재귀적으로 비교하여 최종적으로 가장 우수한 해결책을 선택하는 토너먼트 방식의 투표 메커니즘을 도입한다.
에이전트 환경에 최적화된 Parallel-Distill-Refine (PDR)
이전 시도에서 추출된 요약본을 다음 시도의 컨텍스트로 주입하여, 에이전트가 과거의 실패를 학습하고 점진적으로 해결책을 개선할 수 있도록 순차적 확장을 구현한다.
핵심 아이디어 이해하기
기존 LLM의 추론 시간 확장은 주로 'Best-of-N' 방식처럼 여러 답변을 생성한 뒤 보상 모델로 순위를 매기는 방식이었다. 하지만 코딩 에이전트는 수십 단계의 터미널 상호작용을 거치며 매우 긴 실행 경로(Trajectory)를 생성하므로, 전체 로그를 모델의 컨텍스트 윈도우에 모두 넣거나 직접 비교하는 것은 연산 비용과 노이즈 측면에서 비효율적이다.
이 논문은 에이전트의 경험을 '임베딩'이나 '전체 텍스트'가 아닌, 인간이 읽을 수 있는 형태의 '구조적 요약'으로 압축하는 것이 핵심이다. 이는 마치 개발자가 복잡한 디버깅 로그 전체를 보는 대신 핵심 원인과 시도한 해결책만 정리된 보고서를 보고 다음 전략을 세우는 것과 유사한 원리이다.
이렇게 압축된 요약본은 두 가지 방식으로 활용된다. 첫째, 여러 에이전트가 동시에 시도한 결과물 중 어떤 것이 가장 유망한지 소규모 그룹 비교를 통해 결정한다(RTV). 둘째, 이전 라운드에서 성공 가능성이 높았던 요약본들을 다음 라운드 에이전트에게 전달하여, 에이전트가 처음부터 다시 시작하는 것이 아니라 이전의 성과를 바탕으로 더 깊이 있는 탐색을 수행하게 한다.
방법론
에이전트 코딩 문제를 해결하기 위해 에이전트 이 환경 와 상호작용하며 생성하는 실행 경로 을 기본 단위로 정의한다. 각 경로는 행동 와 관찰 의 쌍으로 구성되며, 이를 요약 프롬프트 에 입력하여 압축된 요약본 을 생성한다.
병렬 확장 단계인 Recursive Tournament Voting (RTV)은 개의 실행 요약본을 그룹 크기 로 나누어 비교한다. 각 그룹 내에서 모델은 비교 프롬프트 를 통해 가장 우수한 요약본을 선택하며, 이 과정을 단 하나의 요약본이 남을 때까지 재귀적으로 반복한다. [N개의 요약본 입력 → G개씩 묶어 승자 선택 → 선택된 승자들로 다음 라운드 진행 → 최종 1개 도출]
순차적 확장 단계인 Parallel-Distill-Refine (PDR)은 이전 반복(Iteration)에서 RTV를 통해 선택된 개의 우수 요약본을 다음 반복의 에이전트에게 컨텍스트로 제공한다. 에이전트는 이 요약본들을 통해 이전의 가설과 실패 원인을 파악한 상태에서 새로운 실행 경로를 생성한다. [이전 라운드 우수 요약본 K개 추출 → 다음 라운드 에이전트의 초기 입력으로 주입 → 개선된 실행 경로 생성]
주요 결과
Claude 4.5 Opus 모델에 제안된 기법을 적용했을 때, SWE-Bench Verified 벤치마크에서 성능이 70.9%에서 77.6%로 향상되었으며, Terminal-Bench v2.0에서는 46.9%에서 59.1%로 크게 개선되었다. Gemini 3.1 Pro 역시 SWE-Bench Verified에서 72.3%에서 76.6%로 성능이 올랐다.
Ablation Study 결과, 전체 실행 로그를 직접 비교하는 것보다 구조적 요약본을 비교 대상으로 사용하는 것이 선택의 정확도를 높이는 데 결정적인 역할을 함이 확인되었다. 또한, 단일 시도보다 여러 개의 이전 요약본을 참조할 때 에이전트의 해결 능력이 더 강화되었으며, 반복 횟수가 늘어남에 따라 문제 해결에 필요한 단계(Steps) 수가 약 50% 감소하는 효율성 개선 효과도 나타났다.
기술 상세
본 연구는 에이전트의 '표현(Representation)'이 추론 시간 확장의 병목임을 지적한다. 아키텍처는 에이전트의 사고 과정(Thought)과 실행 명령(Bash commands)을 분리하여 처리하며, 요약본은 JSON 구조를 활용해 가설, 결정 사항, 진행 상황, 실패 모드를 명시적으로 구분한다.
RTV 알고리즘은 (Pairwise comparison)와 투표 수 설정에서 가장 안정적인 성능을 보였다. 이는 모델이 한 번에 많은 후보를 비교하는 것보다 두 개씩 정밀하게 비교할 때 더 정확한 판단을 내린다는 'LLM-as-a-Judge'의 특성을 반영한다. PDR 과정에서는 이전 시도의 성공 여부와 상관없이 요약된 정보를 전달함으로써, 실패한 시도에서도 '무엇을 하지 말아야 할지'에 대한 정보를 추출하여 탐색 효율을 높인다.
한계점
현재 프레임워크는 텍스트 기반의 요약본에 의존하고 있어, 영구적인 외부 아티팩트(Persistent external artifacts)나 복잡한 작업 공간 상태를 완전히 보존하고 재사용하는 데에는 한계가 있을 수 있다.
실무 활용
복잡한 소프트웨어 엔지니어링 문제를 해결하는 자율 코딩 에이전트의 성능과 효율성을 동시에 높일 수 있는 실전적인 프레임워크이다.
- 대규모 코드베이스의 버그 수정 및 리팩터링 자동화 에이전트
- 복잡한 터미널 환경에서의 시스템 관리 및 보안 취약점 진단 도구
- 여러 해결 전략을 병렬로 탐색하고 최적의 안을 선택해야 하는 자율 개발 워크플로
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.