하네스 엔지니어링을 통한 코딩 에이전트 성능 극대화: Terminal Bench 2.0 톱 5 진입기

핵심 요약

코딩 에이전트의 성능은 모델 자체의 지능뿐만 아니라 이를 둘러싼 시스템인 하네스(Harness) 설계에 크게 의존한다. LangChain 팀은 GPT-5.2-Codex 모델을 고정한 채 시스템 프롬프트, 도구, 미들웨어를 최적화하는 하네스 엔지니어링을 통해 Terminal Bench 2.0 리더보드 5위에 올랐다. 주요 전략으로는 LangSmith 트레이스 분석을 통한 에러 패턴 파악, 자가 검증(Self-Verification) 루프 도입, 그리고 추론 비용을 효율적으로 배분하는 리즈닝 샌드위치(Reasoning Sandwich) 기법이 사용되었다. 이러한 접근법은 모델의 한계를 시스템적으로 보완하여 자율적인 문제 해결 능력을 극대화하는 데 중점을 둔다.

배경

LLM Agent 기본 개념, LangChain/LangSmith 사용 경험, 소프트웨어 테스트 및 CI/CD 이해

대상 독자

자율 코딩 에이전트 또는 복잡한 에이전트 워크플로우를 설계하는 AI 엔지니어

의미 / 영향

이 연구는 고성능 모델을 단순히 사용하는 것을 넘어, 모델의 출력을 제어하고 검증하는 시스템적 설계가 에이전트의 실질적 성능을 결정짓는 핵심 요소임을 시사한다. 특히 오픈소스 도구인 LangChain과 LangSmith를 활용한 체계적인 개선 프로세스를 제시함으로써 에이전트 개발 방법론의 표준을 제안한다.

섹션별 상세

하네스 엔지니어링은 모델의 지능을 특정 작업에 맞게 성형하는 시스템 도구 모음으로, 시스템 프롬프트, 도구 선택, 실행 흐름 등을 포함한다. 모델을 블랙박스로 취급하되 입력과 출력을 텍스트 공간에서 관찰하여 개선 루프를 구축하는 것이 핵심이다. 이번 실험에서는 모델을 교체하지 않고 오직 하네스 구성요소만 조정하여 성능을 13.7%p 향상시켰다.

에러 분석을 자동화하기 위해 LangSmith의 실험 트레이스를 가져와 병렬 서브 에이전트가 분석하고 메인 에이전트가 결과를 종합하는 트레이스 분석기(Trace Analyzer) 스킬을 개발했다. 이를 통해 에이전트가 왜 실패하는지(추론 오류, 지시 미준수, 테스트 부재 등)를 대규모로 파악하고 하네스 개선에 반영했다. 이 과정은 인간의 개입을 최소화하면서도 일반화 가능한 개선안을 도출하는 데 기여한다.

에이전트가 단순히 코드를 작성하고 끝내는 것이 아니라, 스스로 테스트를 설계하고 실행하여 결과에 따라 코드를 수정하도록 유도하는 자가 검증(Self-Verification) 루프를 강화했다. 특히 PreCompletionChecklistMiddleware를 도입하여 에이전트가 종료하기 직전에 작업 명세서와 대조하여 검증 패스를 수행하도록 강제했다. 이는 에이전트가 해피 패스만 확인하고 넘어가는 경향을 방지하고 엣지 케이스까지 고려하게 만든다.

에이전트가 작업 환경을 정확히 파악하도록 LocalContextMiddleware를 통해 디렉토리 구조와 가용 도구 정보를 주입하고 시간 예산 경고를 제공한다. 또한 동일한 파일에 대해 의미 없는 수정을 반복하는 둠 루프(Doom Loop)를 방지하기 위해 LoopDetectionMiddleware를 사용하여 특정 횟수 이상의 편집이 발생하면 접근 방식을 재고하도록 유도한다. 환경에 대한 구체적인 정보 제공은 에이전트의 탐색 오류를 줄이는 데 효과적이다.

모든 단계에 최대 추론 리소스를 사용하는 대신, 계획(Planning)과 최종 검증(Final Verification) 단계에 높은 추론(xhigh)을 배치하고 중간 구현 단계에는 일반 추론(high)을 사용하는 리즈닝 샌드위치(Reasoning Sandwich) 전략을 채택했다. 이를 통해 토큰 비용과 지연 시간을 최적화하면서도 복잡한 문제 이해와 정확한 결과 제출 성능을 확보했다. 실험 결과, 모든 단계에 xhigh를 쓰는 것보다 이 샌드위치 방식이 타임아웃을 줄여 더 높은 점수를 기록했다.