Better-Harness: 에이전트 성능 개선을 위한 반복적 평가 루프 구축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

에이전트 개발에서 평가는 고전적 머신러닝의 학습 데이터와 같은 역할을 수행하며 시스템 개선을 위한 핵심 신호가 된다. Better-Harness는 에이전트를 감싸는 프롬프트와 도구 정의인 '하네스'를 평가 지표에 기반해 자율적으로 개선하는 복합 시스템 아키텍처이다. 이 시스템은 프로덕션 트레이스에서 평가 사례를 추출하고, 최적화 세트와 홀드아웃 세트를 분리하여 과적합을 방지하며 성능을 높인다. 실제 테스트 결과 Claude Sonnet과 GLM-5 모델 모두에서 도구 사용 및 후속 질문 품질이 크게 향상됨이 확인됐다.

배경

LLM 에이전트 아키텍처에 대한 이해, 프롬프트 엔지니어링 및 도구 사용(Tool Use) 개념, LangSmith와 같은 트레이싱 도구 사용 경험

대상 독자

프로덕션 환경에서 LLM 에이전트의 성능과 신뢰성을 높이고자 하는 AI 엔지니어 및 제품 관리자

의미 / 영향

이 방법론은 에이전트 개발을 단순한 프롬프트 엔지니어링에서 데이터 중심의 체계적인 공학 프로세스로 전환시킨다. 특히 자율적인 최적화 루프를 통해 개발자의 수동 개입을 줄이면서도 홀드아웃 세트와 인간 리뷰를 통해 안전성을 확보할 수 있다는 점에서 실무적 가치가 크다.

섹션별 상세

에이전트 개발에서 평가는 모델 학습의 그래디언트와 유사한 학습 신호를 제공한다. 에이전트가 프로덕션에서 보여주길 원하는 행동을 평가 사례로 인코딩하고, 이를 통해 하네스의 프롬프트나 도구 구성을 수정하는 루프를 형성한다. 데이터 품질과 큐레이션에 들이는 노력이 에이전트 성능 개선의 핵심 동력이 된다.

고전적 머신러닝 학습 루프와 에이전트 개발 루프의 유사성을 비교한 다이어그램 — Diagram모델 가중치를 업데이트하는 그래디언트 데센트 과정이 에이전트 개발에서는 하네스 엔지니어링과 평가 신호로 치환됨을 보여준다. 에이전트의 평가 데이터 포인트가 학습의 그래디언트와 동일한 역할을 수행한다는 핵심 개념을 시각화한다.

Better-Harness는 데이터 소싱부터 실험 설계, 최적화, 리뷰 및 승인까지 포함하는 복합 시스템 공학 접근법이다. 단순히 업데이트 알고리즘에 집중하는 것을 넘어 프로덕션 트레이스를 활용한 평가 사례 생성과 과적합 방지를 위한 설계 결정을 포함한다. 이를 통해 에이전트가 특정 사례에만 매몰되지 않고 일반화된 성능을 갖추도록 유도한다.

좋은 평가 사례를 확보하기 위해 수동 큐레이션, 프로덕션 트레이스 마이닝, 외부 데이터셋 활용의 세 가지 방법을 병행한다. 특히 프로덕션 트레이스에서 실패 사례를 찾아 평가 사례로 전환하는 과정은 에이전트를 지속적으로 개선하는 강력한 레버리지가 된다. 모든 평가는 행동 카테고리별로 태깅되어 타겟팅된 실험과 효율적인 홀드아웃 세트 구성을 가능하게 한다.

에이전트의 과적합과 보상 해킹 문제를 해결하기 위해 데이터 분할과 인간 리뷰를 필수적으로 도입한다. 최적화 세트에서 점수를 높인 변경 사항이 홀드아웃 세트에서도 유효한지 검증하여 실제 일반화 성능을 확인한다. 또한 인간 리뷰어는 지표가 놓칠 수 있는 프롬프트의 비효율성이나 토큰 낭비를 최종적으로 점검하는 게이트 역할을 수행한다.

최적화 루프는 트레이스 진단, 타겟팅된 하네스 변경, 검증의 단계를 자율적으로 반복한다. 점수 합계뿐만 아니라 상세 트레이스를 분석하여 실패 원인을 파악하고, 프롬프트 수정이나 도구 설명 업데이트 등 구체적인 변경안을 제안한다. 변경 후에는 기존에 통과하던 사례에서 회귀가 발생하는지 확인하여 안정적인 성능 향상을 보장한다.

text

Model Phase Optimization Tool Use | Optimization Followup | Holdout Tool Use | Holdout Followup
Claude-sonnet-4-6 Before 1/2 | 0/3 | 7/8 | 2/6
After 2/2 | 2/3 | 7/8 | 6/6

Claude Sonnet 모델을 사용한 하네스 최적화 전후의 성능 비교 데이터

Better-Harness 시스템의 전체 최적화 워크플로우 다이어그램 — Diagram평가 사례 소싱부터 데이터 분할, 진단, 제안, 평가, 검증으로 이어지는 반복적인 최적화 루프를 상세히 설명한다. 프로덕션 트레이스가 새로운 평가 사례로 환류되는 구조를 명확히 보여준다.

근거

Claude Sonnet 4.6 모델은 하네스 최적화 후 홀드아웃 세트의 후속 질문 품질 점수가 2/6에서 6/6으로 상승했다. — Results from the Better-Harness loop 섹션의 실험 결과 표
GLM-5 모델은 최적화 루프를 통해 도구 사용 최적화 점수가 0/2에서 2/2로 개선되었다. — Results from the Better-Harness loop 섹션의 실험 결과 표

용어 해설

Harness: — 에이전트가 도구를 사용하고 추론하며 환경과 상호작용할 수 있도록 감싸는 프롬프트, 도구 정의, 제어 로직의 집합체이다. 에이전트의 성능을 결정짓는 핵심적인 시스템 레이어로 작용한다.
Hill Climbing: — 현재 상태보다 더 나은 인접 상태로 계속 이동하여 최적의 해를 찾아가는 최적화 기법이다. 에이전트 개발에서는 평가 지표를 높이기 위해 하네스를 반복적으로 수정하는 과정을 의미한다.
Holdout Set: — 최적화 과정에서 사용하지 않고 최종 검증을 위해 따로 떼어둔 데이터셋이다. 에이전트가 특정 평가 사례에만 과적합되지 않고 새로운 상황에서도 잘 작동하는지 일반화 성능을 측정하는 데 필수적이다.
Reward Hacking: — 에이전트가 실제 의도된 목표를 달성하기보다 평가 시스템의 허점을 이용해 점수만 높이려는 현상이다. 과적합된 프롬프트로 인해 점수는 오르지만 실제 성능은 떨어지는 부작용을 포함한다.

기술

LangChain
LangSmith
Claude Sonnet
GLM-5

활용 사례

에이전트 성능 자동 최적화
프로덕션 실패 사례 기반 평가 데이터셋 구축
에이전트 회귀 테스트 자동화

언급된 리소스

GitHubBetter-Harness Research Version

문서Building Evals for Deep Agents

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

배경

LLM 에이전트 아키텍처에 대한 이해, 프롬프트 엔지니어링 및 도구 사용(Tool Use) 개념, LangSmith와 같은 트레이싱 도구 사용 경험

대상 독자

프로덕션 환경에서 LLM 에이전트의 성능과 신뢰성을 높이고자 하는 AI 엔지니어 및 제품 관리자

의미 / 영향

섹션별 상세

text

Model Phase Optimization Tool Use | Optimization Followup | Holdout Tool Use | Holdout Followup
Claude-sonnet-4-6 Before 1/2 | 0/3 | 7/8 | 2/6
After 2/2 | 2/3 | 7/8 | 6/6

Claude Sonnet 모델을 사용한 하네스 최적화 전후의 성능 비교 데이터

근거

Claude Sonnet 4.6 모델은 하네스 최적화 후 홀드아웃 세트의 후속 질문 품질 점수가 2/6에서 6/6으로 상승했다. — Results from the Better-Harness loop 섹션의 실험 결과 표
GLM-5 모델은 최적화 루프를 통해 도구 사용 최적화 점수가 0/2에서 2/2로 개선되었다. — Results from the Better-Harness loop 섹션의 실험 결과 표

용어 해설

Harness: — 에이전트가 도구를 사용하고 추론하며 환경과 상호작용할 수 있도록 감싸는 프롬프트, 도구 정의, 제어 로직의 집합체이다. 에이전트의 성능을 결정짓는 핵심적인 시스템 레이어로 작용한다.
Hill Climbing: — 현재 상태보다 더 나은 인접 상태로 계속 이동하여 최적의 해를 찾아가는 최적화 기법이다. 에이전트 개발에서는 평가 지표를 높이기 위해 하네스를 반복적으로 수정하는 과정을 의미한다.
Holdout Set: — 최적화 과정에서 사용하지 않고 최종 검증을 위해 따로 떼어둔 데이터셋이다. 에이전트가 특정 평가 사례에만 과적합되지 않고 새로운 상황에서도 잘 작동하는지 일반화 성능을 측정하는 데 필수적이다.
Reward Hacking: — 에이전트가 실제 의도된 목표를 달성하기보다 평가 시스템의 허점을 이용해 점수만 높이려는 현상이다. 과적합된 프롬프트로 인해 점수는 오르지만 실제 성능은 떨어지는 부작용을 포함한다.

기술

LangChain
LangSmith
Claude Sonnet
GLM-5

활용 사례

에이전트 성능 자동 최적화
프로덕션 실패 사례 기반 평가 데이터셋 구축
에이전트 회귀 테스트 자동화

언급된 리소스

GitHubBetter-Harness Research Version

문서Building Evals for Deep Agents

Better-Harness: 에이전트 성능 개선을 위한 반복적 평가 루프 구축

TL;DR

배경

대상 독자

의미 / 영향

섹션별 상세

용어 해설

기술

활용 사례

언급된 리소스

Better-Harness: 에이전트 성능 개선을 위한 반복적 평가 루프 구축

TL;DR

배경

대상 독자

의미 / 영향

섹션별 상세

용어 해설

기술

활용 사례

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드