evaluation-driven-development
평가 중심 개발
코드나 프롬프트 변경을 병합하기 전에 오프라인으로 동일 범위의 입력을 실행해 성능과 회귀 여부를 비교하는 워크플로이다. 입력 시뮬레이션 → 실제 에이전트 실행 → 판정자(자동·LLM)로 점수화하는 단계로 구성되어 조용한 회귀를 찾아내는 것이 주요 목표이다. 운영 중 비용과 프라이버시 제약으로 인해 온라인 전수 검증이 불가능할 때 실무에서 회귀 방지 게이트로 활용된다.
평가 중심 개발
코드나 프롬프트 변경을 병합하기 전에 오프라인으로 동일 범위의 입력을 실행해 성능과 회귀 여부를 비교하는 워크플로이다. 입력 시뮬레이션 → 실제 에이전트 실행 → 판정자(자동·LLM)로 점수화하는 단계로 구성되어 조용한 회귀를 찾아내는 것이 주요 목표이다. 운영 중 비용과 프라이버시 제약으로 인해 온라인 전수 검증이 불가능할 때 실무에서 회귀 방지 게이트로 활용된다.