평가 데이터셋
AI 모델의 성능을 객관적으로 검증하기 위해 마련된 질문과 정답(Ground Truth)의 집합이다. 에이전트가 실제 운영 환경에서 의도대로 작동하는지 확인하고, 코드나 프롬프트 수정 시 발생할 수 있는 성능 저하를 방지하는 기준점이 된다.