평가 픽스처
소프트웨어나 AI 모델의 성능을 일관되게 측정하기 위해 준비된 고정된 테스트 데이터셋과 환경이다. 이를 통해 코드 검색 속도나 에이전트의 응답 정확도를 객관적으로 벤치마킹할 수 있다.