코드 리뷰 벤치마크
AI 모델이나 에이전트가 소스 코드의 버그, 보안 취약점, 가독성 등을 얼마나 정확하게 식별하는지 측정하는 평가 지표이다. 동일한 Pull Request를 대상으로 여러 도구의 성능을 비교하여 실무 적용 가능성을 판단하는 데 사용된다.