FrontierCode
코드 변경 제안(PR)이 실무에서 실제로 병합될 가능성을 측정하려는 벤치마크로, 단순 정답 검증을 넘어 코드 품질·유지보수성·머지 적합성을 종합적으로 평가한다. 모델이 생성한 PR을 검토·테스트·통합하는 과정에서의 성공률을 기준으로 점수를 산출하며, 기존의 정답 기반 벤치마크보다 실무 반영도가 높다. 에이전트형 코딩의 실무 유효성 판단에 중요한 보완 지표로 사용된다.