swe-bench-pro
기존 소프트웨어 엔지니어링 벤치마크인 SWE-Bench가 포화 상태에 이르자 도입된 더 어려운 평가 기준이다. 실제 오픈소스 프로젝트의 복잡한 이슈 해결 능력을 측정하며 모델의 실질적인 코딩 역량을 판가름하는 척도로 쓰인다.
기존 소프트웨어 엔지니어링 벤치마크인 SWE-Bench가 포화 상태에 이르자 도입된 더 어려운 평가 기준이다. 실제 오픈소스 프로젝트의 복잡한 이슈 해결 능력을 측정하며 모델의 실질적인 코딩 역량을 판가름하는 척도로 쓰인다.