SWE-벤치
실제 GitHub 이슈를 해결하는 능력을 평가하는 소프트웨어 엔지니어링 벤치마크이다. 단순 코드 생성을 넘어 복잡한 프로젝트 구조 이해와 디버깅 능력을 측정하여 모델의 실무 능력을 판가름한다.