SWE-벤치 라이트
실제 GitHub 이슈를 해결하는 능력을 통해 모델의 소프트웨어 엔지니어링 역량을 평가하는 벤치마크의 경량 버전이다. 복잡한 코드베이스에서의 문제 해결 능력을 객관적으로 측정하는 지표로 활용된다.