swe-bench
실제 GitHub 이슈를 해결하는 능력을 평가하는 소프트웨어 엔지니어링 벤치마크이다. 단순 코드 생성을 넘어 복잡한 프로젝트 구조 이해와 디버깅 능력을 측정하여 모델의 실무 능력을 판가름한다.
오픈소스의 반란? Qwen3-Coder-Next가 코딩 벤치마크 전 세계 1위 기록
에이전트의 탐색 시간을 줄이는 .dsp 폴더 구조
Claude 4.5가 GPT-5.2를 제쳤다? 최신 코딩 벤치마크 결과 공개
샘 알트만님, 다음 프로젝트는 슬랙입니다: OpenAI의 전략과 MiniMax M2.5의 충격적 가성비
정적 벤치마크의 종말, 이제는 자율 실행 에이전트의 시대