SWE-bench 2026년 2월 리더보드 업데이트: Claude 4.5 Opus 1위 등극

핵심 요약

SWE-bench 리더보드가 2026년 2월 최신 모델들을 대상으로 업데이트되었다. 이번 평가는 연구소의 자체 보고가 아닌 공식적인 전체 실행 결과로, 실제 오픈소스 프로젝트의 코딩 문제를 해결하는 능력을 측정했다. Claude 4.5 Opus가 76.8%로 1위를 기록했으며, Gemini 3 Flash와 중국의 MiniMax M2.5가 그 뒤를 이었다. 특히 상위 10개 모델 중 다수가 중국계 모델이며, OpenAI의 GPT-5.2는 6위에 머무르는 등 모델 간 경쟁 구도의 변화가 확인되었다.

배경

SWE-bench 벤치마크에 대한 기본 이해, LLM 성능 지표 해석 능력

대상 독자

AI 모델 성능을 추적하는 개발자 및 코딩 에이전트 연구자

의미 / 영향

이번 결과는 코딩 보조 도구 시장에서 Anthropic의 우위를 확인시켜 주는 동시에, 중국 모델들의 급격한 성장을 경고하고 있다. 또한 브라우저 기반 AI 에이전트가 단순 정보 검색을 넘어 웹 인터페이스를 능동적으로 수정하는 실무 도구로 진화하고 있음을 보여준다.

섹션별 상세

SWE-bench Verified는 OpenAI의 지원을 받아 수동으로 선별된 500개의 실제 코딩 문제를 포함하는 데이터셋이다. 이번 벤치마크는 Bash Only 환경에서 약 9,000라인의 Python 코드로 구성된 미니 에이전트를 사용하여 수행되었다. Django, Scikit-learn 등 주요 오픈소스 라이브러리에서 추출된 실무적인 문제들을 해결하는 능력을 공정하게 비교하기 위해 모든 모델에 동일한 시스템 프롬프트를 적용했다.

모델 성능 순위에서 Anthropic의 Claude 4.5 Opus가 76.8%의 해결률로 최상단을 차지했다. 흥미로운 점은 Claude 4.5 Opus가 후속 버전인 4.6의 75.6%보다 약 1.2%p 높은 성능을 보였다는 것이다. 구글의 Gemini 3 Flash와 중국 MiniMax의 M2.5 모델이 75.8%로 공동 2위를 기록하며 강력한 성능을 입증했다.

중국 AI 모델들의 약진이 두드러지게 나타났다. 상위 10위권 내에 MiniMax M2.5 외에도 GLM-5, Kimi K2.5, DeepSeek V3.2 등 총 4개의 중국 모델이 포함되었다. 이는 글로벌 코딩 AI 시장에서 중국 기술력이 최상위권 수준에 도달했음을 시사한다.

OpenAI의 GPT-5.2는 72.8%의 해결률로 6위에 그쳤다. 다만 OpenAI의 최상위 코딩 특화 모델인 GPT-5.3-Codex는 아직 API로 제공되지 않아 이번 벤치마크에 포함되지 않았다는 점을 고려해야 한다. 이번 결과는 특정 모델에 최적화된 프롬프트나 하네스를 사용하지 않은 순수 모델 성능 비교라는 점에서 의미가 있다.

저자 Simon Willison은 Claude for Chrome 브라우저 에이전트를 활용해 벤치마크 웹사이트의 차트를 직접 수정했다. 기존 차트에는 막대 위에 구체적인 수치가 표시되지 않았으나, Claude에게 자바스크립트 주입을 요청하여 실시간으로 수치 라벨을 추가하는 데 성공했다. 이는 브라우저 자동화 도구가 웹 페이지의 요소를 동적으로 조작하고 데이터를 시각화하는 능력을 잘 보여주는 사례다.