swe-benchmark
AI 모델이 실제 소프트웨어 개발 과제를 얼마나 잘 수행하는지 측정하는 지표로, 코드 수정 및 버그 해결 능력을 평가한다.
GPT-5.2 전격 공개: 코딩·문서 작업 성능 대폭 강화와 어도비 앱 통합