Claude Sonnet 5 비전 평가 결과

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Roboflow의 67개 비전 프롬프트 평가에서 Claude Sonnet 5는 전체 70%의 정답률로 Sonnet 4.6과 동률을 보였고 Gemini 3.5 Flash(79%)와 Claude Fable 5(75%)보다 낮은 성능을 기록했다. Sonnet 5는 객체 이해에서 93%로 강점을 보였으나 문서 이해는 67%, 객체 계수는 20%(2/10)로 혼잡·부분 가림 상황에서 계수 성능이 크게 떨어졌다. 출시 초기가격은 2026년 8월 31일까지 적용되며 이후 표준 요금제로 전환되어 비용 우위는 일시적이라는 제약이 존재한다.

섹션별 상세

Roboflow의 종합 평가에서는 67개의 실제 비전 프롬프트를 모델 입력으로 사용하고 각 응답의 정답 여부로 점수를 산출하는 방식이 적용되었다. 입력으로 이미지를 포함한 질문을 주고 모델은 텍스트 응답으로 정답을 판정받았으며, 결과는 범주별 정답률과 전체 정답률로 집계되었다. Claude Sonnet 5는 이 기준에서 47/67로 70%의 전체 정답률을 기록했고 Sonnet 4.6과 동일한 전체 점수를 보였다. 이 결과는 Sonnet 5가 전반적으로 전 세대와 동등한 비전 처리 능력을 유지하면서도 경쟁 모델과의 상대적 차이를 확인하게 한다.

Roboflow Vision Evals의 표로 모델별 항목별 정답률과 분자/분모가 표시되어 있다. — Chart표에는 전체 정답률(Best Overall)과 결함 탐지, 문서 이해, 객체 계수, 객체 이해, 공간 이해 항목별 수치가 나열되어 있으며 Sonnet 5의 전체 점수는 47/67로 70%로 표기되어 있다. 같은 표에서 Sonnet 5의 객체 이해는 13/14로 93%나오고 문서 이해는 6/9로 67%, 객체 계수는 2/10로 20%로 기록되어 모델의 강점과 약점이 항목별로 분명하게 드러난다. 이 수치들은 본문 요약의 핵심 근거 자료로 작동한다.

Sonnet 5의 성능 분포는 항목별로 뚜렷한 편차를 보였다. 객체 이해(Object Understanding) 항목에서는 13/14로 93%의 높은 정답률을 기록해 세부 객체 식별과 속성 추출에서 강점을 드러냈지만 문서 이해(Document Understanding)는 6/9로 67%에 그쳐 문서 레이아웃과 텍스트 기반 질문 처리에서 취약점이 나타났다. 객체 계수(Object Counting)에서는 2/10으로 20%에 불과했는데, 이는 객체가 적고 분리된 상황에서는 계수 정답이 유지되지만 혼잡·부분 가림·군집 상황에서 계수 추정이 급격히 악화되는 전형적인 한계와 일치한다. 이러한 항목별 편차는 모델이 시맨틱 인식은 잘 해내지만 공간적 집계와 문서 레이아웃 해석에서 추가 보완이 필요함을 시사한다.

비용·가격 정책 측면에서는 Sonnet 5가 출시 초기가격을 2026년 8월 31일까지 적용한 뒤 표준 Sonnet 요금제로 전환된다고 공지되어 초기 비용 우위가 일시적임이 확인된다. 비교 벤치마크에서 Gemini 3.5 Flash는 79%로 선두를 유지했고 Claude Fable 5는 75%를 기록하여 Sonnet 5보다 높은 전체 정답률과 가성비를 보였다는 점이 비용 대비 성능 판단에 영향을 미친다. 결과적으로 Sonnet 5는 특정 시각 과제에서 경쟁력이 있으나 전체 성능과 가격 효율성 면에서는 대체 모델보다 불리한 측면이 존재한다.

언급된 리소스

DemoRoboflow Vision Evals