비디오 추론 벤치마크 SPLICE에서 Claude가 제외된 기술적 이유

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

EMNLP 2025에 발표된 비디오 순서 재구성 벤치마크 SPLICE에서 Claude는 네이티브 비디오 입력 미지원으로 인해 평가 대상에서 제외되었다.

배경

EMNLP 2025에 비디오 추론 벤치마크 연구를 발표한 저자가 Claude가 평가 대상에 포함되지 못한 이유와 현재 멀티모달 모델들의 성능 한계를 공유했다.

의미 / 영향

이 토론을 통해 Claude가 텍스트와 코딩 영역의 강점에도 불구하고 비디오 멀티모달리티에서는 기술적 공백이 있음이 확인됐다. 향후 비디오 이해 능력이 모델의 성능을 가르는 주요 척도가 될 것이며 Anthropic의 네이티브 비디오 지원 여부가 중요한 변수가 될 것이다.

커뮤니티 반응

Claude의 텍스트 및 코딩 성능을 높게 평가하면서도 비디오 기능 부재에 대해서는 아쉬움을 표하는 반응이 많다. Anthropic의 선택과 집중 전략을 이해하지만 멀티모달 경쟁에서 뒤처질 수 있다는 우려가 제기되었다.

주요 논점

01중립다수

Claude가 비디오 기능을 지원하지 않는 것은 Anthropic이 텍스트와 추론 성능에 집중하기로 한 전략적 선택의 결과이다.

02반대소수

비디오 이해 능력이 차세대 AI의 핵심이 될 것이므로 Claude의 비디오 입력 부재는 심각한 기술적 결함이 될 수 있다.

합의점 vs 논쟁점

합의점

현재 AI 모델들은 비디오의 시간적 맥락을 인간 수준으로 이해하지 못한다.
Claude는 현재 비디오 파일을 직접 처리할 수 있는 기능이 없다.

논쟁점

비디오를 이미지 프레임으로 변환하여 처리하는 방식이 비디오 이해의 대안이 될 수 있는지에 대한 효용성 논쟁이 있다.

실용적 조언

비디오 데이터의 시간적 흐름이나 인과관계 분석이 필요한 프로젝트라면 Claude 대신 Gemini 1.5 Pro나 Qwen2-VL을 검토해야 한다.
비디오를 이미지로 변환해 Claude에 입력할 경우 움직임 정보가 유실되므로 정적인 장면 분석에만 한정하여 사용해야 한다.

섹션별 상세

SPLICE 벤치마크는 비디오를 여러 클립으로 쪼개고 무작위로 섞은 뒤 이를 원래 순서대로 나열하는 과업을 수행한다. 이는 모델이 단순히 화면을 보는 것을 넘어 시간적 흐름과 인과관계, 상식적 맥락을 복합적으로 추론해야 해결 가능하다.

실험 결과 인간은 85%의 정확도를 기록했으나 테스트된 AI 모델 중 최고점은 51%에 불과했다. Gemini Flash 1.5 및 2.0, Qwen2-VL, InternVL2.5 등이 참여했으며 일부 모델은 무작위 추측보다 약간 높은 수준의 저조한 성적을 보였다.

Claude는 현재 API와 웹 서비스 모두에서 네이티브 비디오 입력을 지원하지 않아 벤치마크에서 제외됐다. 비디오를 이미지 프레임으로 추출해 입력하는 방식은 영상 고유의 움직임과 시간적 연속성 정보를 손실시키기 때문에 비디오 이해 평가의 본질에 어긋난다는 판단이다.

Anthropic은 그동안 텍스트 추론과 코딩 능력 강화에 집중하는 전략을 취해왔으며 이는 시장에서 성공을 거두었으나 비디오 멀티모달 영역에서는 경쟁사 대비 기술적 공백이 뚜렷하다. 비디오 이해가 중요해지는 시점에서 이러한 기능 부재는 평가 지표에서의 소외로 이어진다.

실무 Takeaway

비디오 순서 재구성 과업에서 인간(85%)과 AI 모델(최대 51%) 사이에는 여전히 큰 지능적 격차가 존재한다.
Claude는 텍스트와 이미지 입력에는 강점이 있으나 네이티브 비디오 입력을 처리할 수 있는 기능이 아예 존재하지 않는다.
Gemini Flash와 Qwen2-VL 같은 모델들은 비디오 입력을 지원하지만 복잡한 시간적 인과관계 추론에서는 여전히 한계를 드러냈다.
비디오 이해를 평가할 때 프레임 추출 방식은 영상의 핵심 정보인 움직임과 전환 맥락을 훼손하므로 네이티브 입력 지원 여부가 중요하다.

언급된 도구

Gemini Flash추천

네이티브 비디오 입력을 지원하는 멀티모달 추론 모델

Qwen2-VL추천

비디오 및 이미지 이해에 특화된 오픈소스 시각 언어 모델

언급된 리소스

논문SPLICE: A Video Benchmark for Temporal Reasoning (EMNLP 2025)