핵심 요약
EMNLP 2025에 발표된 비디오 순서 재구성 벤치마크 SPLICE에서 Claude는 네이티브 비디오 입력 미지원으로 인해 평가 대상에서 제외되었다.
배경
EMNLP 2025에 비디오 추론 벤치마크 연구를 발표한 저자가 Claude가 평가 대상에 포함되지 못한 이유와 현재 멀티모달 모델들의 성능 한계를 공유했다.
의미 / 영향
이 토론을 통해 Claude가 텍스트와 코딩 영역의 강점에도 불구하고 비디오 멀티모달리티에서는 기술적 공백이 있음이 확인됐다. 향후 비디오 이해 능력이 모델의 성능을 가르는 주요 척도가 될 것이며 Anthropic의 네이티브 비디오 지원 여부가 중요한 변수가 될 것이다.
커뮤니티 반응
Claude의 텍스트 및 코딩 성능을 높게 평가하면서도 비디오 기능 부재에 대해서는 아쉬움을 표하는 반응이 많다. Anthropic의 선택과 집중 전략을 이해하지만 멀티모달 경쟁에서 뒤처질 수 있다는 우려가 제기되었다.
주요 논점
Claude가 비디오 기능을 지원하지 않는 것은 Anthropic이 텍스트와 추론 성능에 집중하기로 한 전략적 선택의 결과이다.
비디오 이해 능력이 차세대 AI의 핵심이 될 것이므로 Claude의 비디오 입력 부재는 심각한 기술적 결함이 될 수 있다.
합의점 vs 논쟁점
합의점
- 현재 AI 모델들은 비디오의 시간적 맥락을 인간 수준으로 이해하지 못한다.
- Claude는 현재 비디오 파일을 직접 처리할 수 있는 기능이 없다.
논쟁점
- 비디오를 이미지 프레임으로 변환하여 처리하는 방식이 비디오 이해의 대안이 될 수 있는지에 대한 효용성 논쟁이 있다.
실용적 조언
- 비디오 데이터의 시간적 흐름이나 인과관계 분석이 필요한 프로젝트라면 Claude 대신 Gemini 1.5 Pro나 Qwen2-VL을 검토해야 한다.
- 비디오를 이미지로 변환해 Claude에 입력할 경우 움직임 정보가 유실되므로 정적인 장면 분석에만 한정하여 사용해야 한다.
전문가 의견
- 연구자는 Claude가 비디오 입력을 지원하지 않는 한 비디오 이해와 관련된 학술적 벤치마크에서 지속적으로 배제될 수밖에 없음을 지적했다.
언급된 도구
네이티브 비디오 입력을 지원하는 멀티모달 추론 모델
비디오 및 이미지 이해에 특화된 오픈소스 시각 언어 모델
섹션별 상세
실무 Takeaway
- 비디오 순서 재구성 과업에서 인간(85%)과 AI 모델(최대 51%) 사이에는 여전히 큰 지능적 격차가 존재한다.
- Claude는 텍스트와 이미지 입력에는 강점이 있으나 네이티브 비디오 입력을 처리할 수 있는 기능이 아예 존재하지 않는다.
- Gemini Flash와 Qwen2-VL 같은 모델들은 비디오 입력을 지원하지만 복잡한 시간적 인과관계 추론에서는 여전히 한계를 드러냈다.
- 비디오 이해를 평가할 때 프레임 추출 방식은 영상의 핵심 정보인 움직임과 전환 맥락을 훼손하므로 네이티브 입력 지원 여부가 중요하다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료