텍스트, 음성, 비전을 아우르는 범용 지시 이행 모델의 교차 언어 평가

과학 강연 데이터를 활용해 음성, 영상, 텍스트를 동시에 처리하는 멀티모달 모델의 지시 이행 능력을 다국어로 평가하는 새로운 벤치마크 MCIF를 소개합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

MCIF는 실제 과학 강연 데이터를 기반으로 구축된 벤치마크로, 현재 SOTA 모델들이 음성-영상 통합, 장문 처리, 요약 작업에서 여전히 큰 성능 격차를 보이고 있음을 증명합니다.

배경

현재 LLM은 텍스트를 넘어 음성, 영상 등 다양한 모달리티를 처리해야 하지만, 기존 평가는 단일 모달리티나 단일 언어에 치중되어 실제 환경을 반영하지 못하고 있습니다.

대상 독자

멀티모달 모델 연구자, AI 평가 프레임워크 개발자, LLM 성능 분석가

의미 / 영향

MCIF 벤치마크는 단순 텍스트 성능을 넘어 실제 환경과 유사한 복합적 상황에서의 AI 성능을 측정하는 기준이 된다. 이를 통해 연구자들은 음성-영상 통합 알고리즘의 취약점을 파악하고, 다국어 지시 이행 능력을 개선하는 데 집중할 수 있다.

챕터별 상세

00:00

지시 이행 평가의 필요성

현대 LLM은 자연어 지시를 통해 텍스트뿐만 아니라 음성, 영상 입력을 처리할 것으로 기대된다. 사용자는 이탈리아어 사용자가 영어 모델과 상호작용하는 것처럼 다국어 환경에서의 유연한 대응을 원한다. 지시 이행(Instruction Following)은 멀티모달 작업을 수행하는 통합 인터페이스로서 핵심적인 역할을 한다.

•자연어 지시는 멀티모달 작업을 수행하는 통합 인터페이스이다
•사용자는 다국어 및 다중 모달리티 환경에서의 유연한 상호작용을 기대한다

03:31

현재 평가 체계의 한계와 실제 환경의 차이

기존의 평가 벤치마크는 주로 단일 모달리티, 단일 언어(주로 영어), 단일 작업에 집중되어 있다. 특히 음성 LLM 평가 시 특정 데이터셋에 과적합된 경우가 많아 실제 환경의 복잡성을 반영하지 못한다. 반면 실제 환경은 멀티모달, 다국어, 다중 작업, 그리고 긴 문맥(Long-form) 처리가 동시에 요구되는 특성을 가진다.

•기존 벤치마크는 단일 모달리티 및 영어 중심의 평가에 치중되어 있다
•실제 환경은 멀티모달 통합과 장문 처리가 필수적이다

06:59

멀티모달 교차 언어 지시 이행의 도전 과제

모델은 음성, 시각 요소, 서면 자료 등 서로 다른 모달리티의 정보를 통합해야 하는 과제에 직면한다. 또한 입력 언어와 출력 언어가 다른 교차 언어(Crosslingual) 상황에서 올바른 언어로 응답해야 한다. 명시적인 작업 지시 없이도 프롬프트에서 작업의 종류(요약, 번역 등)를 스스로 파악해야 하는 지능이 필요하다.

•서로 다른 모달리티 정보의 유기적 통합이 어렵다
•입력과 다른 출력 언어를 선택해야 하는 교차 언어 대응이 필요하다

08:51

새로운 벤치마크: MCIF 소개

MCIF(Multimodal Crosslingual Instruction Following)는 멀티모달, 교차 언어, 지시 이행 능력을 동시에 측정하기 위해 설계된 벤치마크이다. 자연스러운 인간 작성 지시문을 사용하며, 네이티브 멀티모달 장문 콘텐츠를 포함한다. 모달리티, 언어, 컨텍스트 유형에 따라 병렬적인 평가가 가능하도록 설계되었다.

•MCIF는 멀티모달과 교차 언어 지시 이행을 동시에 평가한다
•인간이 직접 작성하고 검수한 고품질 지시문을 기반으로 한다

10:40

데이터 수집 및 과학 강연 선정 이유

ACL Anthology의 논문 발표 영상을 데이터 소스로 활용했다. 과학 강연은 도표와 그래픽이 포함된 슬라이드, 다양한 억제의 화자, 배경 소음이 포함된 실제 녹음 환경 등 풍부한 멀티모달 요소를 갖추고 있다. 이는 깨끗한 스튜디오 녹음 데이터보다 실제 모델의 성능을 측정하기에 더 적합한 난이도를 제공한다.

•ACL 논문 발표 영상은 풍부한 시각 및 음성 정보를 포함한다
•다양한 화자의 억양과 실제 소음 환경이 포함되어 평가 변별력이 높다

15:56

MCIF 데이터 구성 및 어노테이션 과정

총 121개의 강연 영상을 수집하여 약 11시간 분량의 데이터를 구축했다. 영어(단일 언어)와 독일어, 이탈리아어, 중국어(교차 언어)를 포함하며, 전문가들이 직접 전사, 번역, 요약, 질의응답 쌍을 생성했다. 특히 질의응답(QA) 세트는 영상 전용, 음성 전용, 복합 질문 등 입력 모달리티별로 세분화하여 모델의 통합 능력을 정밀하게 측정한다.

•전문가가 직접 검수한 4개 국어 기반의 멀티모달 데이터셋이다
•질의응답 세트는 입력 모달리티에 따라 체계적으로 분류되어 있다

18:57

평가 지표 및 대상 모델

인식 성능은 WER, 번역은 COMET, 요약 및 QA는 BERTScore를 사용하여 측정한다. LLM-as-a-judge 방식은 멀티모달 평가에서 아직 불안정하다고 판단하여 제외했다. 평가 대상으로는 23개의 SOTA 모델을 선정했으며, 여기에는 7개의 LLM, 5개의 SpeechLLM, 5개의 VideoLLM, 6개의 MLLM이 포함된다. 상용 모델인 Gemini 1.5 Flash를 비교군으로 활용했다.

•WER, COMET, BERTScore 등 검증된 정량적 지표를 사용한다
•Gemini 1.5 Flash를 포함한 23개의 최신 모델을 광범위하게 평가한다

20:29

실험 결과 분석: 인식 및 번역 성능

음성 인식 성능에서 장문(Long-form) 처리 시 대부분의 모델에서 성능 저하가 관찰되었다. 특히 모델이 지시사항을 무시하고 슬라이드 텍스트만 읽거나, 긴 영상의 일부만 전사하는 '과소 생성(Under-generation)' 문제가 심각했다. 번역 작업에서도 텍스트 전용 LLM이 멀티모달 모델보다 우수한 성능을 보였으며, 멀티모달 모델은 장문 번역 시 환각 현상을 보이기도 했다.

•장문 처리 시 지시사항을 무시하거나 일부만 처리하는 문제가 발생한다
•번역 성능에서 텍스트 전용 LLM이 여전히 멀티모달 모델을 앞선다

27:31

실험 결과 분석: 질의응답 및 요약 성능

질의응답(QA)에서 모델들은 이탈리아어 질문에 영어로 답하는 등 출력 언어 오류를 자주 범했다. 또한 불법적인 활동이 아님에도 답변을 거부하는 '거부 편향' 문제도 나타났다. 요약 작업은 모든 모델에게 가장 어려운 과제였으며, 특히 음성 전용 모델들은 요약 지시를 제대로 이행하지 못하고 단순히 전사 결과만 내놓는 경향을 보였다.

•출력 언어 선택 오류와 답변 거부 문제가 빈번하게 발생한다
•요약 작업에서 지시 이행 능력이 가장 크게 떨어진다

31:59

모달리티 통합 및 결론

음성과 영상을 동시에 입력했을 때 오히려 단일 모달리티 입력보다 성능이 떨어지는 경우가 많았다. 이는 현재 모델들이 서로 다른 모달리티의 정보를 효과적으로 융합하지 못하고 있음을 시사한다. MCIF 벤치마크는 이러한 한계를 명확히 드러내며, 향후 진정한 멀티모달 교차 언어 시스템 개발을 위한 기초 자료로 활용될 것이다.

•음성-영상 동시 입력 시 모달리티 간 간섭으로 성능이 저하되기도 한다
•MCIF는 멀티모달 모델의 실제적인 한계를 파악하는 데 유용하다

실무 Takeaway

현재 멀티모달 모델들은 음성과 영상을 동시에 입력받았을 때 단일 입력보다 성능이 떨어지는 모달리티 간섭 현상을 보인다.
장문 영상 처리 시 모델이 지시사항을 무시하거나 일부 내용만 인식하는 과소 생성 문제가 빈번하게 발생한다.
LLM 기반 평가 방식은 멀티모달 환경에서 아직 안정적이지 않으므로 WER, COMET 같은 전통적 지표의 활용이 권장된다.

언급된 리소스

GitHubMCIF Dataset on Hugging Face

GitHubMCIF Evaluation Code on GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 24.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

텍스트, 음성, 비전을 아우르는 범용 지시 이행 모델의 교차 언어 평가 | AI Trends