핵심 요약
비디오와 오디오가 결합된 옴니 모달 데이터를 학습시키기 위해 막대한 비용이 드는 수작업 라벨링 대신, 스스로 데이터의 순서를 맞추는 퍼즐 풀기 방식을 제안합니다. 특히 특정 모달리티에만 의존하는 편법 학습을 방지하는 전략을 통해 AI가 시각과 청각 정보를 진정으로 통합하여 이해하도록 돕습니다.
왜 중요한가
비디오와 오디오가 결합된 옴니 모달 데이터를 학습시키기 위해 막대한 비용이 드는 수작업 라벨링 대신, 스스로 데이터의 순서를 맞추는 퍼즐 풀기 방식을 제안합니다. 특히 특정 모달리티에만 의존하는 편법 학습을 방지하는 전략을 통해 AI가 시각과 청각 정보를 진정으로 통합하여 이해하도록 돕습니다.
핵심 기여
OmniJigsaw 자가 지도 학습 프레임워크 제안
별도의 정답 라벨 없이도 비디오와 오디오 클립의 시간적 순서를 재구성하는 프록시 태스크를 통해 옴니 모달 모델의 복합 추론 능력을 강화하는 경량 프레임워크를 구축했다.
이중 모달리티 지름길 현상 발견 및 분석
시각과 청각 정보가 동시에 주어질 때 모델이 더 쉬운 정보 하나에만 의존하여 문제를 해결하려는 현상을 식별하고, 이것이 진정한 교차 모달 학습을 방해함을 입증했다.
세밀한 모달리티 오케스트레이션 전략 도입
샘플 단위 선택(SMS)과 클립 단위 마스킹(CMM) 기법을 도입하여 정보 병목 현상을 의도적으로 생성함으로써 모델이 부족한 단서를 찾기 위해 두 모달리티를 유기적으로 결합하게 유도했다.
2단계 데이터 필터링 파이프라인 구축
신호 기반의 휴리스틱 필터링과 MLLM 기반의 의미론적 스크리닝을 결합하여, 시간적 인과관계가 명확하고 학습 가치가 높은 고품질 퍼즐 데이터를 대규모로 자동 생성하는 체계를 마련했다.
관련 Figure

단순히 정적인 영상이나 무의미한 소음을 제거하는 1단계를 넘어, MLLM이 직접 영상의 인과관계와 논리적 흐름을 평가하여 고품질 학습 데이터만 남기는 과정을 상세히 기술하고 있다.
신호 기반 필터링과 의미론적 스크리닝으로 구성된 2단계 데이터 필터링 파이프라인을 설명한다.
핵심 아이디어 이해하기
기존의 멀티모달 학습은 단순히 여러 데이터를 동시에 보여주는 방식에 그쳐, 모델이 시각 정보만으로도 충분히 답을 낼 수 있다면 오디오 정보는 무시해버리는 '지름길 학습' 문제가 발생한다. 이는 딥러닝의 손실 함수가 가장 적은 노력으로 오차를 줄이려는 특성 때문에 나타나는 현상으로, 결과적으로 두 정보 사이의 깊은 상관관계를 학습하지 못하게 만든다.
OmniJigsaw는 이를 해결하기 위해 '정보 병목' 개념을 도입한다. 비디오 클립들을 무작위로 섞은 뒤 원래 순서를 맞추게 하되, 특정 구간에서는 화면을 가리거나 소리를 없애는 식으로 모델이 가진 단서를 제한한다. 이렇게 하면 모델은 가려진 화면의 내용을 추측하기 위해 소리에 집중하거나, 끊긴 소리의 맥락을 파악하기 위해 화면의 움직임을 더 정밀하게 분석해야만 한다.
결과적으로 모델은 각 모달리티가 가진 고유한 시간적 특징을 더 깊이 파게 되며, 15개의 벤치마크 테스트에서 입증되었듯 단순히 데이터를 많이 보여주는 것보다 이러한 '제약 조건 하의 퍼즐 풀기'가 복합적인 상황 판단 능력을 훨씬 더 효과적으로 향상시킨다.
관련 Figure

JMI는 시각 정보를 무시하고 텍스트(오디오) 단서에만 의존해 틀린 답을 내놓는 반면, CMM은 정보 병목 덕분에 시각과 청각 정보를 모두 정밀하게 분석하여 올바른 논리를 전개함을 확인할 수 있다.
CMM과 JMI 전략 간의 사고 과정(CoT) 비교를 통해 '이중 모달리티 지름길' 현상을 보여준다.
방법론
OmniJigsaw는 입력된 비디오와 오디오 스트림 X=(V, A)를 N개의 겹치지 않는 클립으로 분할한 뒤, 각 클립의 경계에서 5%를 잘라내는 Ttrim 연산을 수행하여 인접 프레임 간의 시각적 연속성만으로 순서를 맞추는 단순 해결을 방지한다. 이후 무작위 순열 π에 따라 클립들을 섞고, 오케스트레이션 함수 Φ를 통해 모달리티 노출 정도를 조절한다.
핵심 전략인 Clip-level Modality Masking(CMM)은 모델이 각 클립의 정보 밀도를 평가하여 시각(V), 청각(A), 또는 전체(VA) 중 어떤 정보를 남길지 결정하는 벡터 m을 생성한다. 선택되지 않은 모달리티는 0(null tensor)으로 치환되어 정보 병목을 형성하며, 모델은 Mθ(Φcmm(S|m); Icmm) 식을 통해 원래의 인덱스 시퀀스 y를 예측하도록 학습된다.
학습 효율을 위해 GRPO(Group Relative Policy Optimization) 알고리즘을 사용하며, 보상 함수 Rtot는 위치 정확도 Rpos와 인접성 정확도 Rcont를 결합하여 설계했다. 특히 완벽하게 순서를 맞췄을 때만 가중치를 주는 정확도 의존적 할인 계수 λ(acc)를 도입하여 모델이 부분적인 정답에 안주하지 않고 완벽한 시간적 재구성을 추구하도록 유도했다.
관련 Figure

입력된 비디오/오디오를 섞은 뒤 JMI, CMM, SMS 세 가지 방식으로 정보를 가공하여 모델이 원래 순서를 맞추게 하는 과정을 시각화했다. 특히 CMM이 클립별로 시각 또는 청각 정보를 선택적으로 가려 정보 병목을 만드는 핵심 원리를 잘 보여준다.
OmniJigsaw의 전체 프레임워크와 세 가지 모달리티 오케스트레이션 전략을 보여주는 다이어그램이다.
주요 결과
Qwen3-Omni-30B 모델을 기반으로 실험한 결과, CMM 전략을 적용했을 때 비디오 추론 벤치마크인 MLVU-Test에서 기존 대비 +4.38, MMAR에서 +2.50의 절대적인 성능 향상을 기록했다. 특히 오디오가 없는 환경에서도 성능이 향상되어, 이 학습 방식이 모델의 근본적인 시간적 인과관계 파악 능력을 강화했음을 보여주었다.
오디오 추론 분야에서도 MMAU-Pro에서 +1.98의 향상을 보였으며, 이는 모델이 소리의 논리적 흐름과 문맥적 일관성을 더 잘 파악하게 되었음을 의미한다. 옴니 모달 협업 추론을 측정하는 OmniVideoBench에서는 +1.70의 점수 상승을 기록하며 시각과 청각 정보를 통합하여 논리적 문제를 해결하는 능력이 유의미하게 개선되었다.
데이터 품질에 대한 절제 실험(Ablation Study)에서는 필터링을 거치지 않은 무작위 데이터를 사용했을 때 성능이 최대 -3.99까지 하락하는 것을 확인하여, 시간적 변화가 뚜렷한 고품질 데이터를 선별하는 2단계 필터링 파이프라인의 중요성을 입증했다.
관련 Figure

CMM 전략이 거의 모든 세부 지표에서 SMS보다 우수한 성능을 보임을 증명하며, 특히 인과관계 추론과 이벤트 정렬 능력에서 큰 폭의 개선이 이루어졌음을 수치로 보여준다.
MLVU, MMAR, Daily-Omni 등 주요 벤치마크의 세부 항목별 성능 향상 폭을 나타낸 차트이다.
기술 상세
OmniJigsaw 아키텍처는 고정된 Vision Tower와 Audio Tower를 사용하며, Router 파라미터 역시 동결하여 연산 효율성을 확보하고 순수하게 추론 정렬(Reasoning Alignment)에 집중한다. 학습은 Volcano Engine Reinforcement Learning(VeRL) 프레임워크 상에서 8개의 NVIDIA H200 GPU 클러스터를 사용하여 수행되었다.
데이터 큐레이션 과정에서 사용된 '의미론적 스크리닝'은 Qwen2.5-VL-7B 모델을 활용하여 영상 내에 명확한 상태 변화(State Transition)와 인과적 흐름이 있는지 Chain-of-Thought(CoT) 방식으로 판단한다. 이를 통해 단순히 화면이 바뀌는 영상이 아니라, 논리적으로 순서를 추론할 수 있는 '풀 수 있는 퍼즐'만을 선별하여 학습 신호의 노이즈를 최소화했다.
보상 설계에서는 반복적인 출력을 방지하기 위한 N-gram 페널티와 구조적 형식을 준수했을 때 부여하는 포맷 보상을 포함하여, 강화학습 과정에서 모델이 안정적으로 사고 과정(Thinking Process)을 생성하도록 설계했다. 이는 모델이 단순히 정답 인덱스만 맞추는 것이 아니라, 왜 그런 순서가 되어야 하는지 논리적으로 설명하는 능력을 함께 배양하게 한다.
한계점
현재 OmniJigsaw는 균일하게 분할된 클립을 사용하고 있어, 가변 길이 클립이나 겹치는 클립과 같은 더 복잡한 퍼즐 구조에 대한 탐구가 부족하다. 또한 데이터 필터링이 오프라인으로 진행되어 학습 단계에 맞춰 퍼즐의 난이도를 조절하는 커리큘럼 학습이 적용되지 않았다는 한계가 있다.
실무 활용
OmniJigsaw는 별도의 수작업 라벨링 없이 대규모 영상 데이터를 활용해 멀티모달 AI의 추론 능력을 강화할 수 있는 실용적인 방법론을 제공한다.
- 대규모 미라벨링 영상 데이터를 활용한 멀티모달 LLM의 사후 학습(Post-training)
- 영상 보안 시스템에서 사건의 전후 맥락을 논리적으로 재구성하는 추론 엔진 고도화
- 교육용 영상 콘텐츠에서 시각적 설명과 음성 설명의 일치 여부를 자동 검수하는 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.