핵심 요약
기존의 멀티모달 모델은 시각과 언어 등 제한된 조합에 머물러 있었으나, 이 논문은 시각, 청각, 언어를 동시에 이해하고 도구까지 사용하는 진정한 옴니모달 에이전트의 방향성을 제시한다. 특히 복잡한 실세계 데이터를 기반으로 한 벤치마크와 효율적인 학습 기법을 통해 오픈소스 모델의 에이전트 능력을 크게 끌어올렸다.
왜 중요한가
기존의 멀티모달 모델은 시각과 언어 등 제한된 조합에 머물러 있었으나, 이 논문은 시각, 청각, 언어를 동시에 이해하고 도구까지 사용하는 진정한 옴니모달 에이전트의 방향성을 제시한다. 특히 복잡한 실세계 데이터를 기반으로 한 벤치마크와 효율적인 학습 기법을 통해 오픈소스 모델의 에이전트 능력을 크게 끌어올렸다.
핵심 기여
OmniGAIA 벤치마크 구축
비디오, 오디오, 이미지를 아우르는 9개 도메인의 360개 과제를 포함하며, 다단계 추론과 다회차 도구 사용이 필수적인 환경을 제공한다.
이벤트 그래프 기반 데이터 생성 파이프라인
실세계 미디어 데이터에서 엔티티와 사건 간의 관계를 그래프로 구조화하고, 이를 모호화하여 도구 사용 없이는 풀 수 없는 고난도 질문을 자동 생성한다.
능동적 지각을 갖춘 OmniAtlas 에이전트
필요한 시점에 데이터의 특정 구간을 다시 확인하는 Active Perception 기능을 탑재하여 긴 컨텍스트에서도 효율적으로 정보를 수집하는 네이티브 에이전트를 제안한다.
OmniDPO 미세 오류 교정 기법
에이전트의 실행 경로 중 첫 번째 오류 지점을 찾아 정답 궤적으로 교정하는 선호도 학습 방식을 도입하여 추론 및 도구 사용의 정확도를 높였다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 Transformer 아키텍처의 Self-Attention을 통해 입력된 모든 정보를 한꺼번에 처리하려 한다. 하지만 긴 영상이나 복잡한 오디오 데이터는 정보량이 너무 많아 핵심적인 세부 사항이 압축 과정에서 손실되는 한계가 있다. 이는 마치 두꺼운 책을 한 번 훑어보고 모든 질문에 답하려는 것과 같아, 복잡한 다단계 추론에서 성능이 급격히 떨어진다.
이 논문은 모델이 정보를 수동적으로 받아들이는 대신, 필요할 때 도구를 써서 데이터를 다시 들여다보는 '능동적 지각'을 해결책으로 제시한다. 모델은 전체적인 맥락을 먼저 파악한 뒤, 특정 질문에 답하기 위해 영상의 1분 30초 지점을 다시 듣거나 이미지의 오른쪽 하단을 확대해서 보는 식의 행동을 취한다. 이는 Embedding 공간에 모든 정보를 쑤셔 넣는 대신, 도구 사용(Tool Use)이라는 행동을 통해 원본 데이터와 상호작용하는 방식이다.
결과적으로 모델은 '이 영상에 나오는 노래가 삽입된 영화의 주연 배우는 누구인가?'와 같은 복잡한 질문을 받았을 때, 오디오를 분석해 노래를 식별하고, 웹 검색으로 영화를 찾고, 다시 배우 정보를 확인하는 논리적 연결 고리를 스스로 만들어낸다. 이러한 접근은 모델의 파라미터 크기를 키우는 것보다 에이전트로서의 실행 정책을 최적화하는 것이 실질적인 지능 향상에 더 중요하다는 점을 시사한다.
방법론
OmniGAIA 벤치마크는 이벤트 그래프 기반 파이프라인으로 구축된다. 먼저 Gemini-3-Flash를 사용하여 원본 미디어에서 타임스탬프가 포함된 텍스트 신호를 추출한다. 이후 DeepSeek-V3.2를 활용해 추출된 엔티티와 사건 간의 관계를 잇는 초기 이벤트 그래프를 생성한다. [미디어 데이터 → 신호 추출 → 그래프 구조화 → 논리적 연결망 생성] 과정을 통해 데이터의 뼈대를 만든다.
생성된 그래프는 에이전트 기반 확장을 거친다. DeepSeek-V3.2 에이전트가 그래프에 부족한 정보를 식별하고 웹 검색이나 코드 실행 도구를 호출하여 외부 지식을 가져와 그래프에 통합한다. 마지막으로 특정 노드를 모호한 표현으로 바꾸는 '이벤트 모호화(Fuzzification)'를 적용하여, 모델이 반드시 도구를 사용해 구체적인 증거를 찾아야만 답할 수 있는 다단계 QA 쌍을 생성한다.
OmniAtlas 학습을 위해 '사후 가이드 트리 탐색(Hindsight-Guided Tree Exploration)'을 사용한다. 모델이 도구를 사용하는 여러 경로를 탐색하게 하고, 최종 정답에 도달한 성공적인 궤적만 골라 Supervised Fine-tuning(SFT)을 진행한다. 이때 Masked SFT를 적용하여 모델이 생성한 생각과 도구 호출 토큰에 대해서만 손실을 계산한다. [입력 데이터 → 다중 경로 탐색 → 성공 궤적 필터링 → 선택적 가중치 업데이트] 순으로 학습이 이루어진다.
마지막으로 OmniDPO 기법을 적용한다. 실패한 궤적에서 Gemini-3-Flash가 첫 번째 오류 지점을 찾아내고, 해당 지점부터 올바른 행동을 하도록 수정된 접두사(Prefix)를 생성한다. 이를 통해 [실패한 행동 vs 교정된 행동] 쌍을 만들어 DPO 학습을 수행함으로써, 모델이 미세한 판단 오류를 스스로 수정할 수 있도록 최적화한다.
주요 결과
OmniGAIA 벤치마크 실험 결과, 상용 모델인 Gemini-3-Pro가 62.5%의 Pass@1 성적을 거두며 가장 높은 성능을 보였다. 반면 기존 오픈소스 SOTA 모델인 Qwen3-Omni는 13.3%에 그쳐 상용 모델과의 큰 격차를 드러냈다. 이는 단순한 인식 능력을 넘어선 다단계 계획과 도구 사용 능력이 오픈소스 진영의 핵심 병목임을 보여준다.
제안된 OmniAtlas 학습법을 적용했을 때, Qwen3-Omni(30B) 모델의 성능은 13.3%에서 20.8%로 약 7.5%p(상대적 56%) 향상되었다. 특히 도구 사용 실패율이 81.1%에서 59.4%로 크게 낮아졌으며, 추론 오류 또한 79.7%에서 64.4%로 감소했다. 이는 트리 탐색 기반의 데이터 합성과 OmniDPO가 에이전트의 실행 정책을 효과적으로 개선했음을 입증한다.
추가 분석에 따르면, 모델 크기를 560B까지 키운 LongCat-Flash-Omni가 30B 크기의 Qwen3-Omni보다 낮은 성능(11.1%)을 기록했다. 이는 에이전트 성능 향상에 있어 단순한 파라미터 스케일링보다 도구 사용 정책과 능동적 지각 메커니즘의 최적화가 더 결정적인 요인임을 시사한다.
기술 상세
OmniAtlas는 TIR(Tool-Integrated Reasoning) 패러다임을 채택하여 사고 과정(Thought)과 도구 호출(Action)을 자연스럽게 통합한다. 모델은 추론 도중 불확실한 정보가 생기면 스스로 도구 호출 토큰을 생성하고, 외부 시스템으로부터 반환된 관측값(Observation)을 컨텍스트에 추가하여 다음 단계의 추론을 이어간다.
Active Omni-Modal Perception은 read_video(video_id, t_start, t_end)와 같은 도구 인터페이스를 통해 구현된다. 이는 고해상도 미디어 전체를 모델의 입력 토큰으로 넣는 대신, 모델이 필요로 하는 특정 구간만 동적으로 로드하게 함으로써 연산 효율성을 극대화하고 정보 손실을 방지한다. 구현 시에는 LlamaFactory 코드베이스를 기반으로 시각 타워, 멀티모달 프로젝터, 언어 모델 전체를 업데이트하는 전 파라미터 학습 방식을 사용했다.
OmniDPO의 수학적 기반은 기존 DPO 목적 함수를 에이전트 궤적 단위로 확장한 것이다. 실패한 궤적 와 교정된 궤적 에 대해 로그 확률 차이를 최대화하도록 학습한다. 이때 에이전트가 직접 생성한 토큰에 대해서만 마스킹을 적용하여, 외부 도구의 결과값에 모델이 과적합되는 현상을 방지하고 순수한 추론 및 계획 능력만을 강화하도록 설계되었다.
한계점
능동적 지각 도구를 도입했음에도 불구하고, 근본적인 시각/청각 인식 오류율이 여전히 30~50% 수준으로 높게 나타나 지각 능력 자체가 전체 성능의 병목으로 작용한다. 또한 매우 긴 컨텍스트에서의 복잡한 다단계 추론은 여전히 해결해야 할 과제로 남아 있다.
실무 활용
OmniAtlas는 영상, 오디오, 이미지가 복합된 실세계 데이터를 분석하고 외부 도구를 활용해 정보를 검증해야 하는 지능형 비서 서비스에 즉시 활용 가능하다. 특히 긴 영상 콘텐츠에서 특정 정보를 찾아내거나 여러 매체에 흩어진 단서를 조합해야 하는 업무 자동화에 강점이 있다.
- 유튜브 영상 속 배경 음악과 장소를 식별하고 관련 역사적 사실을 조사하여 보고서 작성
- 회의 녹취록(오디오)과 화면 공유 자료(비디오)를 대조하여 언급된 수치의 오류를 웹 검색으로 검증
- CCTV 영상에서 특정 사건의 전후 맥락을 파악하고 차량 번호판 등을 확대 확인하여 사고 경위 분석
- 복잡한 기술 매뉴얼 이미지와 설명 오디오를 바탕으로 실제 장비의 고장 원인을 다단계로 추론
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.