핵심 요약
인간의 지능은 시각(vision), 오디오(audio), 언어(language)를 아우르는 옴니모달 지각(omni-modal perception)을 복잡한 추론 및 도구 사용과 자연스럽게 결합하여 세상과 상호작용합니다. 그러나 현재의 멀티모달 대형 언어 모델(MLLM)은 주로 이중 모달 상호작용(예: 시각-언어)에 국한되어 있어, 범용 AI 비서에 필요한 통합된 인지 능력이 부족합니다. 이러한 격차를 해소하기 위해, 본 연구에서는 비디오, 오디오, 이미지 모달리티 전반에 걸쳐 심층 추론과 다회차 도구 실행(multi-turn tool execution)을 필요로 하는 과제에서 옴니모달 에이전트를 평가하도록 설계된 포괄적인 벤치마크인 OmniGAIA를 도입합니다. 새로운 옴니모달 이벤트 그래프(omni-modal event graph) 방식을 통해 구축된 OmniGAIA는 교차 모달 추론(cross-modal reasoning)과 외부 도구 통합이 필요한 실제 데이터 유래의 복잡한 다중 홉(multi-hop) 쿼리를 합성합니다. 나아가, 능동적 옴니모달 지각을 갖춘 도구 통합 추론 패러다임 하의 네이티브 옴니모달 파운데이션 에이전트인 OmniAtlas를 제안합니다. 사후 판단 가이드 트리 탐색(hindsight-guided tree exploration) 전략과 미세한 오류 수정을 위한 OmniDPO를 통해 합성된 궤적으로 학습된 OmniAtlas는 기존 오픈소스 모델의 도구 사용 능력을 효과적으로 향상시킵니다. 이 작업은 실제 시나리오를 위한 차세대 네이티브 옴니모달 AI 비서를 향한 진일보를 의미합니다.
핵심 기여
OmniGAIA 벤치마크 구축
비디오, 오디오, 이미지를 통합하여 복잡한 추론과 다회차 도구 사용 능력을 평가하는 최초의 포괄적 옴니모달 에이전트 벤치마크를 제안함.
옴니모달 이벤트 그래프 방법론
실제 데이터를 기반으로 모달리티 간의 논리적 관계를 구조화하여 고난도의 다중 홉 쿼리를 생성하는 새로운 데이터 합성 기법을 도입함.
OmniAtlas 모델 개발
능동적 지각과 도구 통합 추론을 결합한 네이티브 옴니모달 에이전트 아키텍처를 설계하여 범용 인지 능력을 강화함.
사후 판단 가이드 트리 탐색 및 OmniDPO
에이전트의 행동 궤적을 최적화하고 미세한 오류를 교정하기 위한 새로운 학습 전략을 통해 모델의 도구 사용 성능을 극대화함.
방법론
OmniGAIA는 옴니모달 이벤트 그래프를 활용해 비디오, 오디오, 이미지 간의 논리적 연결성을 갖춘 쿼리를 생성한다. OmniAtlas는 능동적 옴니모달 지각(Active Omni-modal Perception)을 통해 필요한 정보를 스스로 탐색하며, 사후 판단 가이드 트리 탐색(Hindsight-guided Tree Exploration)으로 최적의 도구 사용 경로를 학습하고 OmniDPO를 적용해 미세한 실행 오류를 수정한다.
주요 결과
OmniAtlas는 OmniGAIA 벤치마크에서 기존 오픈소스 멀티모달 모델 대비 도구 사용 성공률과 교차 모달 추론 정확도에서 유의미한 성능 향상을 기록했다. 특히 다회차 도구 실행이 필요한 복잡한 시나리오에서 기존 모델들이 실패하는 지점을 효과적으로 극복하며 차세대 AI 비서로서의 가능성을 입증했다.
시사점
시각과 청각을 동시에 이해하고 외부 도구까지 능숙하게 다루는 진정한 의미의 옴니모달 AI 비서 구현이 가능해진다. 복잡한 멀티미디어 환경에서 사용자의 의도를 정확히 파악하고 실행하는 자율 에이전트 개발의 핵심 기반 기술로 활용될 수 있다.
키워드
섹션별 상세
OmniGAIA 벤치마크 구축
옴니모달 이벤트 그래프 방법론
OmniAtlas 모델 개발
사후 판단 가이드 트리 탐색 및 OmniDPO
AI 요약 · 북마크 · 개인 피드 설정 — 무료