핵심 요약
기존 멀티모달 모델들이 입력을 단순히 텍스트로 변환하여 처리하던 한계를 넘어, 이미지, 비디오, 3D 기하학 등 다양한 양식을 직접적인 추론 공간으로 활용하는 Context Unrolling 기법을 제시합니다. 이를 통해 모델이 복잡한 공간 관계를 더 정확히 이해하고 고품질의 멀티모달 콘텐츠를 생성할 수 있는 기반을 마련했습니다.
왜 중요한가
기존 멀티모달 모델들이 입력을 단순히 텍스트로 변환하여 처리하던 한계를 넘어, 이미지, 비디오, 3D 기하학 등 다양한 양식을 직접적인 추론 공간으로 활용하는 Context Unrolling 기법을 제시합니다. 이를 통해 모델이 복잡한 공간 관계를 더 정확히 이해하고 고품질의 멀티모달 콘텐츠를 생성할 수 있는 기반을 마련했습니다.
핵심 기여
Context Unrolling 메커니즘 제안
모델이 최종 출력을 내놓기 전에 텍스트, 시각적 토큰, 3D 기하학적 단서 등 다양한 모달리티의 중간 표현을 생성하고 이를 다시 컨텍스트로 활용하여 추론의 정확도를 높이는 기법을 도입했다.
Omni 통합 멀티모달 파운데이션 모델 개발
3B 파라미터 규모의 Mixture-of-Experts 아키텍처를 기반으로 텍스트, 이미지, 비디오, 3D 기하학을 단일 모델 내에서 이해하고 생성하며 편집할 수 있는 통합 프레임워크를 구축했다.
공간 지능 및 3D 이해 능력 강화
카메라 포즈 추정, 깊이 측정, 새로운 시점 합성 등을 추론의 원자적 단위로 통합하여 모델이 3D 공간에 대한 깊이 있는 이해를 바탕으로 답변할 수 있음을 입증했다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 다양한 입력을 받더라도 결국 내부적으로는 텍스트 기반의 Chain-of-Thought에 의존하는 경우가 많았다. 이는 시각적 정보나 3D 공간 정보처럼 텍스트로 표현하기 어려운 복잡한 물리적 관계를 처리할 때 정보의 손실을 초래하며, 결과적으로 공간적 추론 오류나 부정확한 이미지 생성으로 이어진다.
Omni는 이러한 한계를 극복하기 위해 Context Unrolling이라는 개념을 도입한다. 이는 모델이 문제를 해결할 때 단순히 텍스트로만 생각하는 것이 아니라, 필요에 따라 '내부적인 시각적 상상'이나 '기하학적 계산'을 수행하고 그 결과를 다시 자신의 입력 컨텍스트에 추가하는 방식이다. 예를 들어 두 장의 사진 속 물체의 위치 관계를 파악할 때, 모델은 먼저 카메라의 이동 경로를 숫자로 계산하거나 다른 각도에서 본 모습을 미리 그려본 뒤 이를 바탕으로 최종 결론을 내린다.
이 과정은 딥러닝의 Embedding 공간에서 서로 다른 모달리티들이 하나의 공통된 지식 매니폴드로 수렴하게 만든다. 결과적으로 모델은 텍스트라는 좁은 통로에 갇히지 않고, 각 정보에 가장 적합한 모달리티를 선택하여 사고의 과정을 확장함으로써 더 정교하고 일관된 멀티모달 출력을 생성할 수 있게 된다.
관련 Figure

입력된 작업에 따라 모델이 필요한 모달리티 컨텍스트를 선택적으로 활성화하여 공유된 작업 공간에서 추론을 수행함을 보여준다. 이는 논문의 핵심 개념인 Context Unrolling이 어떻게 다양한 데이터 양식을 통합하는지 시각화한다.
Omni 모델이 텍스트, 이미지, 비디오, 3D 기하학 등 다양한 모달리티를 통합하여 처리하는 개념도이다.
방법론
Omni는 BAGEL의 설계 철학을 확장하여 이미지-텍스트 쌍을 넘어 비디오, 3D 기하학, 숨겨진 시각적 표현을 포함하는 광범위한 모달리티 데이터로 사전 학습을 수행한다. 아키텍처는 3B 활성 파라미터를 가진 Mixture-of-Experts 구조를 채택하여 연산 효율성을 확보하면서도 방대한 지식을 수용한다.
추론 과정은 반복적인 컨텍스트 구성 단계로 모델링된다. Ct+1 = Ct ⊕ ϕt(x, Ct) 수식에 따라, 현재 컨텍스트 Ct와 입력 x를 바탕으로 원자적 기능 ϕt(설명하기, 포즈 예측, 시각 토큰 생성 등)를 호출하여 컨텍스트를 확장한다. 여기서 ⊕ 연산은 새로운 정보를 기존 컨텍스트에 결합하여 다음 단계의 계산 조건으로 만드는 과정을 의미한다.
최종 출력 y는 확장된 전체 컨텍스트 CT를 조건으로 하는 ψ(x | CT) 함수를 통해 디코딩된다. 이는 모델이 단순히 입력을 출력으로 매핑하는 것이 아니라, 스스로 유용한 중간 정보를 생성하여 사고의 깊이와 너비를 확장한 뒤 최종 답안을 도출하는 구조적 특징을 가진다.
관련 Figure

캡션이나 시각적 토큰이 추가될수록 깊이 지도가 더 정교해지고 객체 간의 경계가 명확해짐을 확인할 수 있다. 특히 시각적 토큰을 주입했을 때 전역적으로 일관된 깊이 정보가 생성됨을 보여준다.
다양한 컨텍스트 조건에 따른 깊이 추정(Depth Estimation) 결과의 시각적 비교이다.
주요 결과
Omni는 GenEval2 벤치마크에서 54.12점을 기록하며 Qwen-Image(30.67)나 Flux(34.59)와 같은 기존 모델들을 크게 상회하는 이미지 생성 성능을 보였다. 특히 텍스트와 시각적 토큰을 결합한 컨텍스트를 사용할 때 객체 수 세기 및 위치 관계 파악 능력이 비약적으로 향상됨이 확인됐다.
공간 이해 평가인 MMSI-Bench에서는 기본 모델이 27.14점을 기록했으나, 시각적 컨텍스트(새로운 시점 합성)를 추가했을 때 34.17점까지 점수가 상승했다. 이는 모델이 직접 보지 못한 각도를 상상하는 과정이 추론 정확도에 직접적으로 기여함을 보여준다.
3D 기하학 분야에서도 전문 모델인 VGGT와 대등한 수준의 카메라 포즈 추정 성능을 달성했으며, 단안 깊이 추정(Monocular Depth Estimation) 작업에서는 NYU, KITTI 등 5개 표준 데이터셋에서 제로샷 성능으로 기존 SOTA 모델들을 능가하거나 대등한 결과를 기록했다.
관련 Figure

단순 직접 예측이나 텍스트 기반 CoT는 물체의 상대적 위치 파악에 실패하지만, 카메라 포즈나 합성된 시점 이미지를 컨텍스트로 활용하면 정답을 맞히는 과정을 보여준다. 이는 시각적/기하학적 사고 과정의 실질적 효용성을 증명한다.
공간 이해 작업에서 3D 텍스트 및 시각적 컨텍스트 추가에 따른 추론 결과 비교 예시이다.
기술 상세
Omni의 핵심 차별점은 3D 기하학적 정보를 텍스트와 동일한 위상의 '네이티브 모달리티'로 취급한다는 점이다. 이를 위해 카메라 파라미터와 깊이 정보를 특수 토큰화하여 모델이 직접 읽고 쓸 수 있도록 설계했다. 이는 Prior work들이 별도의 어댑터를 사용하거나 텍스트로만 기하 정보를 처리하던 방식과 대조된다.
학습 전략 측면에서는 인터리브(Interleaved) 데이터 패러다임을 활용하여 텍스트와 다양한 시각적 요소가 섞인 데이터를 학습함으로써 모달리티 간의 강력한 정렬을 유도했다. 또한 MoE 구조를 통해 각 모달리티 처리에 특화된 전문가 네트워크가 활성화되도록 유도하여 다중 작업 학습 시 발생할 수 있는 간섭 현상을 최소화했다.
구현 세부사항으로, 모델은 추론 시 'text-think' 모드와 'visual-think' 모드를 선택적으로 호출할 수 있다. 이는 고정된 연산 경로를 따르는 것이 아니라 입력된 문제의 성격에 따라 최적의 사고 경로를 동적으로 구성하는 에이전트적 특성을 내포하고 있다.
한계점
현재 Omni는 480x640 해상도와 최대 12초 분량의 비디오 생성만 지원하며, 이는 최신 전용 비디오 생성 모델들의 성능에 비해 다소 제한적이다. 또한 모델 규모가 커짐에 따라 컨텍스트 언롤링 과정에서 발생할 수 있는 노이즈나 환각(Hallucination) 현상이 추론의 상한선을 제한할 수 있다는 점이 지적되었다.
실무 활용
단일 모델로 이미지/비디오 생성, 편집, 3D 공간 분석이 모두 가능하므로 복잡한 멀티모달 워크플로우를 단순화하는 데 매우 유용하다.
- 텍스트 지시를 통한 정밀한 이미지 및 비디오 편집 서비스
- 로봇 공학 및 자율 주행을 위한 3D 공간 관계 이해 및 깊이 추정
- 시각적 사고 과정(Visual CoT)을 포함하는 고성능 멀티모달 챗봇 개발
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.