TL;DR
통합 멀티모달 모델(UMM)은 이해와 생성을 하나의 아키텍처에서 수행한다. 그러나 두 능력을 효과적으로 조정하는 방법은 아직 충분히 연구되지 않았다. 입력에 따라 최적의Coordination Path가 달라지므로 고정된 협력 패턴은 비효율적이다. UniPath는 Coordination-path 다양성을 활용해 경로를 adaptively 선택·실행하고, 중간 상태를 해석 가능하게 제시한다. 이를 통해 불필요한 토큰을 줄이고, 필요 시에만 심층적 모달 추론을 수행하며, 각 입력에 맞춘 투명한 실행 경로를 제공한다.
왜 중요한가
통합 멀티모달 모델(UMM)은 이해와 생성을 하나의 아키텍처에서 수행한다. 그러나 두 능력을 효과적으로 조정하는 방법은 아직 충분히 연구되지 않았다. 입력에 따라 최적의Coordination Path가 달라지므로 고정된 협력 패턴은 비효율적이다. UniPath는 Coordination-path 다양성을 활용해 경로를 adaptively 선택·실행하고, 중간 상태를 해석 가능하게 제시한다. 이를 통해 불필요한 토큰을 줄이고, 필요 시에만 심층적 모달 추론을 수행하며, 각 입력에 맞춘 투명한 실행 경로를 제공한다.
핵심 기여
Path-based coordination 공간 정의
5개의 기능 역할(U, R, C, H, A)을 중심으로 한 5개 경로 pA, pU, pR, pC, pH를 정의하고, 단순한 실행 인터페이스로 여러 협력 전략을 표현한다.
Role-aligned Trajectories로 실행기 학습
다양한 경로를 따라Intermediate States를 만들 수 있도록 역할 태깅된 텍스트/시각적 스팬으로 학습 데이터를 구성하고, 시각적 Thought를 aligned 비주얼 요약으로 연결한다.
Planner + Query-form Calibration
입력별 경로를 예측하는 플래너를 다중-레이블로 학습하고, 쿼리 형태 버킷 규칙으로 보정하는 경량 파이프라인을 도입해 도메인 편향을 완화한다.
실험적 증거 기반 효율성 향상
MMMU, MMBench EN/CN, MMStar에서 고정 경로 대비 성능 향상을 보였고, GenEval/Wise에서 생성 품질을 유지하며 토큰 비용을 감소시키는 경향이 있다.
핵심 아이디어 이해하기
출발점: 이해와 생성은 하나의 모델에서 공존하지만 서로에게 최적의 신호를 전달하는 협력 경로는 입력에 따라 다르게 나타난다. 기존 방법은 고정된 협력 패턴이나 학습-시간에만 연결된 협력을 사용해 입력 특성에 적응하기 어렵다. 해결 원리: 5개의 기능적 역할(U, R, C, H, A)을 기반으로 한 5개의 대표 경로를 정의하고, 경로-조건부 실행기를 통해 입력에 맞춘 경로를 선택하도록 학습한다. 이를 통해 입력 도메인 간 차이가 큰 상황에서 서로 보완적인 경로가 서로 다른 입력에 더 잘 맞게 작동하도록 한다. 달라지는 점: 단일 고정 패턴이 전제된 시스템에 비해, 경로 다형성은 MMMU군의 다양한 문제에 대해 더 높은 성능 향상을 가능하게 한다. 또한 비주얼 Thought의 정렬된 표기를 통해 중간 추론의 해석 가능성도 높인다.
방법론
- 문제 정의: 입력 x = (q, I)에서 이해(U), 추론(R), 구성(C), 가설(H), 정답(A) 등의 역할로 분류 가능한 경로 p를 정의하고, p를 선택한 후 Eθ가 경로에 따라 추론을 수행한다. 2) Coordination Categorization: 경로 공간 P = {pA, pU, pR, pC, pH}로 Direct Answering, Explicit Understanding, Textual Reasoning, Visual-thought Construction, Hypothesis Exploration의 경로를 정의한다. 3) Planner-Executor Framework: 경로 선택자 Gψ와 경로 조건부 실행기 Eθ로 구성. 역할-정렬된 Trajectories를 사용해 Ltext, Lvis, Llatent로 Executor를 학습하고, Lexec = λtext Ltext + λmse Llatent + λvis Lvis로 최적화한다. 4) Training 세부: S1(Understanding), S2(Visual Thought), S3(Image Answer), S4(Image Answer+Visual)로 구성된 네 단계 LoRA 기반 튜닝 파이프라인으로 학습한다. 각 경로에 대해 Tagged 텍스트 토큰과 Visual/Hypothesis 스팬을 목표로 삼는다. 5) Planner Training & Inference: 다중-레이블 BCE 기반의 경로 예측을 학습하고, 쿼리-폼 버킷 보정으로 경로 선택의 일반화를 돕는다.
관련 Figure

경로 간 비교를 통해 입력별로 Best 경로가 다를 수 있음을 시사한다. oracle 경로가 고정 경로보다 큰 이점을 보이는 현상을 시각적으로 확인할 수 있다.
Figure 1: Coordination-path diversity를 시각적으로 보여주는 다층 heatmap 구간

플래너가 경로를 선택하고 실행자는 선택된 경로에 따라 경로-조건부 추론을 수행하는 흐름을 직관적으로 보여준다. 경로별 중간 상태의 태깅과 시각 Thought의 정렬이 어떻게 연결되는지 확인 가능하다.
Figure 2: Planner-Executor Framework의 학습 및 추론 흐름
주요 결과
주요 벤치마크에서의 성과는 다음과 같다. MMMU에서 +4.3%, MMBench-EN에서 +4.4%, MMStar에서 +7.7%의 상대 증가를 기록했다. MMBench-CN에서 +3.2%, MathVista에서 +0.8%의 증가를 보였다. GenEval에서 BAGEL 대비 +1.5%, WISE에서 +2.8% 향상했다. UnifiedBench에서 이해-생성 일관성 점수도 0.4% 향상되었다. Planner 분석에서 경로 분포는 데이터셋에 따라 다르게 나타났고, pC가 중간 시각적 구성에 강점을 보이는 반면, pA는 주로 단순한 인식 문제에 유리했다. Ablation은 모델 점수와 버킷 규칙 모두가 유의미하나 단독으로는 충분치 않음을 보였고, 쿼리-폼 보정이 일반화에 기여한다는 점을 시사했다. 토큰-정확도 분석에서 적응적 협력이 결국 더 적은 토큰으로 동등하거나 더 높은 정확도를 달성한다는 것을 보여준다. pC/pH의 시각 Thought를 정렬된 텍스트로 유지하는 것이 later reasoning에서의 정보 연계를 유지하는 데 유리하며, Latent feedback이나 Image feedback 대비 정확도가 높다.
기술 상세
전체 아키텍처는 BAGEL 백본에 LoRA 어댑터를 부착하고 gϕ 프로젝션 헤드를 추가하는 방식으로 구성된다. 실행자는 네 가지 스테이지로 학습되며, 각 스테이지는 해당 경로에 맞춘 텍스트/비주얼-생성 신호를 학습한다. Ltext는 경로별 텍스트 토큰의 교차 엔트로피 손실이며, Lvis는 시각적-생각 스팬의 숨겨진 표현 h¯j를 vj로 매핑하는 MSE 손실이다. 이미지 응답이 필요한 경우 Llatent를 추가로 사용한다. 플래너는 5개 경로에 대해 rp ∈ {0,1}로 다중-레이블 예측을 수행하며 BCEWithLogits 손실을 사용한다. 쿼리-폼 버킷 보정은 간단한 표면 구조를 기반으로 한 온-디바이스 조정으로, 각 버킷에 대해 경로-스코어에 Temperature Scaling 및 Bias를 적용한다. 실행과 학습의 손실 가중치는 표 12에 제시된 대로 λtext, λmse, λvis를 사용한다.
한계점
배포 가능한 플래너와 오라클 간의 격차가 크며, 도메인 간 일반화가 어렵다. 파이프라인의 보완 데이터 수집 비용이 높고, 도메인 시차가 큰 경우 버킷-보정 만으로는 충분치 않을 수 있다.
실무 활용
적응적 협력 경로를 통해 입력 특성에 따라 필요한 추론-생성 파이프라인을 선택하고, 계산 비용을 줄이면서 해석 가능한 중간 결과를 제공한다.
- 도메인-다양한 비전-언어 문제에서 입력별 최적 경로를 선택해 추론 비용을 절감
- 실시간 멀티모달 질의 응답 시스템에서 간단한 질문은 Direct Answering으로 연산 절감
- 고려해야 할 중간 추론이 필요한 복잡한 시각-텍스트 문제에서 Visual-thought를 활용한 해석 가능성 제고
- 생성 품질을 유지하면서도 불필요한 토큰 생성을 줄이는 비용 최적화 목표에 적합
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.