핵심 요약
기존의 통합 멀티모달 모델은 이해와 생성 기능이 분리되어 서로의 장점을 충분히 활용하지 못하는 한계가 있었다. 이 논문은 모델의 이해 능력을 생성 과정의 직접적인 감독 신호로 전환하여 복잡한 지시문 준수 능력과 이미지 세부 묘사를 획기적으로 개선했다.
왜 중요한가
기존의 통합 멀티모달 모델은 이해와 생성 기능이 분리되어 서로의 장점을 충분히 활용하지 못하는 한계가 있었다. 이 논문은 모델의 이해 능력을 생성 과정의 직접적인 감독 신호로 전환하여 복잡한 지시문 준수 능력과 이미지 세부 묘사를 획기적으로 개선했다.
핵심 기여
UNO(Understanding-Oriented Post-Training) 프레임워크
이해 전문가의 지식을 생성 전문가에게 직접 전달하기 위해 이해 기반의 목적 함수를 추가한 경량 사후 학습 프레임워크이다.
이중 이해 감독 메커니즘
고수준의 의미론적 추상화를 위한 언어 감독(Captioning)과 저수준의 구조적 세부 사항을 위한 시각적 회귀(Visual Regression)를 결합하여 생성 표현을 정교화했다.
의미론적 증강 및 마스킹 전략
학습 시 조건부 프롬프트를 마스킹하고 재캡셔닝된 텍스트를 사용하여 모델이 단순 복사가 아닌 실제 의미 추출을 수행하도록 유도했다.
핵심 아이디어 이해하기
최근의 통합 멀티모달 모델은 이해(Understanding)와 생성(Generation)을 별도의 전문가 블록으로 분리하여 최적화 충돌을 피한다. 하지만 이 방식은 이해 전문가가 가진 풍부한 시각적 지식이 생성 과정에 직접 기여하지 못하고 단순히 조건부 입력으로만 쓰이는 한계를 만든다. 마치 뛰어난 화가가 그림을 그릴 때 자신의 시각적 이해력을 쓰지 않고 타인의 설명에만 의존하는 것과 같다.
UNO는 생성 과정에서 발생하는 중간 단계의 노이즈 섞인 표현을 이해 전문가에게 다시 입력으로 제공한다. 이해 전문가는 이 불완전한 데이터를 바탕으로 원래의 의미(캡션)를 복원하거나 시각적 특징을 찾아내도록 강제된다. 이 과정에서 발생하는 오차 정보가 역전파를 통해 생성 전문가에게 전달되면서, 생성 전문가는 단순한 픽셀 배치가 아니라 이해 전문가가 인정할 수 있는 '의미 있는 구조'를 만들도록 학습된다.
결과적으로 생성 모델은 초기 노이즈 단계에서도 더 명확한 의미적 구조를 형성하게 되며, 이는 복잡한 지시 사항을 정확히 반영하고 이미지의 세부적인 질감을 살리는 결과로 이어진다.
방법론
UNO는 기존 통합 모델의 가중치를 고정한 상태에서 생성 경로에 두 가지 보조 손실 함수를 추가하여 학습한다. 첫 번째는 언어 감독 손실(L_language)로, 노이즈가 섞인 생성 표현(V_gen)을 입력받아 텍스트 토큰(z)을 예측하는 확률 p(z|V_gen)의 로그 우도를 최대화한다. 이는 모델이 시각적 데이터에서 핵심 의미를 추출하도록 강제한다.
두 번째는 시각적 이해 감독 손실(L_vision)이다. MetaQuery 프레임워크를 활용하여 학습 가능한 쿼리 토큰을 이해 전문가에 삽입하고, 출력된 상태(h)와 원본 이미지의 특징 벡터(v) 사이의 코사인 유사도를 계산한다. [쿼리 토큰과 생성 표현 입력 → 이해 전문가 연산 → 특징 벡터 출력 → 원본 특징과의 유사도 계산] 과정을 통해 2D 공간 구조와 세부 질감 정보를 생성 모델에 주입한다.
최종 학습은 기존의 Flow-matching 손실(L_mse)에 두 보조 손실을 가중치(λ1, λ2)와 함께 더한 통합 손실 함수(L_total)를 사용한다. 데이터 효율성을 위해 모든 감독 신호를 단일 시퀀스로 결합하는 데이터 패킹 전략과 정보 누출을 방지하는 특수 어텐션 마스크를 적용했다.
관련 Figure

기존 방식(a)은 이해에서 생성으로의 단방향 정보 흐름만 존재하지만, UNO(b)는 생성된 표현이 다시 이해 전문가를 거쳐 감독 신호를 받음으로써 양방향 시너지를 창출한다. 이를 통해 생성 블록이 이해 경로로부터 직접적인 그래디언트를 전달받아 의미적으로 더 정확한 이미지를 생성하게 된다.
UNO의 학습 과정과 그래디언트 흐름을 나타낸 개념도
주요 결과
BAGEL-7B 모델에 UNO를 적용한 결과, 이미지 생성 벤치마크인 GenEval2에서 기존 71.7점에서 75.1점으로, DPG-Bench에서 84.03점에서 86.12점으로 성능이 향상됐다. 특히 복잡한 속성 결합이나 관계 묘사 능력을 측정하는 UniGenBench++에서 61.53점에서 65.03점으로 큰 폭의 개선을 보였다.
이미지 편집 작업에서도 GEdit-Bench-EN 기준 6.52점에서 7.17점으로 성적이 올랐으며, 학습에 사용되지 않은 중국어 데이터셋(GEdit-Bench-CN)에서도 6.50점에서 7.20점으로 성능이 전이되는 강건함을 입증했다. 시각화 분석 결과, UNO는 노이즈가 많은 초기 단계에서도 BAGEL 대비 훨씬 명확한 물체 형태와 배경 구조를 형성하는 것으로 확인됐다.
관련 Figure

노이즈가 많은 초기 단계에서 BAGEL은 구조가 불분명하고 노이즈가 심하지만, UNO는 물체의 윤곽과 의미적 구조를 훨씬 더 명확하게 유지하고 있음을 보여준다. 이는 이해 감독 신호가 생성 모델의 표현 공간을 더 견고하게 조직화했음을 증명한다.
노이즈 단계에서의 잠재 특징 시각화 비교
기술 상세
UNO는 이해 전문가(Understanding Expert)를 동결(Frozen)시킨 상태에서 생성 전문가(Generation Expert)의 표현 공간을 정렬한다. 이는 이해 전문가의 기존 지식을 보존하면서 생성 능력을 개선하기 위한 전략이다. 언어 감독 시에는 프롬프트와 동일한 텍스트를 사용할 경우 발생하는 정보 누출(Information Leakage)을 막기 위해, 별도의 캡셔닝 모델로 생성한 의미는 같지만 표현이 다른 텍스트를 타겟으로 사용한다.
아키텍처 측면에서는 이해 전문가와 생성 전문가가 멀티모달 어텐션 층을 공유하는 구조를 활용한다. 시각적 회귀를 위해 256개의 MetaQuery 토큰을 사용하며, 이는 224x224 해상도의 시각적 세부 사항을 캡처하기에 충분한 수치임이 실험적으로 증명됐다. 또한 Gradient Cosine Similarity 분석을 통해 이해 목적 함수와 생성 목적 함수의 그래디언트가 대부분의 레이어에서 직교하거나 양의 상관관계를 가짐을 확인하여 최적화 충돌이 없음을 이론적으로 뒷받침했다.
한계점
UNO는 수직적 도메인(예: 전문 지식 검색)에 특화된 데이터를 활용하지 않는 범용 프레임워크이므로, 지식 집약적인 특정 작업에서는 여전히 한계가 있을 수 있다. 또한 이해 전문가를 동결하고 사후 학습을 진행하므로, 이해 전문가 자체의 성능이 생성 품질의 상한선을 결정하게 된다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.