핵심 요약
최근 시각과 언어를 동시에 다루는 통합 멀티모달 모델(UMM)이 급증하고 있지만, 서로 다른 구조와 평가 방식 때문에 객관적인 비교가 어려웠다. TorchUMM은 14종 이상의 최신 모델과 12개의 벤치마크를 하나의 표준 인터페이스로 통합하여, 모델 간의 성능 트레이드오프를 정밀하게 분석하고 효율적인 사후 학습을 가능하게 한다.
왜 중요한가
최근 시각과 언어를 동시에 다루는 통합 멀티모달 모델(UMM)이 급증하고 있지만, 서로 다른 구조와 평가 방식 때문에 객관적인 비교가 어려웠다. TorchUMM은 14종 이상의 최신 모델과 12개의 벤치마크를 하나의 표준 인터페이스로 통합하여, 모델 간의 성능 트레이드오프를 정밀하게 분석하고 효율적인 사후 학습을 가능하게 한다.
핵심 기여
최초의 통합 UMM 툴킷 구축
다양한 UMM 아키텍처, 작업, 데이터셋을 아우르는 표준화된 인터페이스와 평가 프로토콜을 제공하여 이질적인 모델 간의 공정한 비교를 가능하게 했다.
포괄적인 3대 핵심 작업 지원
멀티모달 이해(Understanding), 생성(Generation), 편집(Editing)이라는 세 가지 핵심 차원을 모두 지원하며, 이를 위한 12개의 대표 벤치마크를 통합했다.
5가지 주요 사후 학습 기법 통합
SFT, RecA, UniCot, IRG, UniGame 등 최신 사후 학습(Post-training) 방법론을 모듈화하여 제공함으로써 사용자가 쉽게 모델 성능을 개선하고 실험할 수 있도록 설계했다.
모델 성능 간의 트레이드오프 발견
대규모 실험을 통해 특정 모델이 생성 능력은 뛰어나지만 이해 능력이 부족하거나, 사후 학습 시 한 쪽 성능이 오르면 다른 쪽이 떨어지는 성능 불균형 현상을 수치로 입증했다.
핵심 아이디어 이해하기
기존의 딥러닝 모델들은 텍스트는 Transformer로, 이미지는 Diffusion이나 CNN으로 따로 처리하는 경향이 있었다. 하지만 최근의 통합 멀티모달 모델(UMM)은 모든 데이터를 동일한 임베딩 공간(Embedding Space)에 투영하여 하나의 신경망으로 처리하려 한다. 이 과정에서 모델이 시각 정보를 텍스트처럼 순차적으로 예측(Autoregressive)할지, 아니면 노이즈를 제거하며 생성(Diffusion)할지에 따라 아키텍처가 파편화되어 성능 측정이 매우 복잡해졌다.
TorchUMM은 이러한 구조적 차이를 '어댑터(Adapter)' 개념으로 해결한다. 각 모델의 고유한 토큰화 방식이나 추론 로직을 표준화된 인터페이스 뒤로 숨기고, 입력 데이터와 출력 형식을 통일했다. 이를 통해 연구자는 모델 내부 구조에 상관없이 동일한 데이터셋으로 성능을 측정할 수 있다.
결과적으로 TorchUMM은 모델이 시각적 특징을 단순 인식하는 수준을 넘어, 논리적 추론을 거쳐 이미지를 생성하거나 수정하는 복합적인 능력을 갖췄는지 정밀하게 진단한다. 이는 단순히 점수를 매기는 것을 넘어, 모델의 가중치가 학습 과정에서 어떻게 변화하고 특정 작업에 편향되는지를 시각화하여 보여준다.
방법론
TorchUMM은 네 가지 계층 구조로 설계되었다. (1) 인프라 계층은 분산 학습 및 공통 함수를 담당하고, (2) 핵심 기능 계층은 UMM 모델, 데이터셋, 사후 학습 메서드를 포함한다. (3) 실행 계층은 이해, 생성, 편집 파이프라인을 운영하며, (4) 애플리케이션 계층은 YAML 기반 설정과 CLI/API 인터페이스를 제공한다.
모델 통합을 위해 BackboneAdapter 프로토콜을 사용한다. [모델 설정값 입력 → load() 함수 실행 → 가중치 로드 및 장치 할당] 과정을 거쳐 모델을 준비하고, [배치 데이터 입력 → generate() 함수 실행 → 결과 반환] 순으로 추론을 수행한다. 이 추상화 덕분에 새로운 모델 추가 시 인프라 코드를 수정할 필요가 없다.
사후 학습은 모듈형으로 구성되어 SFT(지도 미세 조정)부터 UniGame(자기 대전 학습)까지 지원한다. 각 학습 기법은 [훈련 데이터와 모델 입력 → 손실 함수(Loss Function) 계산 → 가중치 업데이트]의 표준 루프를 따르며, 학습 직후 동일한 설정 파일로 즉시 벤치마크 평가를 수행하여 성능 변화를 실시간으로 추적할 수 있다.
관련 Figure

인프라부터 애플리케이션까지의 계층적 설계를 통해 다양한 UMM 모델을 표준화된 인터페이스로 통합하는 방식을 설명한다. 특히 Autoregressive와 Diffusion 기반 모델들이 어떻게 하나의 툴킷 내에서 관리되는지 보여준다.
TorchUMM의 4개 계층 구조와 지원 모델, 데이터셋, 학습 방법론을 보여주는 아키텍처 개요도이다.
주요 결과
텍스트-이미지 생성 실험에서 DeepGen 모델이 GenEval 벤치마크 86.59점을 기록하며 가장 우수한 구성 능력을 보였다. 반면 이해 능력 평가에서는 Bagel(14B) 모델이 MME 인식 점수 1691.5점, 인지 점수 695.4점으로 압도적인 성능을 기록했다. 이는 생성에 최적화된 모델과 이해에 최적화된 모델 사이에 뚜렷한 성능 차이가 존재함을 시사한다.
사후 학습 분석 결과, 단순한 SFT(지도 미세 조정)는 특정 지표를 개선할 수 있지만 다른 지표의 성능 저하를 유발하는 경우가 많았다. 예를 들어 Bagel 모델에 SFT를 적용했을 때 MMMU 점수는 0.519에서 0.526으로 올랐으나, MMBench 점수는 0.843에서 0.820으로 하락했다. 이는 통합 모델에서 여러 능력을 동시에 유지하며 학습시키는 것이 매우 어려운 과제임을 보여준다.
이미지 편집 작업에서는 Emu3.5가 GEdit-EN 7.56점을 기록하며 가장 강력한 성능을 보였다. 특히 멀티턴(Multi-turn) 편집 상황에서 다른 모델들보다 일관성 있는 수정 능력을 보여주었으며, 이는 모델의 상태 추적(State Tracking) 능력이 실무 활용의 핵심 차별점임을 입증했다.
관련 Figure

통합 정도가 낮은 OmniGen2가 단계별 지시를 가장 정확하게 수행하는 반면, 통합도가 높은 MMaDA는 구조적 조직화에 실패하는 모습을 통해 '아키텍처 통합도가 반드시 성능 향상으로 이어지지는 않는다'는 논문의 핵심 분석을 뒷받침한다.
OmniGen2, Show-o2, MMaDA 모델이 '강아지 그리기 튜토리얼' 지시어를 수행한 결과를 비교한 이미지이다.
기술 상세
TorchUMM은 아키텍처적으로 자기회귀(AR), AR+Diffusion, 순수 Diffusion 모델을 모두 수용한다. 특히 MMaDA와 같이 모든 모달리티를 단일 토큰 시퀀스로 처리하는 '강결합' 모델부터, OmniGen2처럼 VLM이 별도의 시각 생성기를 제어하는 '약결합' 모델까지 비교 분석할 수 있는 환경을 제공한다.
연구를 위해 'Backbone Drift' 분석 기능을 도입했다. 이는 통합 학습 과정에서 모델의 원래 언어/시각 능력이 얼마나 보존되는지 코사인 유사도(Cosine Similarity)를 통해 측정한다. [동일 의미의 변형 질의 입력 → 모델 출력 임베딩 추출 → 초기 모델과의 유사도 계산] 과정을 통해 학습 안정성을 진단한다.
구현 측면에서는 vLLM 엔진을 통합하여 추론 효율성을 높였으며, YAML 설정을 통해 코드 수정 없이 모델, 데이터셋, 학습 파라미터를 조합할 수 있는 유연성을 확보했다. 이는 대규모 모델 실험 시 재현성(Reproducibility)을 보장하는 핵심 요소이다.
관련 Figure

모델이 학습 과정에서 원래의 지식을 얼마나 유지하는지(Backbone Drift)를 수치화하여 보여준다. 유사도 분포가 좁고 높을수록 모델이 프롬프트 변화에도 일관된 성능을 유지함을 의미한다.
질의 변형에 따른 모델 출력의 코사인 유사도 분포를 나타내는 밀도 그래프이다.
한계점
현재의 UMM 아키텍처들은 표현 계층에서는 모달리티를 통합하지만, 명시적인 상태 추적(State Tracking)이나 중간 추론 메커니즘이 부족하여 복잡한 단계별 조작 작업에서 한계를 보인다. 특히 미로 찾기나 퍼즐 풀기처럼 정밀한 공간 조작과 논리적 전이가 필요한 작업에서 성능이 급격히 저하되는 현상이 관찰되었다.
실무 활용
멀티모달 AI 서비스를 개발하는 엔지니어나 연구자가 최신 모델의 성능을 객관적으로 검증하고 자신의 데이터로 미세 조정하는 데 즉시 활용 가능하다.
- 최신 오픈소스 UMM(Janus, Emu3, OmniGen2 등)의 성능을 표준 벤치마크로 벤치마킹
- 특정 도메인 데이터셋을 활용하여 멀티모달 모델의 지시어 이행 능력(Instruction Following) 강화
- 이미지 편집 및 생성 파이프라인에서 모델 간의 결과물 품질 및 일관성 비교 분석
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
class BackboneAdapter(Protocol):
name: str
def load(self, cfg: dict) -> None: ...
def generate(self, batch: dict, gen_cfg: dict) -> Any: ...TorchUMM에서 새로운 모델을 통합하기 위해 반드시 구현해야 하는 최소 인터페이스인 BackboneAdapter 프로토콜 정의
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.