핵심 요약
텍스트와 이미지를 동시에 생성하는 통합 멀티모달 모델(UMM)이 실제로는 두 매체 간의 정보를 제대로 통합하지 못하는 '가짜 통합' 상태에 있음을 정보 이론적 관점에서 증명했습니다. 모델 내부의 정보 흐름을 분석하여 텍스트의 창의성과 이미지의 정확성이 충돌하는 원인을 밝혀내고, 진정한 멀티모달 시너지를 위한 설계 방향을 제시합니다.
왜 중요한가
텍스트와 이미지를 동시에 생성하는 통합 멀티모달 모델(UMM)이 실제로는 두 매체 간의 정보를 제대로 통합하지 못하는 '가짜 통합' 상태에 있음을 정보 이론적 관점에서 증명했습니다. 모델 내부의 정보 흐름을 분석하여 텍스트의 창의성과 이미지의 정확성이 충돌하는 원인을 밝혀내고, 진정한 멀티모달 시너지를 위한 설계 방향을 제시합니다.
관련 Figure

14B 규모의 BAGEL은 텍스트로는 국기의 특징을 정확히 설명하지만 이미지 생성에는 실패하는 반면, 1.5B의 Harmon은 두 모달리티가 핵심 개념을 공유하며 올바른 이미지를 생성한다. 이는 모델 규모보다 모달리티 간 정렬이 중요함을 보여준다.
대형 모델(BAGEL)과 소형 모델(Harmon)의 미국 국기 추론 및 이미지 생성 결과 비교
핵심 기여
정보 이론 기반의 2단계 프로빙 프레임워크 제안
UMM의 내부 정보 흐름을 진단하기 위해 입력(프롬프트) 엔트로피와 출력(응답) 조건부 엔트로피를 결합하여 분석하는 프레임워크를 개발했다. 이를 통해 모델이 입력을 인코딩하는 방식과 출력을 생성하는 방식의 일관성을 정량적으로 측정할 수 있다.
가짜 통합(Pseudo-Unification) 현상 규명
10개의 대표적인 UMM을 분석한 결과, 대부분의 모델이 파라미터를 공유함에도 불구하고 텍스트와 이미지 생성 시 서로 다른 정보 패턴을 보이는 '가짜 통합' 상태임을 확인했다. 텍스트는 고엔트로피의 창의적 패턴을 따르는 반면, 이미지는 저엔트로피의 충실도 중심 패턴을 유지한다.
모달리티 비대칭 인코딩 및 패턴 분리 응답 발견
인코딩 단계에서 텍스트와 이미지가 서로 다른 엔트로피 궤적을 그리며, 응답 단계에서는 텍스트의 창의적 논리와 이미지의 결정론적 논리가 분리되는 현상을 발견했다. 이는 모델이 두 모달리티를 하나의 통합된 논리로 처리하지 못하고 있음을 의미한다.
진정한 통합을 위한 문맥적 예측의 중요성 입증
Harmon 모델과 같이 텍스트와 이미지 모두에 문맥적 예측(Contextual Prediction) 메커니즘을 적용한 모델만이 두 모달리티의 엔트로피 수준을 일치시키며 진정한 통합에 가까운 성능을 보임을 확인했다.
핵심 아이디어 이해하기
기존의 통합 멀티모달 모델은 텍스트와 이미지를 동일한 Transformer 아키텍처에서 처리하면 자연스럽게 시너지가 발생할 것으로 기대했다. 하지만 실제로는 텍스트 생성의 핵심인 '다음 토큰 예측'은 문맥적 개연성을 중시하는 고엔트로피 작업인 반면, 이미지 생성은 입력에 대한 정확한 묘사를 중시하는 저엔트로피 작업이라는 본질적 차이가 존재한다.
이 논문은 이러한 차이를 '엔트로피(Entropy)'라는 개념으로 설명한다. 엔트로피는 정보의 불확실성이나 다양성을 의미하는데, 텍스트 생성 시에는 다양한 답변이 가능하도록 엔트로피가 높게 유지되어야 하지만, 이미지 생성 시에는 프롬프트와 일치하는 정확한 결과를 위해 엔트로피가 낮아지는 경향이 있다. 대부분의 모델은 이 두 가지 상충하는 패턴을 하나의 내부 공간에서 조화시키지 못하고 각기 따로 노는 '가짜 통합' 상태에 머물러 있다.
결국 진정한 통합을 위해서는 단순히 파라미터를 공유하는 것을 넘어, 텍스트와 이미지가 동일한 정보 흐름의 논리를 공유해야 한다. 연구팀은 이미지를 텍스트처럼 문맥적으로 예측하도록 학습시킨 모델이 규모가 작더라도 더 뛰어난 멀티모달 추론 능력을 보여준다는 점을 통해, 정보 패턴의 일관성이 모델의 크기보다 더 중요하다는 사실을 입증했다.
방법론
UMM의 내부 상태를 분석하기 위해 명시적인 확률 밀도 함수 없이도 엔트로피를 추정할 수 있는 RKHS(Reproducing Kernel Hilbert Space) 기반의 행렬 렌이 엔트로피(Matrix-based Renyi Entropy) 공식을 재구성하여 적용했다.
임베딩 시퀀스 Z가 주어질 때, 가우시안 커널을 사용하여 Gram 행렬 K를 생성한다. [입력 벡터 간의 거리를 계산하여 지수 함수를 적용] → [K 행렬을 trace 값으로 나누어 정규화된 행렬 A를 생성] → [A의 거듭제곱의 trace 값에 로그를 취해 엔트로피 Hα(K)를 산출] → [이 값은 표현 공간의 등방성과 정보 밀도를 나타낸다].
조건부 엔트로피 프록시를 통해 프롬프트와 응답 간의 의존성을 측정한다. [프롬프트와 응답의 결합 커널 행렬 Kjoint를 구성] → [결합 엔트로피에서 프롬프트 엔트로피를 뺀 값으로 조건부 엔트로피를 정의] → [이 값이 낮으면 입력에 충실한 생성을, 높으면 창의적인 생성을 의미함].
관련 Figure

모델 내부 레이어에서 프롬프트와 응답의 엔트로피를 추출하는 과정을 도식화했다. 오른쪽 그래프는 정보 클러스터의 개수가 많아질수록 행렬 기반 엔트로피 수치가 단조 증가함을 보여주며 측정 방식의 유효성을 입증한다.
정보 이론적 프로빙 프레임워크의 구조와 엔트로피 민감도 검증 그래프
주요 결과
BAGEL(14B)과 같은 대형 모델은 인코딩 초기 단계에서 텍스트 엔트로피가 급격히 감소하는 '엔트로피 붕괴(Entropy Collapse)' 현상을 보였다. 이는 모델이 텍스트의 세부 정보를 과도하게 압축하여 이미지와의 정렬을 시도하지만, 정작 이미지 생성 시에는 텍스트의 논리적 추론 결과를 반영하지 못하는 결과를 초래했다.
반면 1.5B 파라미터의 소형 모델인 Harmon은 텍스트와 이미지 생성 시의 조건부 엔트로피가 레이어가 깊어질수록 유사한 수준으로 수렴하는 '교차 모달 수렴(Cross-modal Convergence)'을 보였다. 실험 결과, Harmon은 미국 국기 관련 추론 작업에서 14B 모델인 BAGEL이 실패한 이미지 생성을 성공적으로 수행하며 더 높은 멀티모달 시너지를 증명했다.
모든 조사 대상 모델에서 프롬프트의 길이는 엔트로피와 양의 상관관계를 가졌으나, 모델의 아키텍처와 규모에 따라 엔트로피의 절대적인 수준과 레이어별 변화 양상은 크게 달랐다. 특히 중간 길이의 프롬프트에서 엔트로피 진동이 가장 크게 나타나 모델 내부의 정렬 모호성을 드러냈다.
관련 Figure

대형 모델들에서 공통적으로 나타나는 초기 레이어의 '엔트로피 붕괴' 현상을 시각화했다. 프롬프트의 논리적 유형과 관계없이 모델의 아키텍처와 규모에 따라 거의 동일한 인코딩 패턴이 나타남을 확인할 수 있다.
다양한 텍스트 프롬프트 유형에 따른 레이어별 엔트로피 변화 궤적

이미지 인코딩 과정에서도 텍스트와 마찬가지로 프롬프트의 의미적 내용보다는 모델 고유의 아키텍처적 특성이 엔트로피 궤적을 결정한다. 텍스트 인코딩 패턴과 비교했을 때 뚜렷한 비대칭성이 관찰된다.
이미지 프롬프트 유형에 따른 레이어별 엔트로피 변화 궤적
기술 상세
본 연구는 UMM의 내부 메커니즘을 '암시적 공동 분포(Implicit Joint Distribution) P(X, Y)' 학습 과정으로 정의한다. 여기서 X는 시각적 입력, Y는 텍스트 입력을 의미하며, 모델의 통합 정도는 이 공동 분포의 내부 일관성에 의해 결정된다.
대부분의 모델이 채택하는 '패턴 분리 응답(Pattern-Split Response)'은 텍스트에는 LLM의 확률적 특성을, 이미지에는 확산 모델(Diffusion)의 결정론적 특성을 그대로 이식한 결과다. 이는 공유 파라미터 내에서 두 가지 상이한 유도 편향(Inductive Bias)이 충돌하게 만든다.
연구팀은 '모달리티 비대칭 인코딩'이 발생하는 원인으로 아키텍처적 사전 지식(Architectural Priors)을 지목했다. 텍스트는 공격적으로 압축되는 반면 시각 정보는 보수적으로 유지되는 경향이 있으며, 이러한 초기 단계의 불일치가 하류 생성 작업에서의 성능 저하로 이어진다.
한계점
본 논문은 엔트로피 변화를 통해 현상을 진단하는 데 집중하고 있으며, 이미 학습된 모델의 엔트로피 패턴을 사후적으로 수정하여 성능을 직접적으로 개선하는 구체적인 방법론은 제시하지 않았다.
실무 활용
멀티모달 모델 개발 시 단순히 모델 크기를 키우는 것보다 텍스트와 이미지 간의 정보 흐름 일관성을 확보하는 것이 성능 향상에 더 효과적임을 시사한다.
- 복잡한 논리적 추론이 필요한 텍스트-투-이미지(T2I) 생성 서비스의 아키텍처 설계
- 멀티모달 모델의 학습 과정에서 두 모달리티 간의 정렬 상태를 실시간으로 모니터링하는 진단 도구
- 저사양 기기에서 효율적인 추론 능력을 갖춘 소형 멀티모달 모델(SMM) 최적화
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.