InternVL-U: 이해, 추론, 생성 및 편집을 위한 통합 멀티모달 모델의 대중화

이미지 이해와 생성 사이의 성능 충돌을 해결하여 하나의 가벼운 모델로 정교한 편집과 논리적 추론을 동시에 수행한다. 텍스트 렌더링이나 과학적 도표 생성 등 고도의 지능이 필요한 시각적 작업에서 기존 대형 모델들을 능가하는 효율성을 보여준다.

왜 중요한가

핵심 기여

InternVL-U 아키텍처

InternVL 3.5 MLLM과 전용 MMDiT 기반 생성 헤드를 결합하여 이해와 생성 능력을 단일 프레임워크 내에서 성공적으로 통합했다.

분리된 시각적 표현 전략

이해를 위한 고수준 시맨틱 특징과 생성을 위한 저수준 픽셀 재구성 특징을 독립적으로 운영하여 두 능력 사이의 상충 관계를 해소했다.

추론 중심 데이터 합성 파이프라인

Chain-of-Thought를 활용해 추상적인 사용자 의도를 정교한 시각적 실행 계획으로 변환하는 파이프라인을 구축하여 생성의 정확도를 높였다.

고밀도 시맨틱 작업 특화 성능

텍스트 렌더링, 과학적 추론, 유머 생성 등 복잡한 지능이 필요한 영역의 데이터를 대량 합성하여 실무 활용 능력을 대폭 강화했다.

핵심 아이디어 이해하기

기존 통합 멀티모달 모델은 이미지를 이해하는 능력과 생성하는 능력을 한데 담으려 할 때 성능이 저하되는 문제를 겪었다. 이해에는 추상적인 의미 정보가 중요하지만 생성에는 세밀한 픽셀 정보가 필요하여, 하나의 인코더가 두 가지 상반된 정보를 모두 보존하기 어렵기 때문이다. InternVL-U는 이를 해결하기 위해 시각적 표현을 분리한다. 이해를 위해서는 기존의 강력한 ViT 인코더를 사용하고, 생성을 위해서는 별도의 VAE를 통해 압축된 잠재 공간을 활용한다. 여기에 MMDiT 구조의 생성 헤드를 추가하여 MLLM의 내부 상태를 조건으로 받아 이미지를 생성하도록 설계했다. 또한 사고의 사슬(CoT)을 도입하여 모델이 이미지를 생성하기 전 텍스트로 먼저 계획을 세우게 한다. 이를 통해 '2026년 말띠 해를 주제로 한 그림을 그려줘'와 같은 추상적인 명령을 구체적인 시각적 요소로 분해하여 정확하게 실행하는 지능적인 생성이 가능해졌다.

방법론

InternVL 3.5-2B를 백본으로 하며 1.7B 파라미터의 MMDiT 생성 헤드를 결합한 총 4B 규모의 구조이다. 이해를 위한 ViT와 생성을 위한 VAE를 독립적으로 운영하여 각 작업에 최적화된 입출력을 보장한다. 학습은 3단계 커리큘럼으로 진행된다. 1단계에서는 MLLM을 고정한 채 생성 헤드만 사전 학습하여 정렬을 맞추고, 2단계에서는 해상도 가변 학습을 수행한다. 3단계에서는 전체 모델을 해제하고 CoT 데이터와 함께 미세 조정하여 이해와 생성의 시너지를 극대화한다. 생성 헤드인 MMDiT는 Dual-Stream Attention 구조를 채택한다. 텍스트 토큰과 이미지 잠재 변수를 각각의 스트림으로 처리하면서도 상호 작용을 통해 정렬된 결과를 도출한다. 이때 Gating Mechanism을 적용하여 고해상도 생성 시 발생할 수 있는 Attention Sink 현상을 방지한다. 수식적으로는 Flow Matching Loss를 사용한다. 노이즈 z0와 실제 이미지 z1 사이의 선형 보간 경로 상의 중간 상태 zt와 시간 t, 컨텍스트 c를 입력으로 하여 모델이 예측한 속도 벡터와 실제 목표 속도(z1 - z0) 사이의 평균 제곱 오차를 계산한다. 이 값이 작아질수록 모델은 노이즈를 데이터로 변환하는 최적의 경로를 더 정확하게 학습한다.

주요 결과

GenEval 벤치마크에서 0.85점을 기록하며 14B 규모의 BAGEL(0.82)이나 20B 규모의 Qwen-Image(0.87)와 대등하거나 우수한 성능을 보였다. 특히 단일 객체 및 두 객체 관계 형성 능력에서 높은 정확도를 입증했다. 텍스트 렌더링 성능을 측정하는 LongText-Bench에서 영어 0.738, 중국어 0.860을 기록하여 기존 모델들의 고질적인 문제였던 오타와 레이아웃 붕괴를 획기적으로 개선했다. 이미지 편집 벤치마크인 RISEBench에서 CoT 적용 시 점수가 3.6에서 9.4로 급상승하며, 논리적 추론이 필요한 복잡한 편집 작업에서 독보적인 성능을 나타냈다.

실무 활용

가벼운 4B 파라미터로 고성능 이미지 생성 및 편집이 가능하여 개인용 워크스테이션이나 엣지 디바이스에서도 활용도가 높다. 특히 정확한 텍스트 포함 이미지 생성이나 과학적 도표 편집에 강점이 있다.

광고 포스터 내 텍스트 및 로고의 정교한 수정
과학 논문용 복잡한 다이어그램 및 수식 이미지 생성
사용자 의도를 반영한 고품질 밈(Meme) 제작 및 편집
다국어 지원 UI/UX 디자인 프로토타이핑

기술 상세

아키텍처는 InternVL 3.5-2B 백본, 0.3B ViT 인코더, 1.7B MMDiT 생성 헤드로 구성된다. MLLM의 Hidden State를 생성 헤드의 컨디셔닝 신호로 직접 주입하는 구조를 취한다. 시각적 표현의 비대칭성을 활용한다. 이해 단계에서는 ViT의 시맨틱 토큰을 사용하고, 생성 단계에서는 VAE의 연속적인 잠재 공간을 타겟으로 삼아 Flow Matching 기법으로 학습한다. Flow Matching 프레임워크를 사용하여 가우시안 노이즈에서 데이터 분포로 이동하는 속도 벡터 필드를 회귀한다. 이는 기존 Diffusion 모델보다 학습 효율이 높고 샘플링 품질이 안정적이다. MSRoPE를 도입하여 3D 위치 정보(시간, 높이, 너비)를 인코딩한다. 이를 통해 해상도 확장 시 발생하는 타일링 아티팩트를 억제하고 공간적 추론 능력을 강화했다.

키워드

UMM(통합 멀티모달 모델)MLLM(멀티모달 대형 언어 모델)MMDiT(멀티모달 확산 트랜스포머)CoT(사고의 사슬)Flow Matching(플로우 매칭)

InternVL-U: 이해, 추론, 생성 및 편집을 위한 통합 멀티모달 모델의 대중화

왜 중요한가

핵심 기여

InternVL-U 아키텍처

InternVL 3.5 MLLM과 전용 MMDiT 기반 생성 헤드를 결합하여 이해와 생성 능력을 단일 프레임워크 내에서 성공적으로 통합했다.

분리된 시각적 표현 전략

이해를 위한 고수준 시맨틱 특징과 생성을 위한 저수준 픽셀 재구성 특징을 독립적으로 운영하여 두 능력 사이의 상충 관계를 해소했다.

추론 중심 데이터 합성 파이프라인

Chain-of-Thought를 활용해 추상적인 사용자 의도를 정교한 시각적 실행 계획으로 변환하는 파이프라인을 구축하여 생성의 정확도를 높였다.

고밀도 시맨틱 작업 특화 성능

텍스트 렌더링, 과학적 추론, 유머 생성 등 복잡한 지능이 필요한 영역의 데이터를 대량 합성하여 실무 활용 능력을 대폭 강화했다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

광고 포스터 내 텍스트 및 로고의 정교한 수정
과학 논문용 복잡한 다이어그램 및 수식 이미지 생성
사용자 의도를 반영한 고품질 밈(Meme) 제작 및 편집
다국어 지원 UI/UX 디자인 프로토타이핑

기술 상세

키워드

UMM(통합 멀티모달 모델)MLLM(멀티모달 대형 언어 모델)MMDiT(멀티모달 확산 트랜스포머)CoT(사고의 사슬)Flow Matching(플로우 매칭)

InternVL-U: 이해, 추론, 생성 및 편집을 위한 통합 멀티모달 모델의 대중화

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

InternVL-U: 이해, 추론, 생성 및 편집을 위한 통합 멀티모달 모델의 대중화

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드