핵심 요약
기존 멀티모달 모델이 의존하던 복잡한 시각 인코더(VAE 등)를 완전히 제거하고 원시 픽셀 데이터를 직접 처리하는 혁신적인 구조를 제안한다. 이를 통해 이미지 이해와 생성 작업 간의 불일치를 해결하고, 미세한 시각적 디테일이 필요한 작업에서 기존 모델을 압축하는 성능을 보여준다.
왜 중요한가
기존 멀티모달 모델이 의존하던 복잡한 시각 인코더(VAE 등)를 완전히 제거하고 원시 픽셀 데이터를 직접 처리하는 혁신적인 구조를 제안한다. 이를 통해 이미지 이해와 생성 작업 간의 불일치를 해결하고, 미세한 시각적 디테일이 필요한 작업에서 기존 모델을 압축하는 성능을 보여준다.
핵심 기여
인코더 없는 통합 아키텍처
VAE나 별도의 시각 인코더 없이 단순한 패치 임베딩 레이어만으로 이미지 입력을 처리하는 Tuna-2 모델을 설계했다.
픽셀 공간 플로우 매칭 도입
잠재 공간이 아닌 픽셀 공간에서 직접 flow matching 기법을 적용하여 고해상도 이미지 생성과 편집 기능을 구현했다.
마스킹 기반 시각 특징 학습
고차원 픽셀 공간에서의 학습 안정성을 위해 이미지 패치의 일부를 가리고 예측하게 하는 마스킹 전략을 도입하여 강건한 표현력을 확보했다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 이미지를 처리할 때 CLIP 같은 시각 인코더를 사용해 특징을 추출하거나, VAE를 통해 작은 크기의 잠재 공간으로 압축한 뒤 학습한다. 하지만 이 과정에서 모델은 원본 이미지의 미세한 픽셀 정보를 잃어버리게 되며, 이해를 위한 표현과 생성을 위한 표현이 서로 달라지는 문제가 발생한다.
Tuna-2는 이러한 중간 단계를 모두 생략하고 이미지를 바둑판 모양의 패치로 나눈 뒤, 각 패치의 픽셀 값을 직접 벡터(Embedding)로 변환하여 Transformer에 입력한다. 이는 텍스트 토큰이 임베딩 레이어를 거쳐 모델에 입력되는 방식과 동일하며, 모델이 이미지의 가장 밑바닥 정보인 픽셀부터 직접 학습할 수 있게 한다.
결과적으로 모델은 인위적인 압축 없이 이미지의 모든 세부 사항을 관찰할 수 있게 된다. 실험 결과, 충분한 양의 데이터를 학습한 Tuna-2는 시각 인코더를 사용한 모델보다 훨씬 정교한 시각적 이해 능력을 갖추게 되었으며, 생성 작업에서도 잠재 공간 기반 모델들과 대등한 품질을 기록했다.
방법론
Tuna-2는 단일 Transformer 디코더 구조를 기반으로 하며, 이미지 패치를 선형 투영(Linear Projection)하여 시각 토큰을 생성한다. [이미지 패치 데이터 → 선형 레이어 연산 → 시각 토큰 벡터] 과정을 통해 별도의 인코더 없이 입력을 구성한다.
이미지 생성을 위해 픽셀 공간 플로우 매칭(Pixel-space Flow Matching)을 사용한다. 소스 이미지 x1과 노이즈 x0 사이를 선형적으로 연결하는 경로 xt = tx1 + (1-t)x0를 설정한다. 모델은 타임스탬프 t와 노이즈가 섞인 이미지 xt를 입력받아 원래의 깨끗한 이미지 xθ를 직접 예측하도록 학습된다.
학습 효율을 높이기 위해 마스킹 기반 학습(Masking-based learning)을 적용한다. 입력 이미지 패치의 일부를 무작위로 가리고, 생성 작업에서는 가려진 부분의 픽셀을 복구하며 이해 작업에서는 가려진 시각 정보만으로 적절한 텍스트 응답을 생성하도록 유도한다. 이는 모델이 픽셀 간의 상관관계를 더 깊이 이해하게 만든다.
관련 Figure

Tuna-2가 VAE와 표현 인코더를 순차적으로 제거하며 구조를 단순화했음에도 불구하고, 여러 벤치마크에서 기존 모델들을 압도하는 성능을 보여줌을 시각화한다.
Tuna, Tuna-R, Tuna-2의 아키텍처 진화 과정과 벤치마크 성능 비교 레이더 차트이다.
주요 결과
Tuna-2는 7B 파라미터 규모에서 OCRBench, MMVP 등 9개의 주요 시각 질의응답(VQA) 벤치마크에서 기존의 인코더 기반 모델인 Tuna 및 타 SOTA 모델들을 능가했다. 특히 미세한 시각적 인지가 필요한 픽셀 중심 벤치마크에서 강력한 성능을 보였다.
이미지 생성 성능 평가인 GenEval과 DPG-Bench에서도 Tuna-2는 VAE를 사용하는 모델들과 대등하거나 더 높은 점수를 기록했다. 특히 이미지 내 객체의 수나 위치를 정확히 표현하는 능력에서 우수한 결과를 나타냈다.
Ablation Study를 통해 마스킹 전략이 성능 향상에 핵심적임을 확인했다. 마스킹을 적용했을 때 OCRBench 점수가 55.4에서 56.8로 상승하는 등 이해와 생성 모든 측면에서 지표가 개선되었다.
관련 Figure

인코더가 없는 픽셀 공간 모델임에도 불구하고 매우 사실적이고 세밀한 텍스트-투-이미지 생성 및 편집이 가능함을 입증한다.
Tuna-2가 생성한 고해상도 이미지와 이미지 편집 결과물 모음이다.

Tuna-2가 다른 모델들에 비해 질문에 해당하는 객체(빛나는 창문, 보라색 물체 등)를 훨씬 더 정확하고 세밀하게 포착하고 있음을 보여준다.
다양한 모델들의 시각적 주의 집중(Attention) 맵 비교 분석이다.
기술 상세
Tuna-2 아키텍처는 Qwen2.5-7B-Instruct를 백본으로 사용하며, 시각 인코더를 제거하고 패치 임베딩 레이어로 대체한 것이 특징이다. 이는 모델이 고정된 해상도나 인코더의 편향(Inductive Bias)에 갇히지 않고 원시 데이터를 직접 처리하게 한다.
생성 손실 함수는 Lflow = Et,c,x1,x0 ||vθ - v||²를 사용한다. 여기서 v는 실제 속도 벡터(x1 - x0)이며, 모델이 예측한 xθ를 속도 vθ로 변환하여 회귀 학습을 수행한다. 이 방식은 픽셀 공간에서의 직접적인 최적화를 가능하게 한다.
학습 파이프라인은 2단계로 구성된다. 1단계에서는 5.5억 개의 이미지-텍스트 쌍을 사용하여 캡셔닝과 이미지 생성을 동시에 학습하는 전체 모델 사전 학습을 진행한다. 2단계에서는 고품질 데이터셋을 사용해 이미지 지시 이행 및 편집 능력을 강화하는 지도 미세 조정(SFT)을 수행한다.
관련 Figure

학습 초기에는 인코더 기반의 Tuna-R이 우세하지만, 데이터 양이 증가함에 따라 인코더가 없는 Tuna-2가 이해 능력에서 역전하고 생성 능력에서 대등해지는 과정을 보여준다.
학습 토큰 수에 따른 Tuna-R과 Tuna-2의 성능 변화 그래프이다.
한계점
인코더 기반 모델에 비해 학습 초기 수렴 속도가 느리다는 단점이 있다. 사전 학습 초기 단계에서는 시각 인코더의 의미론적 사전 지식을 활용하는 Tuna-R 모델이 더 높은 성능을 보였으나, 학습 데이터가 늘어남에 따라 Tuna-2가 이를 추월하는 양상을 보였다.
실무 활용
시각 인코더가 필요 없는 단순한 구조 덕분에 다양한 멀티모달 서비스에 유연하게 적용 가능하며, 특히 고해상도 이미지의 세밀한 분석이 필요한 분야에 적합하다.
- 문서 내 미세한 텍스트나 기호를 인식해야 하는 고성능 OCR 시스템
- 이미지의 특정 부분만 정교하게 수정하는 픽셀 단위 이미지 편집 도구
- 별도의 시각 모델 없이 단일 모델로 구동되는 경량화된 멀티모달 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.