왜 중요한가
이미지 이해와 생성은 서로 상충하는 시각 정보를 필요로 하여 하나의 모델로 통합하기 어렵다. CHEERS는 고주파 세부 정보와 저주파 의미 정보를 분리 처리하는 구조를 통해, 적은 비용으로도 두 작업 모두에서 뛰어난 성능을 내는 효율적인 통합 모델을 제시한다.
핵심 기여
패치 세부 사항과 시맨틱 표현의 명시적 분리
이미지의 고주파 세부 정보(Patch details)와 저주파 의미 정보(Semantic representations)를 분리하여 모델링함으로써 이해와 생성 작업 간의 최적화 충돌을 완화했다.
4배 압축 효율을 가진 통합 비전 토크나이저
VAE 잠재 공간에서 SigLIP2-ViT를 사용하여 의미론적 특징을 추출하고 Pixel-unshuffle을 통해 토큰 수를 4배 압축하여 LLM의 연산 효율성을 극대화했다.
계단식 플로우 매칭(Cascaded Flow Matching) 헤드
저해상도에서 전체적인 의미 구조를 먼저 생성한 뒤, 게이팅 메커니즘을 통해 세부 잔차(Detail residuals)를 주입하여 고해상도 이미지를 완성하는 2단계 생성 방식을 도입했다.
효율적인 4단계 점진적 학습 파이프라인
비전-언어 정렬부터 정제된 사전 학습까지 4단계 파이프라인을 구축하여, 기존 모델 대비 20%의 훈련 비용만으로도 GenEval 및 MMBench에서 우수한 성적을 거두었다.
핵심 아이디어 이해하기
기존 멀티모달 모델은 이미지를 이해할 때 추상적인 의미(Semantic)에 집중하고, 이미지를 생성할 때는 픽셀 단위의 세부 정보(Detail)에 집중해야 하는 모순에 직면한다. Transformer 기반 모델에서 이 두 정보를 하나의 토큰 공간에 억지로 밀어 넣으면, 이해 성능이 떨어지거나 생성된 이미지의 화질이 저하되는 최적화 충돌이 발생한다.
CHEERS는 이 문제를 해결하기 위해 '스케치 후 채색'하는 인간의 방식에서 영감을 얻어 정보를 분리한다. 먼저 VAE와 SigLIP2를 결합한 토크나이저를 통해 이미지의 뼈대인 의미 정보만 LLM에 전달한다. 이때 Pixel-unshuffle 기법을 적용해 토큰 길이를 4분의 1로 줄여 연산 부담을 획기적으로 낮춘다.
생성 단계에서는 계단식 플로우 매칭(Cascaded Flow Matching) 기술을 사용한다. LLM이 생성한 대략적인 레이아웃 위에, 토크나이저가 따로 보관해둔 고주파 세부 잔차를 '게이팅(Gating)' 메커니즘으로 적재적소에 주입한다. 이를 통해 의미론적 일관성을 유지하면서도 픽셀 단위의 정교한 묘사가 가능해진다.
방법론
전체 아키텍처는 통합 비전 토크나이저, LLM 기반 Transformer 백본(Qwen2.5-1.5B), 계단식 플로우 매칭 헤드로 구성된다. 입력 이미지는 VAE 인코더를 거쳐 잠재 상태 z1로 변환되며, 이를 다시 VAE 디코더로 복원한 후 SigLIP2-ViT 인코더에 입력하여 의미 토큰을 추출한다.
토큰 압축을 위해 Pixel-unshuffle 모듈을 도입했다. [H, W, C] 형태의 텐서를 [H/2, W/2, 4C]로 재배열한 뒤 선형 투영을 거쳐 LLM의 히든 사이즈에 맞춘다. 이 과정에서 공간 해상도는 절반으로 줄어들지만 채널 정보는 보존되어 4배의 토큰 압축률을 달성한다.
이미지 생성은 플로우 매칭(Flow Matching) 프레임워크를 따른다. 가우시안 노이즈 z0에서 타겟 z1로 가는 속도장 Vt를 예측하며, zt = t*z1 + (1-t)*z0 수식을 통해 보간된 상태를 입력으로 받는다. 1단계에서 저해상도 의미를 생성하고, 2단계에서 Z's = G(Z's) ⊙ S(D(zt)) + Z's 연산을 수행한다. [현재 생성 중인 특징 맵 Z's와 VAE 디코더에서 추출한 세부 정보 S(D(zt))를 입력으로] → [게이팅 네트워크 G가 계산한 가중치를 세부 정보에 곱한 뒤 기존 특징 맵에 더하는 연산을 수행해] → [세부 묘사가 보강된 새로운 특징 맵을 얻고] → [이 값은 최종 이미지의 질감과 선명도를 결정한다.]
주요 결과
멀티모달 이해 벤치마크인 SEEDBench(71.7), MMBench(70.4), ChartQA(75.7) 등에서 Janus-Pro-1.5B 및 Tar-1.5B와 대등하거나 우수한 성능을 기록했다. 특히 OCR 관련 벤치마크인 OCRBench(58.4)에서 픽셀 복원 기반 토크나이징의 효과로 높은 정확도를 보였다.
이미지 생성 성능을 측정하는 GenEval에서 종합 점수 0.78을 기록하여 SDXL(0.55) 및 DALL-E 3(0.67)를 상회했다. DPG-Bench에서도 83.48점을 기록하며 텍스트 지시문 준수 능력을 입증했다.
효율성 측면에서 Tar-1.5B 모델 대비 단 20%의 훈련 데이터(83M 샘플)만 사용하고도 더 높은 성능을 달성했다. 이는 4배 토큰 압축과 고주파 정보 분리 모델링이 학습 효율을 극대화했음을 시사한다.
실무 활용
적은 연산 자원으로도 고성능 멀티모달 이해와 생성이 가능하여, 온디바이스 AI나 실시간 이미지 편집 서비스에 적합하다.
- 저사양 기기에서의 고해상도 이미지 이해 및 질의응답 서비스
- 텍스트 지시 기반의 정교한 이미지 편집 및 스타일 변환 도구
- 문서 및 차트 이미지를 분석하여 텍스트로 요약하는 고성능 OCR 시스템
기술 상세
CHEERS는 시각적 이해를 위한 AR 디코딩과 생성을 위한 플로우 매칭 디코딩을 단일 LLM 백본 내에서 통합한다. 이해 작업 시에는 양방향 어텐션(Bidirectional Attention)을 시각 토큰에 적용하여 전역 문맥을 파악하고, 텍스트 생성 시에는 인과적 마스크(Causal Mask)를 사용한다.
핵심 차별점은 고주파 주입(High-Frequency Injection, HFI) 메커니즘이다. CFM 헤드는 7개와 3개의 DiT 블록으로 구성된 2단계 구조를 가지며, 1단계 출력에 PixelShuffle을 적용해 해상도를 높인 뒤 VAE 디코더에서 추출한 패치 세부 정보를 게이팅하여 결합한다. 이는 글로벌 레이아웃 스케치에서 국소적 디테일 정제로 이어지는 인간의 드로잉 과정을 모사한다.
학습은 4단계로 진행된다. 1단계 비전-언어 정렬(4.5M 쌍), 2단계 일반 사전 학습(30M 샘플), 3단계 정제된 사전 학습(33M 샘플), 4단계 지도 미세 조정(3.8M 샘플)을 거치며, 각 단계마다 이해와 생성 데이터의 비율을 조정하여 시너지를 유도한다. 특히 3단계에서는 합성 데이터를 활용해 텍스트-이미지 대응 능력을 급격히 향상시켰다.
한계점
상대적으로 작은 파라미터 규모(1.5B)로 인해 매우 복잡하고 미세한 디테일을 포착하는 데 한계가 있을 수 있다. 또한 대규모 사전 학습된 VLM에서 초기화되지 않아 잠재적인 성능 향상 여지가 남아 있으며, 현재 학습 파이프라인이 단일 이미지 데이터에 의존하고 있어 비디오 등 더 다양한 멀티모달 데이터로의 확장이 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.