핵심 요약
이미지 생성 모델의 효율성을 높이기 위해 토큰 압축률을 극단적으로 높이면 이미지 품질이 급격히 저하되는 '잠재 표현 붕괴' 현상이 발생합니다. 이 논문은 복잡한 구조 변경 없이 토큰 압축 단계를 나누고 자기지도학습을 결합하는 것만으로도 압축 효율과 생성 품질을 동시에 잡을 수 있음을 증명했습니다.
왜 중요한가
이미지 생성 모델의 효율성을 높이기 위해 토큰 압축률을 극단적으로 높이면 이미지 품질이 급격히 저하되는 '잠재 표현 붕괴' 현상이 발생합니다. 이 논문은 복잡한 구조 변경 없이 토큰 압축 단계를 나누고 자기지도학습을 결합하는 것만으로도 압축 효율과 생성 품질을 동시에 잡을 수 있음을 증명했습니다.
핵심 기여
토큰-잠재 공간 압축의 2단계 분해
단일 단계에서 급격하게 일어나는 토큰 압축을 2단계(Staged Token Compression)로 나누어 구조적 정보 손실을 방지하고 토큰 수 확장에 따른 성능 향상을 가능하게 했다.
자기지도학습 기반의 토큰 의미 구조 강화
iBOT 기반의 자기지도학습 목적 함수를 토크나이저 학습에 직접 통합하여, 외부 모델 의존 없이도 생성 모델에 최적화된 의미론적 잠재 표현을 학습하도록 유도했다.
압축 효율과 생성 품질의 트레이드오프 극복
기존 SOTA 모델인 DC-AE 대비 64개 토큰만으로도 더 우수한 생성 성능을 기록했으며, 확산 모델의 수렴 속도를 최대 4.7배 가속화하는 성과를 거두었다.
핵심 아이디어 이해하기
기존의 이미지 토크나이저는 고해상도 이미지를 작은 격자(Patch)로 나누어 임베딩한 뒤, 이를 Transformer 블록을 거쳐 매우 작은 잠재 공간(Latent Space)으로 압축한다. 이때 압축률을 높이기 위해 토큰의 채널 수는 늘리고 공간 해상도는 줄이는데, 이 과정에서 토큰 간의 관계 정보가 소실되는 '잠재 표현 붕괴'가 발생하여 생성된 이미지의 질이 떨어진다.
TC-AE는 이 문제를 '토큰 수 확장'과 '단계적 압축'으로 해결한다. 먼저 Patch Size를 줄여 초기 토큰 수를 대폭 늘려 세부 정보를 확보한다. 그다음, 한 번에 압축하는 대신 Transformer 레이어 중간에 압축 계층을 두어 점진적으로 해상도를 줄인다. 이는 정보가 병목 구간에서 한꺼번에 사라지는 것을 막는 완충 작용을 한다.
결과적으로 모델은 더 많은 시각적 세부 사항을 유지하면서도 계산 효율적인 작은 잠재 공간을 생성할 수 있게 된다. 여기에 자기지도학습을 더해 각 토큰이 이미지의 의미적 특징을 더 잘 담아내도록 함으로써, 생성 모델이 학습하기 훨씬 수월한 '친화적인' 잠재 공간을 제공한다.
관련 Figure

단순히 토큰 수를 늘리면 재구성 품질은 좋아지지만 생성 품질은 오히려 나빠지는 현상을 통해 '잠재 표현 붕괴' 문제를 시각적으로 증명한다.
토큰 수 확장에 따른 재구성 품질(rFID, SSIM)과 생성 품질(gFID, IS)의 변화 그래프
방법론
전체 아키텍처는 Vision Transformer(ViT) 기반의 인코더와 대칭 구조의 디코더로 구성된다. 인코더는 입력 이미지 X를 p x p 크기의 패치로 나누어 N개의 토큰 T를 생성한다. [입력 이미지 HxWx3 → 패치 임베딩 → N x d 크기의 토큰 시퀀스 생성]
핵심인 Staged Token Compression(STC)은 인코더의 12개 레이어를 M개와 (12-M)개로 나눈다. 첫 M개의 레이어는 고해상도 토큰을 처리하고, 중간 압축 계층이 이를 1/4로 줄인 뒤 나머지 레이어가 처리한다. [N개 토큰 → M개 레이어 연산 → 1/4 축소 → 나머지 레이어 연산 → 최종 잠재 표현 z 생성]
학습 시에는 iBOT의 Student-Teacher 구조를 차용하여 자기지도학습 손실 함수(LiBOT)를 추가한다. 이는 마스킹된 이미지 패치를 복구하는 과정과 전체 이미지의 클래스 토큰을 일치시키는 과정을 포함한다. [이미지 증강 및 마스킹 → 패치 단위 예측 및 클래스 토큰 정렬 → 의미론적 구조 강화]
최종 손실 함수 LTC-AE는 픽셀 단위 복원 손실(Lpix), 지각 손실(Lp), 적대적 손실(Lg)에 LiBOT를 가중치 α=0.1로 결합하여 정의된다. [복원 오차 + 의미론적 정렬 오차 → 가중 합산 → 전체 모델 최적화]
관련 Figure

TC-AE가 ViT 인코더 내부에 단계적 압축(Staged Compression) 계층을 도입하여 높은 토큰 해상도와 효율적인 연산량을 동시에 달성함을 보여준다.
기존 CNN 기반, 일반 ViT 기반, 그리고 제안된 TC-AE의 아키텍처 비교 다이어그램
주요 결과
ImageNet-1K 데이터셋 실험 결과, TC-AE는 기존 방식보다 적은 연산량(164 GFLOPs vs DC-AE 607 GFLOPs)으로 더 우수한 성능을 보였다. 특히 64개의 토큰만 사용하는 극한의 압축 환경에서 gFID 점수를 기존 26.44에서 7.16으로 대폭 낮추었다.
확산 모델(DiT) 학습 시 수렴 속도가 비약적으로 향상되었다. 동일한 gFID 수준에 도달하는 데 필요한 학습 반복 횟수가 베이스라인 대비 4.7배 적었으며, Inception Score(IS) 기준으로는 3.5배 빠른 수렴을 기록했다.
Ablation Study를 통해 STC와 SSL의 시너지 효과를 확인했다. STC는 토큰-잠재 공간 간의 정보 보존율(Linear Probing Accuracy)을 0.08에서 0.31로 높였으며, SSL은 재구성 품질을 약간 희생하는 대신 생성 성능(gFID)을 32.92에서 16.39로 크게 개선했다.
관련 Figure

토큰 수 확장(Token Number Scaling)이 파라미터 확장보다 성능 향상에 더 효율적이며, 두 방식을 결합했을 때 최상의 성능(Dual Scaling)이 나옴을 보여준다.
토큰 수 확장과 모델 파라미터 확장의 시너지 효과를 보여주는 그래프
기술 상세
TC-AE는 ViT 기반 토크나이저에서 발생하는 'Aggressive Token-to-Latent Compression' 문제를 최초로 식별하고 이를 구조적으로 해결했다. 기존 연구들이 잠재 공간의 채널 수를 늘리는 데 집중한 것과 달리, 본 연구는 토큰 공간(Token Space)의 해상도 유지와 단계적 축소가 생성 성능에 더 결정적임을 밝혔다.
아키텍처 설계에서 M=6 설정이 재구성 품질과 생성 성능 사이의 최적의 균형점임을 실험적으로 도출했다. 이는 초기 레이어가 충분한 해상도에서 시각적 특징을 추출하고, 후반부 레이어가 압축된 토큰의 의미를 정제하는 역할을 분담하기 때문이다.
자기지도학습(SSL)의 통합 방식 또한 차별화된다. 외부의 거대한 사전학습 모델(DINOv2 등)을 Teacher로 사용하는 대신, 토크나이저 학습 과정에서 자체적인 Student-Teacher 구조를 통해 의미 구조를 형성함으로써 데이터 도메인에 특화된 잠재 공간을 구축할 수 있게 했다.
한계점
SSL을 도입할 경우 이미지의 세부적인 픽셀 복원 품질(rFID, PSNR)이 순수 복원 목적의 모델보다 다소 낮아지는 경향이 있다. 이는 모델이 픽셀 단위의 정확도보다 이미지의 전체적인 의미 구조 학습에 더 많은 용량을 할당하기 때문으로 분석된다.
실무 활용
고해상도 이미지 생성 모델을 운영할 때 발생하는 연산 비용과 학습 시간을 획기적으로 줄일 수 있는 토크나이저 기술이다. 특히 자원이 제한된 환경에서 고성능 생성 AI를 구축하려는 엔지니어에게 유용하다.
- 제한된 GPU 자원 환경에서의 고해상도 이미지 생성 모델 학습 및 서빙
- 실시간 이미지 편집 및 스타일 변환 서비스의 추론 속도 최적화
- 모바일 기기 등 온디바이스 AI를 위한 경량화된 시각적 토크나이저 구현
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.