TL;DR
프리트레인된 비전 모델을 토크나이저로 재사용하는 대표적 방식에서 주로 마지막 레이어의 특징만을 사용하면 저수준 텍스처나 가장자리가 소실된다. shallow 계층은 이러한 저수준 정보를 더 잘 보존하지만 단일 계층 토크나이저는 이를 잃는다. DRoRAE는 다층의 정보를 토큰마다 적응적으로 융합하고, 생성 안정성을 해치지 않도록 에너지 제약 라우팅과 증가적 보정(Incremental Correction)을 도입한다. 실험에서 ImageNet-256 기준 rFID가 0.57에서 0.29로 감소하고, AutoGuidance를 활용한 gFID는 1.74에서 1.65로 향상되었다. 또한 representation richness가 log-linear로 증가할 때 재구성 품질이 예측 가능하게 개선된다는 점이 관찰되었다.
왜 중요한가
프리트레인된 비전 모델을 토크나이저로 재사용하는 대표적 방식에서 주로 마지막 레이어의 특징만을 사용하면 저수준 텍스처나 가장자리가 소실된다. shallow 계층은 이러한 저수준 정보를 더 잘 보존하지만 단일 계층 토크나이저는 이를 잃는다. DRoRAE는 다층의 정보를 토큰마다 적응적으로 융합하고, 생성 안정성을 해치지 않도록 에너지 제약 라우팅과 증가적 보정(Incremental Correction)을 도입한다. 실험에서 ImageNet-256 기준 rFID가 0.57에서 0.29로 감소하고, AutoGuidance를 활용한 gFID는 1.74에서 1.65로 향상되었다. 또한 representation richness가 log-linear로 증가할 때 재구성 품질이 예측 가능하게 개선된다는 점이 관찰되었다.
핵심 기여
DRoRAE 구성요소
하나의 고정된 백본 encoder(DINOv2)에서 L개의 레이어로부터 다층 토큰 특징(z^(l))을 추출하고, 각 레이어마다 expert 네트워크를 두어 기능을 분리된 채로 처리하는 fusion 모듈 F를 도입한다.
에너지 제약 라우팅
토큰별로 각 레이어에 대한 routing weight wk를 생성하는 라우터를 도입하되 softmax 대신 에너지 제약 정규화를 적용하여 음수 가중치를 허용하고, 활성 억제를 가능하게 한다. z_fuse를 계산하는 식은 가중합의 에너지를 고정화한다.
증분 보정(Incr. Correction)
z_final을 z_base에 β·(z_fuse−z_base) 형태로 더해 업데이트하며, 마지막-layer의 표현 구조를 보존하면서 다층 정보의 보완 정보를 첨가한다.
3단계 학습 전략
Phase 1은 decoder를 학습시키고, Phase 2에서는 backbone과 decoder를 고정한 채 fusion 모듈만 학습, Phase 3에서 decoder를 재조정하여 enriched latent에 적응시키는 decoupled 학습 방식을 제시한다.
성능 및 확장성의 스케일링
표현 풍부도(representation richness)와 재구성 성능의 관계를 분석해, expert capacity와 fused Layer 수의 증가가 로그-선형(log-linear)으로 성능을 향상시킴을 확인한다.
핵심 아이디어 이해하기
출발점: Vision Transformer의 각 계층은 서로 다른 수준의 정보를 포함한다. 최근 연구는 최종Layer의 정보에 의존하는 경향이 있으나, shallow 계층은 텍스처와 경계 정보를 더 잘 보존한다. 해결 원리: per-layer expert를 통해 각 Layer의 정보를 같은 스케일로 투영하고, depth-aware router로 토큰별 가중치를 학습해 다층 정보를 융합한다. incrementally 보정하는 방식으로 z_final을 생성함으로써 last-layer의 분포를 보존하면서도 enriched latent를 얻는다. 달라지는 점: 에너지 제약 라우팅으로 negative weights를 허용하여 불필요한 레이어의 기여를 적극적으로 억제하고, Phase 2의 고정된 decoder 제약하에 fusion 모듈을 학습한 뒤 Phase 3에서 decoder를 재조정해 generation 품질을 유지하면서 reconstruction 품질을 크게 끌어올린다.
관련 Figure

DRoRAE의 핵심 아이디어를 시각적으로 요약하고, 다층 융합이 마지막 층의 한계를 어떻게 극복하는지 직관적으로 보여준다.
Figure 1: Single-Layer bottleneck와 Multi-Layer Fusion의 개념 비교. DRoRAE가 다층 정보를 합쳐 texture를 보존하고 semantics를 보강함.

shallow 계층의 부분적 활성화, deep 계층의 억제, 그리고 L8–L9의 반대 작용으로 보완적 표현 형성이 드러난다.
Figure 7: Routing weight visualization. L1–L12의 가중치 흐름과 z_fuse와 z_base의 코사인 유사도 변화.
방법론
- 구조: E=DINOv2를 frozen backbone으로 두고, z^(l) (l=1..L)과 z_base=LN(z^(L))를 얻는다. 2) 레이어별 expert: hk=ek(z^(k))로 각 layer의 정보를 변환한다. 3) routing: w=R([z^(1),...,z^(L)])를 통해 per-token 라우팅 가중치를 구하고, z_fuse=LNbb( (Σk wk hk) / sqrt(Σk wk^2 + ε) ). 4) 증분 보정: z_final = LNbb(z_base + β·(z_fuse−z_base)). 5) 학습 전략: Phase 1 Decoder 학습, Phase 2 Fusion 모듈 학습(β=0.2), Phase 3 Decoder Fine-tuning. 손실 함수: L_total = L_rec + λp LLPIPS + λg α_adapt LGAN. Phase 2에서 배경과 디코더 고정, Phase 3에서 디코더 재학습.
관련 Figure

다층 Feature의 per-token depth routing과 energy-constrained aggregation의 상호작용을 시각화한다.
Figure 2: Depth-Routed Fusion Module의 구조. Expert들이 Layer별 특징을 처리하고 Router가 가중치를 매긴다.

학습 전략의 분리와 디코더-펼치기의 안정화를 시각적으로 보여준다.
Figure 3: Three-phase decoupled training strategy. Phase 1/Phase 2/Phase 3의 흐름을 개념적으로 제시.

12-layer 전개를 통해 fusion이 실제로 보완적 정보를 생성하는 구조임을 구체적으로 보여준다.
Figure 9: Full 12-layer routing weight visualization. 12개의 Layer routing weight와 z_fuse vs z_base의 관계.
주요 결과
주요 벤치마크: reconstruction에서 rFID가 0.57에서 0.29로 감소하고, PSNR은 18.8→24.32dB, LPIPS는 0.256→0.134, SSIM은 0.483→0.701로 개선되었다. class-conditional generation에서 gFID w/ AG은 1.74→1.65로 개선되었고, IS는 230.6이었다(Phase 3). Phase 2의 gFID는 1.70으로 나타났다. Text-to-image GenEval에서 DRoRAE의 Overall 점수는 0.60으로 RAE의 0.56과 비슷했다. 확장성 분석은 Expert Capacity scaling에서 R^2=0.86의 로그-선형 관계를 보였고, Layer Count Scaling에서 R^2=0.49를 보였다. Unified Scaling Law에서 전체 구성은 학습 가능한 파라미터 수를 축으로 하는 로그-선형 추세를 보였다(R^2=0.59).
관련 Figure

고주파 텍스처 재현이 개선됨을 시각적으로 확인할 수 있는 자료.
Figure 4: 재구성 비교. DRoRAE가 텍스처와 구조를 더 잘 보존하는 예시를 제시.

DRoRAE가 RAE 대비 재구성 및 생성 지표에서 우수함을 수치로 뒷받침한다.
Table 1: Image reconstruction 및 class-conditional generation 성능표. rFID, PSNR, LPIPS, SSIM 등 다수 지표를 제시.
기술 상세
- 전체 아키텍처: frozen backbone E(DINOv2) + fusion module F + Drop-in replacement latent z_final. 2) 핵심 메커니즘: hk=ek(z^(k))로 각 Layer의 특징을 변환하고, w=R([z^(1));...;(z^(L))])로 per-token routing weight를 계산한다. z_fuse=LNbb( (Σk wk hk) / (√(Σk wk^2) + ε) ). 3) 차별점: Softmax 기반의 단일 경합 대신 energy-constrained routing으로 음수 가중치를 허용하고, Incremental correction으로 z_base에 보정만 수행한다. 4) 학습/구현 세부: Phase 1에서 decoder 학습, Phase 2에서 fusion module 학습(β=0.2), Phase 3에서 decoder 재학습. Phase 2 손실은 기존 Phase 1 손실과 동일 하되 GAN warmup를 10k로 축소. Tokenizer의 Latent Configuration: 16×16×768, Expert hidden dim = 12×3072, 총 fusion params ≈29M.
실무 활용
DRoRAE 토크나이저는 frozen encoder의 다층 정보를 활용해 토큰 표현을 확장하므로, 재구성 품질과 생성 품질을 동시에 높이는 토크나이저 설계에 적용 가능하다.
- representation-based image tokenizer의 재구성 품질 향상
- text-to-image 프레임워크에서 richer latent로 생성 품질 개선
- 다층 특징 융합의 확장 가능성 탐색(레이어 수/전문가 차원 증가에 따른 성능 증가 예측 가능)
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.