마지막 층을 넘어선 다층 표현 융합으로 시각 토크나이저를 고도화하는 DRoRAE

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

프리트레인된 비전 모델을 토크나이저로 재사용하는 대표적 방식에서 주로 마지막 레이어의 특징만을 사용하면 저수준 텍스처나 가장자리가 소실된다. shallow 계층은 이러한 저수준 정보를 더 잘 보존하지만 단일 계층 토크나이저는 이를 잃는다. DRoRAE는 다층의 정보를 토큰마다 적응적으로 융합하고, 생성 안정성을 해치지 않도록 에너지 제약 라우팅과 증가적 보정(Incremental Correction)을 도입한다. 실험에서 ImageNet-256 기준 rFID가 0.57에서 0.29로 감소하고, AutoGuidance를 활용한 gFID는 1.74에서 1.65로 향상되었다. 또한 representation richness가 log-linear로 증가할 때 재구성 품질이 예측 가능하게 개선된다는 점이 관찰되었다.

왜 중요한가

프리트레인된 비전 모델을 토크나이저로 재사용하는 대표적 방식에서 주로 마지막 레이어의 특징만을 사용하면 저수준 텍스처나 가장자리가 소실된다. shallow 계층은 이러한 저수준 정보를 더 잘 보존하지만 단일 계층 토크나이저는 이를 잃는다. DRoRAE는 다층의 정보를 토큰마다 적응적으로 융합하고, 생성 안정성을 해치지 않도록 에너지 제약 라우팅과 증가적 보정(Incremental Correction)을 도입한다. 실험에서 ImageNet-256 기준 rFID가 0.57에서 0.29로 감소하고, AutoGuidance를 활용한 gFID는 1.74에서 1.65로 향상되었다. 또한 representation richness가 log-linear로 증가할 때 재구성 품질이 예측 가능하게 개선된다는 점이 관찰되었다.

핵심 기여

DRoRAE 구성요소

하나의 고정된 백본 encoder(DINOv2)에서 L개의 레이어로부터 다층 토큰 특징(z^(l))을 추출하고, 각 레이어마다 expert 네트워크를 두어 기능을 분리된 채로 처리하는 fusion 모듈 F를 도입한다.

에너지 제약 라우팅

토큰별로 각 레이어에 대한 routing weight wk를 생성하는 라우터를 도입하되 softmax 대신 에너지 제약 정규화를 적용하여 음수 가중치를 허용하고, 활성 억제를 가능하게 한다. z_fuse를 계산하는 식은 가중합의 에너지를 고정화한다.

증분 보정(Incr. Correction)

z_final을 z_base에 β·(z_fuse−z_base) 형태로 더해 업데이트하며, 마지막-layer의 표현 구조를 보존하면서 다층 정보의 보완 정보를 첨가한다.

3단계 학습 전략

Phase 1은 decoder를 학습시키고, Phase 2에서는 backbone과 decoder를 고정한 채 fusion 모듈만 학습, Phase 3에서 decoder를 재조정하여 enriched latent에 적응시키는 decoupled 학습 방식을 제시한다.

성능 및 확장성의 스케일링

표현 풍부도(representation richness)와 재구성 성능의 관계를 분석해, expert capacity와 fused Layer 수의 증가가 로그-선형(log-linear)으로 성능을 향상시킴을 확인한다.

핵심 아이디어 이해하기

출발점: Vision Transformer의 각 계층은 서로 다른 수준의 정보를 포함한다. 최근 연구는 최종Layer의 정보에 의존하는 경향이 있으나, shallow 계층은 텍스처와 경계 정보를 더 잘 보존한다. 해결 원리: per-layer expert를 통해 각 Layer의 정보를 같은 스케일로 투영하고, depth-aware router로 토큰별 가중치를 학습해 다층 정보를 융합한다. incrementally 보정하는 방식으로 z_final을 생성함으로써 last-layer의 분포를 보존하면서도 enriched latent를 얻는다. 달라지는 점: 에너지 제약 라우팅으로 negative weights를 허용하여 불필요한 레이어의 기여를 적극적으로 억제하고, Phase 2의 고정된 decoder 제약하에 fusion 모듈을 학습한 뒤 Phase 3에서 decoder를 재조정해 generation 품질을 유지하면서 reconstruction 품질을 크게 끌어올린다.

방법론

구조: E=DINOv2를 frozen backbone으로 두고, z^(l) (l=1..L)과 z_base=LN(z^(L))를 얻는다. 2) 레이어별 expert: hk=ek(z^(k))로 각 layer의 정보를 변환한다. 3) routing: w=R([z^(1),...,z^(L)])를 통해 per-token 라우팅 가중치를 구하고, z_fuse=LNbb( (Σk wk hk) / sqrt(Σk wk^2 + ε) ). 4) 증분 보정: z_final = LNbb(z_base + β·(z_fuse−z_base)). 5) 학습 전략: Phase 1 Decoder 학습, Phase 2 Fusion 모듈 학습(β=0.2), Phase 3 Decoder Fine-tuning. 손실 함수: L_total = L_rec + λp LLPIPS + λg α_adapt LGAN. Phase 2에서 배경과 디코더 고정, Phase 3에서 디코더 재학습.

주요 결과

주요 벤치마크: reconstruction에서 rFID가 0.57에서 0.29로 감소하고, PSNR은 18.8→24.32dB, LPIPS는 0.256→0.134, SSIM은 0.483→0.701로 개선되었다. class-conditional generation에서 gFID w/ AG은 1.74→1.65로 개선되었고, IS는 230.6이었다(Phase 3). Phase 2의 gFID는 1.70으로 나타났다. Text-to-image GenEval에서 DRoRAE의 Overall 점수는 0.60으로 RAE의 0.56과 비슷했다. 확장성 분석은 Expert Capacity scaling에서 R^2=0.86의 로그-선형 관계를 보였고, Layer Count Scaling에서 R^2=0.49를 보였다. Unified Scaling Law에서 전체 구성은 학습 가능한 파라미터 수를 축으로 하는 로그-선형 추세를 보였다(R^2=0.59).

기술 상세

전체 아키텍처: frozen backbone E(DINOv2) + fusion module F + Drop-in replacement latent z_final. 2) 핵심 메커니즘: hk=ek(z^(k))로 각 Layer의 특징을 변환하고, w=R([z^(1));...;(z^(L))])로 per-token routing weight를 계산한다. z_fuse=LNbb( (Σk wk hk) / (√(Σk wk^2) + ε) ). 3) 차별점: Softmax 기반의 단일 경합 대신 energy-constrained routing으로 음수 가중치를 허용하고, Incremental correction으로 z_base에 보정만 수행한다. 4) 학습/구현 세부: Phase 1에서 decoder 학습, Phase 2에서 fusion module 학습(β=0.2), Phase 3에서 decoder 재학습. Phase 2 손실은 기존 Phase 1 손실과 동일 하되 GAN warmup를 10k로 축소. Tokenizer의 Latent Configuration: 16×16×768, Expert hidden dim = 12×3072, 총 fusion params ≈29M.

실무 활용

DRoRAE 토크나이저는 frozen encoder의 다층 정보를 활용해 토큰 표현을 확장하므로, 재구성 품질과 생성 품질을 동시에 높이는 토크나이저 설계에 적용 가능하다.

representation-based image tokenizer의 재구성 품질 향상
text-to-image 프레임워크에서 richer latent로 생성 품질 개선
다층 특징 융합의 확장 가능성 탐색(레이어 수/전문가 차원 증가에 따른 성능 증가 예측 가능)

코드 공개 여부: 공개

코드 저장소 보기

키워드

DRoRAEDepth-Routed Fusionmulti-layer feature fusionfrozen vision encoderrepresentation autoencoderrFIDgFIDAutoGuidancelog-linear scalingrepresentation richnessimage tokenizerlatent diffusion