8개의 토큰으로 수행하는 계획 수립: 잠재 세계 모델을 위한 압축형 이산 토크나이저

왜 중요한가

기존 세계 모델은 이미지를 수백 개의 토큰으로 표현하여 실시간 계획 수립 시 연산 부담이 매우 컸다. 이 논문은 계획에 꼭 필요한 핵심 의미 정보만 8개 토큰에 담아 속도를 획기적으로 높임으로써, 로봇이나 자율주행 시스템이 지연 없이 실시간으로 최적의 행동을 결정할 수 있는 실질적인 해결책을 제시했다.

핵심 기여

CompACT 토크나이저 개발

이미지를 단 8~16개의 이산 토큰(128~256비트)으로 극단적으로 압축하면서도 계획 수립에 필수적인 의미론적 정보를 보존하는 새로운 토크나이저를 구축했다.

Frozen Vision Encoder 기반 의미 추출

DINOv3와 같은 사전 학습된 시각 파운데이션 모델의 특징을 고정하여 사용함으로써, 단순 재구성 성능보다 계획에 중요한 고수준 객체 및 공간 관계 정보 추출에 집중했다.

생성적 디코딩 전략 도입

압축된 토큰에서 직접 픽셀을 복원하는 대신, MaskGIT 기반 생성 모델을 통해 세부 시각 정보를 합성함으로써 정보 병목 현상을 해결하고 시각적 일관성을 유지했다.

계획 지연 시간 40배 단축

내비게이션 벤치마크에서 기존 SD-VAE 기반 모델 대비 정확도는 유지하면서 계획 수립에 걸리는 시간을 약 40배 단축하여 실시간 제어 가능성을 입증했다.

핵심 아이디어 이해하기

인간은 주변 환경의 모든 미세한 픽셀을 기억하지 않고 행동에 필요한 핵심 정보만 추상화하여 판단한다. 하지만 기존 AI 세계 모델은 고해상도 이미지 재구성을 위해 수백 개의 토큰을 사용하며, 이는 Attention 연산량을 시퀀스 길이의 제곱으로 증가시켜 실시간 계획 수립을 불가능하게 만든다. CompACT는 '완벽한 시각적 복원' 대신 '계획을 위한 핵심 요약'에 집중하여 이 문제를 해결한다.

이 논문의 핵심 원리는 사전 학습된 DINOv3 모델의 풍부한 의미론적 임베딩을 닻(anchor)으로 삼는 것이다. 인코더를 고정한 채 Latent Resampler를 통해 8~16개의 핵심 토큰만 추출하는데, 이는 마치 복잡한 풍경화를 보는 대신 목적지까지의 주요 지형지물 정보만 메모하는 것과 같다. 이렇게 추출된 토큰은 픽셀 수준의 세부 사항은 버리되, 물체의 위치나 공간적 구조와 같은 결정적인 정보는 온전히 보존한다.

결과적으로 극도로 압축된 잠재 공간에서 세계 모델을 학습하면 미래 상태 예측 시 처리해야 할 데이터 양이 획기적으로 줄어든다. 이는 수 분이 걸리던 경로 계획 연산을 수 초 내에 완료할 수 있게 하며, 로봇이 복잡한 환경에서도 실시간으로 반응하며 움직일 수 있는 지능적 기반을 제공한다.

방법론

전체 구조는 Frozen Encoder, Latent Resampler, Generative Decoder의 세 단계로 나뉜다. 먼저 입력 이미지를 사전 학습된 DINOv3-B 모델에 입력하여 의미론적 특징 맵을 얻는다. 이후 학습 가능한 쿼리 토큰이 이 특징 맵에 대해 Cross-Attention 연산을 수행하여 8~16개의 핵심 벡터를 추출한다. [이미지 특징 맵 → Cross-Attention → 8개 핵심 벡터 → 계획용 상태 표현]

추출된 벡터는 Finite Scalar Quantization(FSQ) 레이어를 통과하며 이산화된다. FSQ는 각 차원의 값을 정해진 단계로 나누어 정수 인덱스로 변환하는 연산을 수행한다. 이를 통해 연속적인 벡터 공간이 유한한 코드북 인덱스 시퀀스로 바뀌며, 세계 모델이 처리하기 쉬운 이산 잠재 공간이 구축된다. [연속 벡터 → FSQ 양자화 → 정수 인덱스 → 이산 잠재 공간]

디코딩 과정에서는 압축된 토큰을 조건으로 사용하여 MaskGIT 기반의 타겟 토크나이저(VQGAN) 토큰을 예측한다. 8개의 토큰을 입력으로 받아 수백 개의 VQGAN 토큰을 반복적으로 채워나가는 마스킹 생성 모델링을 수행하며, 최종적으로 VQGAN 디코더가 이를 고해상도 이미지로 복원한다. [8개 토큰 → Masked Generative Modeling → 196개 VQGAN 토큰 → 고해상도 이미지 복원]

주요 결과

RECON 및 SCAND 내비게이션 벤치마크 실험 결과, 784개의 토큰을 사용하는 SD-VAE 기반 모델과 대등한 궤적 오차(ATE)를 기록하면서도 계획 지연 시간을 178.78초에서 4.83초로 약 40배 단축했다. 이는 동일한 하드웨어에서 훨씬 더 빠른 실시간 판단이 가능함을 보여준다.

RoboNet 로봇 조작 데이터셋에서는 16개 토큰만 사용하고도 256개 토큰을 사용하는 기존 방식보다 낮은 행동 예측 오차(APE)를 달성했다. CompACT의 모듈형 토큰이 로봇 팔의 끝단(end-effector)이나 조작 대상 물체와 같은 동역학적 핵심 요소를 더 효과적으로 포착한다는 것이 시각화 분석을 통해 확인됐다.

추가 분석에 따르면, 잠재 공간에서 직접 비용 함수(L1 distance)를 계산할 경우 픽셀 공간 대비 계획 속도를 최대 80배까지 향상시킬 수 있었다. 또한 인코더를 고정하지 않고 미세 조정할 경우 오히려 재구성 성능에 치중하게 되어 계획 성능이 저하되는 현상이 나타나, 고정된 의미론적 특징의 중요성이 입증됐다.

실무 활용

실시간 응답이 필수적인 자율주행 로봇, 드론, 공장 자동화 시스템의 경로 계획 및 제어에 즉시 적용 가능하다. 연산 자원이 제한된 임베디드 환경에서도 고성능 세계 모델을 구동할 수 있는 효율적인 프레임워크를 제공한다.

자율주행 로봇의 실시간 장애물 회피 및 최적 경로 생성
로봇 팔을 이용한 정밀 물체 조작 및 파지 계획 수립
제한된 네트워크 대역폭 환경에서의 원격 로봇 제어 및 상태 예측
저사양 온디바이스 하드웨어에서의 고성능 세계 모델 시뮬레이션 구동

기술 상세

CompACT 아키텍처는 DINOv3-B를 백본으로 하며, 5개의 Transformer 디코더 블록으로 구성된 Latent Resampler를 핵심으로 한다. FSQ는 [8, 8, 8, 5, 5, 5] 레벨 설정을 통해 약 2^16 크기의 코드북 공간을 형성하며, 각 토큰은 약 16비트의 정보를 담는다.

세계 모델 학습에는 Masked Generative Modeling 목적 함수를 사용한다. 과거 상태와 행동 이력에 대해 무작위 마스킹을 적용하여 모델이 시간적 의존성을 강건하게 학습하도록 유도하는 'Diffusion Forcing'의 이산적 변형 기법을 적용했다. 내비게이션 작업에는 DiT 기반 아키텍처를, 로봇 조작에는 Block-causal Transformer를 사용하여 다중 미래 프레임을 병렬로 예측한다.

이론적으로 Proposition 1을 통해 계획 수립에 충분한 최소 정보량(Minimum Description Length)이 존재함을 증명했다. CompACT는 이미지의 전체 엔트로피를 보존하는 대신, 최적의 행동 결정에 필요한 상호 정보량(Mutual Information)만을 보존하도록 설계되어 기존의 재구성 중심 토크나이저와 기술적 차별점을 갖는다.

한계점

극단적인 압축으로 인해 텍스처나 미세한 조명 변화와 같은 고주파 시각 세부 사항은 복원 시 실제와 다를 수 있다. 따라서 시각적 충실도가 극도로 중요한 가상 현실 콘텐츠 생성 등에는 적합하지 않을 수 있으며, 계획 수립에 불필요하다고 판단된 정보가 실제로는 중요한 특수 상황에서는 성능이 제한될 수 있다.

키워드

World Model(세계 모델)Tokenizer(토크나이저)Latent Representation(잠재 표현)Planning(계획 수립)DINOv3(디노v3)