핵심 요약
자율주행 시스템에서 사고 과정(Chain-of-Thought)을 거치는 모델은 정확하지만 연산 속도가 느려 실시간 적용이 어려웠습니다. OneVL은 복잡한 추론 과정을 압축된 잠재 토큰으로 처리하여 답변만 내놓는 모델 수준의 속도를 유지하면서도 기존의 단계별 추론 모델보다 더 높은 정확도를 달성했습니다.
왜 중요한가
자율주행 시스템에서 사고 과정(Chain-of-Thought)을 거치는 모델은 정확하지만 연산 속도가 느려 실시간 적용이 어려웠습니다. OneVL은 복잡한 추론 과정을 압축된 잠재 토큰으로 처리하여 답변만 내놓는 모델 수준의 속도를 유지하면서도 기존의 단계별 추론 모델보다 더 높은 정확도를 달성했습니다.
핵심 기여
이중 보조 디코더를 통한 잠재 추론 감독
텍스트 설명을 복원하는 언어 디코더와 미래 프레임을 예측하는 시각 세계 모델 디코더를 동시에 사용하여 잠재 공간이 인과 관계와 물리적 역학을 내재화하도록 유도했다.
단일 단계 프리필 추론 메커니즘
추론 시점에 보조 디코더를 제거하고 모든 잠재 토큰을 병렬로 한 번에 처리하는 Prefill 방식을 도입하여 순차적 생성 방식의 지연 시간을 제거했다.
3단계 점진적 학습 파이프라인
메인 모델 웜업, 보조 디코더 웜업, 합동 엔드투엔드 미세 조정의 3단계를 통해 잠재 토큰이 궤적 예측과 시각-언어 설명 사이에서 안정적으로 정렬되도록 설계했다.
핵심 아이디어 이해하기
기존의 Chain-of-Thought(CoT)는 사람이 이해할 수 있는 텍스트 토큰을 하나씩 순차적으로 생성해야 하므로 시퀀스 길이에 비례해 연산 시간이 늘어나는 한계가 있다. 자율주행과 같은 실시간 시스템에서는 이러한 지연 시간이 치명적이며, 단순히 텍스트로만 세상을 요약하는 방식은 실제 도로의 물리적 역학을 충분히 담아내지 못한다.
OneVL은 이 문제를 해결하기 위해 추론 과정을 텍스트가 아닌 연속적인 벡터 형태인 '잠재 토큰(Latent Tokens)'으로 압축한다. 핵심은 이 압축된 벡터가 단순히 텍스트를 흉내 내는 것이 아니라, 미래의 도로 상황이 어떻게 변할지 예측하는 '세계 모델'의 역할까지 수행하도록 강제하는 것이다. 이를 위해 학습 과정에서 잠재 토큰으로부터 미래 영상 프레임을 복원하는 시각적 감독 신호를 추가했다.
결과적으로 모델은 텍스트라는 추상적 기호뿐만 아니라 물리적 인과 관계를 잠재 공간에 내재화하게 된다. 추론 시에는 이 잠재 토큰들을 병렬로 한 번에 입력(Prefill)하여 처리하므로, 복잡한 사고 과정을 거치면서도 속도는 사고 과정 없이 정답만 내놓는 모델만큼 빠르게 동작한다.
방법론
OneVL 아키텍처는 Qwen3-VL-4B-Instruct를 백본으로 하며, 시각 잠재 토큰(Zv)과 언어 잠재 토큰(Zl)이라는 두 종류의 특수 토큰 인터페이스를 추가했다. 이 토큰들은 LLM의 출력 레이어에서 추출되어 각각 시각 보조 디코더(Visual Aux Decoder)와 언어 보조 디코더(Language Aux Decoder)로 전달된다.
시각 보조 디코더는 현재 프레임의 ViT 임베딩 V와 시각 잠재 토큰 Hv를 입력으로 받아 미래 0.5초와 1.0초 시점의 시각 토큰 Lv를 예측한다. [V, Hv → MLP 투영 및 Concatenation → 디코더 연산 → 미래 프레임 토큰] 과정을 통해 잠재 공간이 도로 기하학 및 에이전트의 움직임을 학습하게 한다.
언어 보조 디코더는 시각 컨텍스트 V와 언어 잠재 토큰 Hl을 결합하여 사람이 읽을 수 있는 CoT 텍스트를 복원한다. [V, Hl → MLP 투영 → 디코더 연산 → 텍스트 시퀀스] 순으로 계산되며, 이는 잠재 토큰이 의미론적 의도를 유지하도록 보장한다.
학습은 3단계로 진행된다. Stage 0에서는 잠재 토큰을 포함한 메인 VLM을 궤적 예측 작업으로 예열한다. Stage 1에서는 메인 모델을 고정하고 보조 디코더들이 잠재 표현에 정렬되도록 학습시킨다. Stage 2에서는 모든 구성 요소를 합동 최적화하여 잠재 표현이 예측과 설명 능력을 동시에 갖추도록 미세 조정한다.
관련 Figure

OneVL은 기존 잠재 CoT와 달리 시각 및 언어 보조 디코더를 통해 잠재 토큰을 감독하며, 추론 시에는 이들을 Prefill하여 속도와 정확도를 모두 확보함을 보여준다. 3단계 학습 과정이 아키텍처에 어떻게 녹아있는지 시각화한다.
명시적 CoT, 기존 잠재 CoT, 그리고 OneVL의 구조적 차이를 비교한 다이어그램이다.
주요 결과
NAVSIM 벤치마크에서 OneVL은 88.84 PDM-score를 기록하며 기존 SOTA인 LaST-VLA(87.30)를 능가했다. 특히 지연 시간 측면에서 4.46초를 기록하여, 사고 과정이 없는 AR Answer 모델(4.49초)과 대등한 속도를 보이면서도 정확도는 명시적 CoT 모델(88.29)보다 높았다.
ROADWork 데이터셋에서는 12.49 ADE와 28.80 FDE를 달성하여 이전 최고 성능 모델인 YNet(22.68 ADE) 대비 오차를 대폭 줄였다. Impromptu와 APR1 데이터셋에서도 일관되게 기존의 잠재 CoT 방법론(COCONUT, CODI 등)보다 우수한 성능을 보였으며, 이는 시각적 세계 모델 감독의 효과를 입증한다.
Ablation Study 결과, 시각 보조 디코더를 제거했을 때 PDM-score가 0.87점 하락했으며, 3단계 학습 파이프라인 없이 직접 학습했을 때는 점수가 67.13으로 급락하여 제안된 학습 전략의 필수성을 확인했다.
관련 Figure

OneVL이 생성한 궤적(빨간색)이 지면 진리(초록색)와 매우 유사함을 보여주며, 오른쪽 하단에 언어 보조 디코더가 생성한 구체적인 주행 근거 문장이 포함되어 모델의 해석 가능성을 입증한다.
NAVSIM 데이터셋에서의 궤적 예측 및 추론 결과 시각화 자료이다.
기술 상세
OneVL은 추론 효율성을 극대화하기 위해 'Prefill Inference' 전략을 채택했다. 학습된 잠재 토큰들의 어휘 ID를 프롬프트 컨텍스트에 고정된 토큰 시퀀스로 미리 채워 넣음으로써, 트랜스포머가 이를 병렬로 처리하게 하여 순차적 디코딩 오버헤드를 제거했다.
시각적 토큰화에는 Emu3.5 토크나이저(IBQ 기반)를 사용했으며, 131,072개의 이산 시각 코드를 수용하기 위해 Qwen3-VL의 어휘 사전을 확장했다. 시각 손실 함수 Lv와 언어 손실 함수 Ll에 각각 0.1과 1.0의 가중치를 부여하여 시각적 복원 작업이 전체 학습 신호를 지배하지 않도록 균형을 맞췄다.
실제 차량 배포를 위해 백본 위에 가벼운 MLP 헤드를 추가한 회귀(Regression) 변형 모델도 실험했다. 이 모델은 0.24초(약 4.16Hz)의 지연 시간으로 동작하면서도 86.83 PDM-score를 유지하여 실시간 온디바이스 제어 가능성을 보여주었다.
관련 Figure

센서 데이터와 메타데이터가 VLM을 거쳐 시각/언어 잠재 토큰으로 변환되고, 이것이 다시 보조 디코더를 통해 미래 프레임과 텍스트 설명으로 복원되는 과정을 상세히 설명한다. 최종적으로 궤적 예측(Plan)이 생성되는 구조를 명시한다.
OneVL의 전체 아키텍처와 데이터 흐름을 보여주는 상세 도식이다.
한계점
학습 시 세 개의 4B 모델 인스턴스를 메모리에 유지해야 하므로 기존 방식 대비 약 3배의 메모리가 필요하다. 또한 잠재 토큰의 개수를 실험적으로 결정했으며, 토큰 수와 표현 용량 사이의 최적 트레이드오프에 대한 체계적인 연구는 향후 과제로 남겨두었다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.