핵심 요약
시각-언어-행동(Vision-Language-Action, VLA) 모델의 사전 학습은 빠르게 발전하고 있지만, 실제 환경에서의 강화학습(Reinforcement Learning, RL)은 낮은 샘플 효율성과 희소한 보상(sparse rewards) 문제로 인해 여전히 어려움을 겪고 있습니다. 이러한 간극을 메우기 위해서는 세밀한 피드백을 제공할 수 있는 일반화 가능한 프로세스 보상 모델(process reward models) 개발이 필수적이지만, 기존의 시간적 가치 함수(temporal value functions)는 학습 도메인을 벗어나면 일반화에 실패하는 경우가 많습니다. 본 논문에서는 사전 학습된 비디오 시각-언어 모델(Vision-Language Models, VLMs)의 잠재된 세계 지식을 활용하여 로봇 작업의 진행도를 추정하는 확률 기반의 새로운 시간적 가치 함수인 TOPReward를 소개합니다. VLM에 수치적 진행도를 직접 출력하도록 프롬프트를 입력하여 수치적 오표현이 발생하기 쉬운 기존 방식과 달리, TOPReward는 VLM의 내부 토큰 로짓(token logits)에서 직접 작업 진행도를 추출합니다. 130개 이상의 다양한 실제 작업과 여러 로봇 플랫폼(Franka, YAM, SO-100/101 등)을 대상으로 한 제로샷 평가에서, TOPReward는 Qwen3-VL 모델을 사용하여 0.947의 평균 가치 순서 상관관계(Value-Order Correlation, VOC)를 달성했으며, 이는 동일한 오픈소스 모델에서 거의 0에 가까운 상관관계를 보인 최신 GVL 베이스라인을 크게 압도하는 수치입니다. 또한 TOPReward가 성공 감지(success detection) 및 보상 정렬 행동 복제(reward-aligned behavior cloning)를 포함한 다양한 하위 응용 분야에서 다재다능한 도구로 활용될 수 있음을 입증했습니다.
핵심 기여
토큰 로짓 기반의 제로샷 보상 생성 기법
VLM에 수치를 직접 묻는 대신 내부 토큰 확률(logits)을 사용하여 로봇 작업의 진행 상태를 정밀하게 수치화하는 확률론적 접근법을 제시했습니다.
높은 일반화 성능을 갖춘 시간적 가치 함수 구현
특정 도메인에 국한되지 않고 사전 학습된 비디오 VLM의 방대한 세계 지식을 활용하여 130개 이상의 실제 작업에서 제로샷 보상 모델로서의 성능을 입증했습니다.
가치 순서 상관관계(VOC) 지표의 획기적 향상
Qwen3-VL 모델 기준 0.947의 VOC를 기록하며, 기존 수치 출력 방식의 베이스라인 모델들이 가졌던 한계를 극복하고 보상의 정확도를 크게 높였습니다.
방법론
TOPReward는 사전 학습된 비디오 VLM의 내부 토큰 로짓을 분석하여 작업의 시간적 진행도를 추정합니다. 성공 또는 완료와 관련된 특정 토큰의 확률 분포를 계산하여 이를 연속적인 보상 신호로 변환하며, 이는 모델이 텍스트로 수치를 직접 생성할 때 발생하는 양자화 오류나 논리적 오류를 방지하는 구조를 가집니다.
주요 결과
130개 이상의 실제 로봇 작업과 Franka, YAM, SO-100/101 등 다양한 하드웨어 플랫폼에서 실험을 수행했습니다. Qwen3-VL 기반 TOPReward는 0.947의 평균 가치 순서 상관관계(VOC)를 기록했으며, 이는 기존 GVL(Generative Value Learning) 방식이 동일 조건에서 상관관계가 거의 없었던 것과 대조적인 성과입니다.
시사점
로봇 강화학습에서 보상 설계 과정을 자동화하고, 별도의 추가 학습 없이도 사전 학습된 VLM만으로 정밀한 프로세스 보상을 생성할 수 있게 합니다. 이는 다양한 로봇 작업에 대한 학습 효율성을 높이고, 성공 감지 및 행동 복제 성능을 개선하는 데 즉각적으로 활용될 수 있습니다.
키워드
섹션별 상세
토큰 로짓 기반의 제로샷 보상 생성 기법
높은 일반화 성능을 갖춘 시간적 가치 함수 구현
가치 순서 상관관계(VOC) 지표의 획기적 향상
AI 요약 · 북마크 · 개인 피드 설정 — 무료