핵심 요약
기존 로봇 학습은 보상 신호를 직접 설계하거나 대량의 데이터를 학습시켜야 했으나, 이 논문은 이미 학습된 비전-언어 모델(VLM)의 내부 판단 확률을 보상으로 활용하는 혁신적인 방법을 제안한다. 이를 통해 추가 학습 없이도 다양한 로봇 작업에서 정밀한 피드백을 제공하며, 특히 오픈소스 모델에서도 상용 모델 수준의 성능을 이끌어낼 수 있음을 입증했다.
왜 중요한가
기존 로봇 학습은 보상 신호를 직접 설계하거나 대량의 데이터를 학습시켜야 했으나, 이 논문은 이미 학습된 비전-언어 모델(VLM)의 내부 판단 확률을 보상으로 활용하는 혁신적인 방법을 제안한다. 이를 통해 추가 학습 없이도 다양한 로봇 작업에서 정밀한 피드백을 제공하며, 특히 오픈소스 모델에서도 상용 모델 수준의 성능을 이끌어낼 수 있음을 입증했다.
핵심 기여
로짓 기반의 제로샷 보상 모델 TOPReward 제안
VLM이 텍스트를 생성하게 하는 대신, 특정 작업 완료 여부에 대한 내부 토큰 확률(Logits)을 직접 추출하여 연속적이고 정밀한 보상 신호로 변환하는 방법론을 구축했다.
대규모 로봇 보상 벤치마크 ManiRewardBench 구축
130개 이상의 실제 환경 조작 작업과 4개의 로봇 플랫폼을 포함하는 벤치마크를 통해 보상 모델의 일반화 성능과 견고성을 엄격하게 검증할 수 있는 환경을 마련했다.
오픈소스 VLM의 보상 모델링 성능 극대화
Qwen3-VL과 같은 오픈소스 모델에서 기존 SOTA 방식인 GVL 대비 VOC 지표를 0.194에서 0.857로 대폭 향상시켜 상용 모델에 의존하지 않는 보상 생성을 가능케 했다.
보상 정렬 행동 복제 적용으로 실무 성능 입증
추출된 보상 신호를 Advantage-Weighted Regression(AWR)에 통합하여, 기존 행동 복제 방식보다 높은 성공률을 기록하며 실무 적용 가능성을 증명했다.
핵심 아이디어 이해하기
로봇이 복잡한 작업을 수행하도록 학습시키려면 각 단계마다 잘하고 있는지 알려주는 '보상(Reward)'이 필요하다. 기존에는 사람이 직접 수식을 짜거나 전용 모델을 학습시켰는데, 최근에는 비전-언어 모델(VLM)에게 "지금 로봇이 잘하고 있니?"라고 물어보고 그 답변을 보상으로 쓰는 시도가 있었다. 하지만 VLM에게 숫자로 점수를 매기라고 하면, 특히 오픈소스 모델들은 숫자를 정확하게 다루지 못하거나 지시사항을 놓치는 '표현의 병목(Representation Bottleneck)' 현상이 발생해 보상 신호가 불안정해지는 한계가 있었다.
TOPReward는 VLM이 텍스트를 실제로 내뱉게 하지 않고, 모델 내부에서 다음 단어를 예측할 때 계산하는 '확률값(Logits)'에 주목한다. 예를 들어 "이 로봇이 수건을 접었는가?"라는 질문에 대해 모델이 "True(참)"라는 단어를 선택할 확률이 얼마나 높은지를 직접 확인하는 방식이다. 이는 모델이 텍스트를 생성하면서 발생할 수 있는 오류를 원천 차단하고, 모델이 이미지와 텍스트를 이해하며 쌓아온 내부적인 '확신'을 직접적인 수치로 추출하는 원리다.
이렇게 추출된 확률값에 로그(Log)를 취하고 정규화하면, 작업이 진행됨에 따라 매끄럽게 증가하는 연속적인 보상 신호가 만들어진다. 결과적으로 별도의 추가 학습(Fine-tuning) 없이도 VLM이 가진 방대한 지식을 로봇의 '선생님' 역할로 바로 활용할 수 있게 되었으며, 이는 데이터가 부족한 새로운 로봇 작업에서도 즉시 정밀한 학습 가이드를 제공할 수 있음을 의미한다.
방법론
전체적인 접근 방식은 VLM의 내부 출력을 보상으로 재구성하는 것이다. 로봇의 조작 영상과 수행 지시문이 주어지면, VLM에게 해당 영상이 지시를 완수했는지 판단하도록 프롬프트를 구성한다. 이때 모델이 "True"라는 토큰을 생성할 확률을 계산하고, 여기에 로그를 취해 원시 보상을 얻는다. [영상과 지시문을 입력으로] → [VLM의 마지막 레이어에서 'True' 토큰의 로짓을 추출해] → [로그 확률값을 얻고] → [이 값이 작업 완수 가능성을 나타내는 지표가 된다.]
추출된 로그 확률값은 음의 무한대에서 0 사이의 범위에 있으므로, 이를 0과 1 사이의 값으로 변환하기 위해 에피소드 내에서 Min-Max Normalization을 수행한다. 정규화된 점수는 작업의 진행률(Progress Score)로 해석된다. [로그 확률값들을 입력으로] → [에피소드 내 최솟값과 최댓값을 이용해 선형 변환하여] → [0에서 1 사이의 정규화된 값을 얻고] → [시간에 따른 일관된 진행도를 표현한다.]
실무 적용을 위해 이 진행률의 차분값(Increment)을 이용해 조밀한 보상(Dense Reward)을 생성한다. 이는 지수 함수와 클리핑 연산을 통해 계산된다. [현재와 이전 시점의 진행률 차이를 입력으로] → [지수 함수와 클리핑 연산을 수행해] → [단계별 보상값을 얻고] → [이 값이 강화학습이나 행동 복제의 가중치로 사용되어 성능을 개선한다.]
주요 결과
ManiRewardBench의 130개 이상 작업에서 평가한 결과, Qwen3-VL-8B 모델 기반의 TOPReward는 평균 0.947의 Value-Order Correlation(VOC)을 기록했다. 이는 기존 SOTA인 GVL이 동일 모델에서 0.544 이하의 낮은 상관관계를 보인 것과 대조적이며, 상용 모델인 Gemini-2.5-Pro(0.826)를 능가하는 수준이다.
Open X-Embodiment 데이터셋의 39개 하위 데이터셋에서도 성능 우위를 확인했다. Qwen3-VL-8B에서 0.857 VOC를 달성하여 GVL(0.194) 대비 비약적인 향상을 보였다. 이는 텍스트 생성 방식이 아닌 로짓 추출 방식이 오픈소스 모델의 잠재력을 끌어내는 데 훨씬 효과적임을 입증한다.
실제 로봇(SO-100) 환경에서의 Advantage-Weighted Behavior Cloning 실험 결과, TOPReward를 활용한 방식이 표준 행동 복제(BC) 대비 모든 작업에서 높은 성공률을 보였다. 특히 '인형을 상자에 넣기' 작업에서는 기존 BC가 10회 중 7회 성공할 때, 제안 방식은 10회 모두 성공하는 성능 개선을 보였다.
기술 상세
TOPReward는 VLM의 내부 표현(Internal Representation)이 생성된 텍스트보다 모델의 실제 지식을 더 정확하게 반영한다는 가설에 기반한다. 특히 수치적 토큰 생성 시 발생하는 캘리브레이션 오류를 피하기 위해 이진 분류(Binary Completion Query) 형식을 채택하고 "True" 토큰의 로짓을 활용한다.
아키텍처 측면에서는 Qwen3-VL, Molmo2, Gemini-2.5-Pro 등 다양한 VLM 백본을 지원하며, 별도의 파라미터 업데이트가 없는 Zero-shot 구조를 유지한다. 이는 모델의 사전 학습된 비디오 이해 능력을 그대로 보상 함수로 전용(Repurpose)하는 방식이다.
보상 신호의 품질을 측정하기 위해 Value-Order Correlation(VOC) 지표를 사용한다. 이는 시간 순서에 따른 진행도 예측값의 순위 상관관계를 측정하며, TOPReward는 이 지표에서 높은 점수를 기록하여 시간적 일관성(Temporal Consistency)을 확보했음을 보여준다.
구현 시 Chat Template 사용 여부가 성능에 큰 영향을 미친다는 점을 발견했다. 실험 결과, 템플릿을 제거하고 원시 프롬프트를 사용할 때 성능이 최대 50%까지 향상되었는데, 이는 보상 예측 작업이 VLM의 사전 학습 목표인 '다음 토큰 예측'과 더 잘 정렬되기 때문으로 분석된다.
한계점
백본 VLM의 시각적 이해 능력에 성능이 종속된다. 아주 미세한 공간적 추론이나 작은 물체 조작과 같이 VLM이 시각적으로 구분하기 힘든 중간 상태에 대해서는 노이즈가 섞인 보상 신호가 생성될 수 있다. 또한 Min-Max 정규화가 에피소드 단위로 이루어지므로, 서로 다른 에피소드 간의 절대적인 보상 수치를 직접 비교하기 위해서는 추가적인 캘리브레이션이 필요하다.
실무 활용
별도의 보상 설계 없이 VLM만으로 로봇 학습용 보상 신호를 생성할 수 있어, 새로운 로봇 작업 도입 비용을 획기적으로 낮출 수 있다.
- 다양한 로봇 팔 조작 작업의 자동 보상 생성
- 로봇 학습 데이터셋에서 성공적인 에피소드 자동 필터링 및 랭킹
- 강화학습 및 모방 학습의 보상 함수로 즉시 통합
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.