사후 상태 전이 재가중치를 통한 보수적 오프라인 로봇 정책 학습

로봇 학습용 데이터는 여러 로봇과 다양한 숙련도의 조종자가 섞여 있어 품질이 일정하지 않은 문제가 있다. PTR은 별도의 보상 점수 없이도 행동 결과의 명확성을 분석해 좋은 데이터에 더 큰 가중치를 두어 학습 효율을 높이며, 노이즈가 많은 실제 환경 데이터에서도 로봇의 작업 성공률을 크게 향상시킨다.

핵심 요약

왜 중요한가

핵심 기여

보상 없는 샘플 스코어링 메커니즘

사후 상태 전이 결과를 식별 테스트로 변환하여 각 데이터가 현재 정책 맥락에 얼마나 기여하는지 측정하는 보상 비의존적 점수 산출 방식을 도입했다.

보수적 가중치 매핑 설계

학습 분포의 급격한 변화를 방지하기 위해 클리핑 및 혼합 제약 조건을 적용하여 유의미한 가중치 조절과 학습 안정성을 동시에 확보했다.

이종 로봇 간 선택적 전이 학습 입증

서로 다른 로봇 데이터를 통합 학습할 때 발생하는 충돌을 억제하고, 유용한 정보만을 선택적으로 수용하여 성능의 하한선을 높이고 상한선을 확장했다.

핵심 아이디어 이해하기

기존의 로봇 학습 방식인 Behavioral Cloning은 모든 데이터를 똑같이 신뢰하고 학습한다. 하지만 실제 데이터셋에는 로봇의 실수, 망설임, 혹은 다른 종류의 로봇이 수행한 부적절한 동작이 섞여 있다. 이러한 저품질 데이터를 그대로 배우면 로봇은 혼란에 빠지게 된다.

PTR은 '이 행동을 했을 때 예상되는 결과가 얼마나 뚜렷한가?'라는 질문을 던진다. 딥러닝의 Embedding과 Softmax 개념을 활용하여, 현재 상태에서 특정 행동을 했을 때 나타난 실제 미래 상태가 수많은 가짜 미래들 사이에서 얼마나 명확하게 식별되는지를 측정한다. 정답인 미래 상태를 잘 찾아낼수록 해당 데이터는 인과관계가 명확한 고품질 데이터로 판단된다.

이 식별 확률을 기반으로 각 학습 샘플에 가중치를 부여한다. 결과가 모호한 샘플은 가중치를 낮추고, 결과가 확실한 샘플은 가중치를 높여 학습 효율을 극대화한다. 이는 마치 수많은 오답 노트 중에서 정답의 근거가 확실한 문제에 더 집중하여 공부하는 것과 같은 원리이다.

방법론

PTR은 표준 오프라인 사후 학습 파이프라인에 네 가지 경량 컴포넌트를 추가한다. 먼저 BeliefTokenizer는 과거 상호작용 이력을 요약하여 M개의 컴팩트한 토큰으로 변환하고 이를 모델의 입력에 추가하여 부분 관측 문제를 완화한다. [이전 상태 및 행동 시퀀스 입력 → 소프트 인과 할당 연산 → M개의 요약 토큰 출력] 과정을 거쳐 문맥 정보를 강화한다.

핵심 메커니즘인 Posterior Transition Scorer는 현재 상태와 행동을 쿼리로 사용하여 실제 사후 결과와 후보군 내의 오답 결과들을 비교한다. [현재 상태 $h_t$ 와 행동 $e_t$ 입력 → 코사인 유사도 기반 로짓 계산 → 소프트맥스 식별 확률 산출] 순서로 연산이 이루어지며, 이 확률값이 높을수록 해당 샘플의 기여도가 높음을 의미한다.

최종 가중치 $w_t$ 는 식별 확률과 균등 분포의 로그 비율인 PTR 점수 $T_t$ 를 지수 함수에 통과시켜 얻는다. [ $T_t$ 점수 입력 → $\exp(T_t/\beta)$ 연산 및 $[w_{min}, w_{max}]$ 범위 클리핑 → 최종 가중치 $w_t$ 출력] 과정을 통해 학습 분포가 원본 데이터에서 너무 멀어지지 않도록 보수적으로 조정한다.

학습 시에는 Self-normalized Weighted Regression을 적용한다. [각 샘플의 손실값에 가중치 $w_t$ 곱셈 → 배치 전체 가중치 합으로 정규화 → 최종 그래디언트 산출] 방식을 통해 정책 모델을 업데이트하며, 이 과정에서 가중치 계산 경로에는 stop-gradient를 적용하여 정책이 스스로 가중치를 조작하는 것을 방지한다.

주요 결과

RoboCasa 벤치마크 실험 결과, PTR은 표준 SFT 대비 성공률을 1.4%p 향상시켜 55.6%를 기록했다. 특히 Pick&Place 작업에서는 36.0%에서 38.3%로, Door/Drawer 작업에서는 71.3%에서 73.0%로 성능이 개선되었다. 이는 다양한 주방 환경과 객체 설정이 섞인 복잡한 데이터셋에서 PTR의 선택적 학습이 효과적임을 보여준다.

데이터 오염에 대한 강건성 테스트에서 PTR의 진가가 드러났다. 행동 노이즈, 궤적 절단, 라벨 오류가 복합적으로 발생한 상황에서 SFT의 성공률이 12.9%p(LIBERO)와 17.8%p(RoboCasa) 급락한 반면, PTR은 각각 6.8%p와 9.8%p 하락에 그치며 노이즈에 대한 강력한 저항력을 증명했다.

실제 로봇을 이용한 12가지 작업 평가에서도 PTR은 SFT 대비 평균 6.3%p 높은 성공률을 달성했다. 특히 두 팔을 동시에 사용하는 Bimanual 작업군에서 11.7%p의 큰 성능 향상을 보였는데, 이는 조종자의 숙련도 차이가 큰 복잡한 작업일수록 PTR의 데이터 정제 능력이 더 크게 작용하기 때문이다.

실무 활용

다양한 로봇 기종과 조종자의 숙련도가 섞인 대규모 로봇 데이터셋을 보유한 기업이나 연구소에서 모델의 성능을 안정적으로 높이는 데 즉시 활용 가능하다.

여러 공장에서 수집된 서로 다른 로봇 팔 데이터를 통합하여 공통 제어 모델을 학습할 때
비전문가가 조종하여 노이즈가 섞인 로봇 조작 데이터를 고품질 데이터 위주로 자동 정제하고 싶을 때
시뮬레이션 데이터와 실제 데이터를 혼합하여 학습할 때 실제 환경에 더 적합한 데이터에 가중치를 두고 싶을 때

기술 상세

PTR 아키텍처는 Being-H0.5와 같은 Transformer 기반 VLA 모델을 백본으로 사용하며, 200차원의 통합 액션 공간을 공유한다. Scorer는 InternViT-300M의 중간 레이어(Layer 12) 특징을 추출하는 EMA(Exponential Moving Average) 타겟 인코더를 사용하여 타겟 공간의 안정성을 유지한다. 이는 정책 모델이 학습됨에 따라 타겟 공간이 급격히 변하여 식별 학습이 불안정해지는 문제를 해결한다.

이론적으로 PTR의 가중치 형태는 KL-regularized 점수 최대화 문제의 해로 도출된다. 점수 함수 $J(x)$ 를 PTR 점수 $T_t$ 로 설정하면, 최적의 분포 $q^*$ 는 원본 분포 $p_D$ 에 $\exp(T_t/\beta)$ 를 곱한 형태가 된다. 이는 PTR이 단순히 휴리스틱한 가중치를 주는 것이 아니라, 수학적으로 근거 있는 분포 최적화를 수행하고 있음을 뒷받침한다.

구현 측면에서는 Adaptive Scale Control 메커니즘이 핵심적인 역할을 한다. 학습 과정에서 식별 정확도(nce_acc)와 점수 마진(nce_margin)을 모니터링하며 온도 파라미터 $\tau_{score}$ 와 가중치 스케일 $eta$ 를 실시간으로 조정한다. 이를 통해 학습 초기에는 보수적으로 접근하고, Scorer가 성숙해짐에 따라 더 과감한 가중치 차등을 허용하여 학습 효율을 극대화한다.

한계점

사후 상태 관측값이 없는 데이터 샘플의 경우 균등 가중치(wt=1)로 회귀하므로 정보 손실이 발생할 수 있다. 또한 식별 신호의 품질이 사전에 학습된 표현력(Representation)에 의존하므로, 백본 모델의 성능이 낮으면 식별 능력이 떨어져 가중치 효과가 반감된다. 마지막으로 실시간 스트리밍 환경보다는 오프라인 데이터셋 기반의 사후 학습에 최적화되어 있다.

키워드

Offline RL(오프라인 강화학습)Robot Policy(로봇 정책)Data Reweighting(데이터 재가중치)VLA Model(시각-언어-행동 모델)Contrastive Learning(대조 학습)Heterogeneous Data(이종 데이터)

사후 상태 전이 재가중치를 통한 보수적 오프라인 로봇 정책 학습

핵심 요약

왜 중요한가

핵심 기여

보상 없는 샘플 스코어링 메커니즘

보수적 가중치 매핑 설계

학습 분포의 급격한 변화를 방지하기 위해 클리핑 및 혼합 제약 조건을 적용하여 유의미한 가중치 조절과 학습 안정성을 동시에 확보했다.

이종 로봇 간 선택적 전이 학습 입증

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

여러 공장에서 수집된 서로 다른 로봇 팔 데이터를 통합하여 공통 제어 모델을 학습할 때
비전문가가 조종하여 노이즈가 섞인 로봇 조작 데이터를 고품질 데이터 위주로 자동 정제하고 싶을 때
시뮬레이션 데이터와 실제 데이터를 혼합하여 학습할 때 실제 환경에 더 적합한 데이터에 가중치를 두고 싶을 때

사후 상태 전이 재가중치를 통한 보수적 오프라인 로봇 정책 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

사후 상태 전이 재가중치를 통한 보수적 오프라인 로봇 정책 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글