배포 중 학습: 범용 로봇 정책을 위한 함대 규모의 강화학습

오프라인 데이터만으로 학습된 로봇은 실제 환경의 변화에 취약하지만, 이 논문은 배포된 로봇 함대가 실시간으로 경험을 공유하며 스스로 성능을 개선하는 LWD 프레임워크를 제안합니다. 특히 3~5분이 소요되는 복잡한 장기 작업에서 큰 성능 향상을 보여주며 로봇의 실전 배치 가능성을 높였습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Learning While Deploying (LWD) 프레임워크

배포된 로봇 함대가 수집한 자율 주행 데이터와 인간의 개입 데이터를 통합하여 Vision-Language-Action (VLA) 정책을 지속적으로 개선하는 오프라인-온라인 강화학습 루프를 구축했다.

Distributional Implicit Value Learning (DIVL)

희소한 보상과 이질적인 함대 데이터 환경에서 안정적인 가치 추정을 위해 스칼라 대신 분포 기반의 가치 학습 방식을 도입하여 고수익 모드를 보존하고 학습 신호를 강화했다.

Q-learning via Adjoint Matching (QAM) 적용

Flow-based VLA 정책의 복잡한 역전파 문제를 해결하기 위해 Adjoint Matching을 통한 정책 추출 방식을 채택하여 생성형 액션 모델을 안정적으로 업데이트했다.

실제 로봇 함대 검증

16대의 G1 로봇을 활용해 식료품 재입고 및 칵테일 제조 등 8가지 실제 작업에서 평균 95%의 성공률을 기록하며 기존 SFT 및 오프라인 학습 대비 우월한 성능을 입증했다.

핵심 아이디어 이해하기

기존의 로봇 학습은 사람이 모은 데이터를 학습한 뒤 배포하는 것으로 끝났으나, 실제 환경에서는 학습 데이터에 없던 변수와 실패 사례가 빈번하게 발생한다. Transformer 기반의 VLA 모델은 방대한 지식을 갖추고 있지만, 특정 환경에 최적화되지 않으면 작은 오차가 누적되어 전체 작업을 실패하게 만드는 한계가 있다.

LWD는 배포된 로봇들을 하나의 '학습 함대'로 묶어 이 문제를 해결한다. 로봇이 작업을 수행하며 얻은 성공과 실패, 그리고 사람이 직접 수정해준 데이터를 중앙 서버로 모은다. 이때 단순히 정답을 흉내 내는 것이 아니라, 강화학습의 Bellman Equation 개념을 활용해 어떤 행동이 최종 성공으로 이어질 확률이 높은지를 계산한다.

특히 DIVL 기법을 통해 가치를 단일 숫자가 아닌 확률 분포로 학습함으로써, 드물게 발생하는 성공 사례를 평균값에 묻히지 않게 보존한다. 결과적으로 로봇은 배포 시간이 길어질수록 더 효율적인 경로를 찾고 실수를 스스로 교정하는 능력을 갖추게 된다.

방법론

LWD는 오프라인 사전 학습과 온라인 사후 학습의 두 단계로 구성된다. 오프라인 단계에서는 기존의 시연 데이터로 모델을 초기화하고, 온라인 단계에서는 16대의 로봇이 생성한 데이터를 실시간으로 수집하여 모델을 업데이트한다. [로봇의 상태 s와 행동 a를 입력으로] → [중앙 서버의 DIVL 알고리즘이 가치 분포 V와 비평가 Q를 계산하여] → [성공 가능성이 높은 행동에 더 높은 가치를 부여하고] → [이 정보를 바탕으로 정책을 갱신한다.]

가치 학습에는 DIVL(Distributional Implicit Value Learning)을 사용한다. [상태 s에서의 행동 가치들을 입력으로] → [Categorical Discretization을 통해 확률 분포 p(v|s)를 학습하고] → [특정 분위수(Quantile)를 타겟으로 설정하여] → [데이터 분포 내에서 가장 낙관적인 가치 추정치를 도출한다.] 이는 IQL의 비대칭적 손실 함수를 분포 관점에서 확장한 것이다.

정책 추출에는 QAM(Q-learning via Adjoint Matching)을 활용한다. [Flow-based 모델의 벡터 필드 f와 비평가 Q의 그래디언트를 입력으로] → [Adjoint Dynamics를 풀어 국소 회귀 타겟을 생성하고] → [이를 통해 모델 가중치를 업데이트하여] → [복잡한 ODE 솔버를 거치지 않고도 안정적으로 정책을 개선한다.]

관련 Figure

#2Diagram
오프라인 사전 학습과 온라인 사후 학습의 2단계 구조를 설명하며, DIVL을 통한 가치 학습과 QAM을 통한 정책 추출이 어떻게 상호작용하는지 시각화한다. 로봇 함대에서 수집된 데이터가 온라인 버퍼로 유입되어 모델을 갱신하는 데이터 플라이휠 구조를 명확히 보여준다.
LWD의 전체 파이프라인과 알고리즘 구조를 보여주는 다이어그램이다.

주요 결과

8가지 실제 로봇 작업에서 LWD(Online)는 평균 95%의 성공률을 달성하여, 기본 SFT(76%) 및 RECAP(85%) 등 기존 벤치마크를 크게 상회했다. 특히 칵테일 제조, 공푸차 우리기 등 3~5분이 소요되는 장기 작업(Long-horizon tasks)에서 성능 향상이 두드러졌으며, 공푸차 작업의 경우 SFT 대비 성공률이 25%p 이상 향상되었다.

효율성 측면에서도 LWD는 작업 수행 시간을 단축시켰다. 장기 작업의 평균 사이클 타임이 SFT 대비 약 23.75초 감소했는데, 이는 학습된 가치 함수가 로봇의 망설임이나 불필요한 재시도를 줄이고 더 확신 있는 행동을 유도했기 때문이다.

Ablation Study 결과, DIVL을 사용한 분포 학습이 일반적인 스칼라 회귀 방식보다 장기 작업에서 약 16.7% 더 높은 성능을 보였다. 또한 엔트로피 기반의 적응형 분위수(Adaptive τ) 전략이 불확실성이 높은 상태에서 과대평가를 방지하여 학습 안정성을 높이는 데 기여함을 확인했다.

관련 Figure

#5Photo
실제 환경에서 다수의 로봇이 동시에 데이터를 수집하고 학습에 기여하는 '함대 규모(Fleet-scale)' 연구의 실증적 토대를 보여준다. 다양한 작업대에서 독립적으로 수행되는 작업들이 하나의 일반화된 정책으로 통합됨을 시사한다.
실제 실험에 사용된 16대의 로봇 함대가 작업 중인 모습이다.

#6Chart
LWD(Online)가 모든 작업에서 SFT 및 다른 베이스라인보다 높은 성공률을 기록함을 보여준다. 특히 하단 우측의 Cycle Time 차트는 LWD가 단순히 성공률만 높이는 것이 아니라 작업 효율성(속도)까지 개선함을 입증하는 핵심 근거이다.
다양한 작업별 성공률과 수행 시간을 기존 방식들과 비교한 차트이다.

기술 상세

LWD 아키텍처는 Gemma-2B 언어 모델과 SigLIP 비전 인코더를 백본으로 하는 PaliGemma 기반의 VLA 구조를 채택했다. 정책 헤드는 π0.5 flow-based 아키텍처를 따르며, 가치 및 비평가 네트워크는 별도의 모듈로 분리되어 중앙 학습기에서만 업데이트된다. 온라인 학습 시 백본은 고정하고 액션 엑스퍼트 헤드만 미세 조정하여 연산 효율성을 확보했다.

데이터 인프라는 분산형 액터-러너 구조로 설계되었다. 각 로봇은 Edge Client를 통해 에피소드를 업로드하고, 중앙 Coordinator가 이를 스냅샷 단위로 관리하여 다중 호스트 SPMD JAX 프로그램인 Learner에게 전달한다. 이러한 구조는 16대 이상의 대규모 함대에서도 데이터 일관성을 유지하며 초당 수천 개의 에피소드를 처리할 수 있게 한다.

한계점

현재의 온라인 학습 파이프라인은 단순한 실시간 스케줄에 따라 업데이트되므로 더 대규모 배포 시에는 최적의 업데이트 전략이 아닐 수 있다. 또한 장기 작업 실험이 단일 언어 지시문에 의존하고 있어 더 복잡한 추론이 필요한 작업에는 한계가 있으며, 안전 메커니즘이 학습 프레임워크에 명시적으로 포함되지 않았다.

실무 활용

실제 물류 센터나 가정용 로봇 서비스에서 다수의 로봇을 운영하며 성능을 실시간으로 고도화해야 하는 환경에 즉시 적용 가능한 프레임워크이다.

대규모 물류 창고 내 다수 로봇의 자율 재고 정리 및 재입고 시스템 최적화
서비스 로봇 함대의 실시간 경험 공유를 통한 새로운 매장 환경 조기 적응
인간의 간헐적 개입을 학습 신호로 전환하여 로봇의 예외 상황 처리 능력 강화

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLA(시각-언어-행동 모델)Reinforcement Learning(강화학습)Robot Fleet(로봇 함대)Continual Learning(지속 학습)Distributional RL(분포 강화학습)

배포 중 학습: 범용 로봇 정책을 위한 함대 규모의 강화학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Learning While Deploying (LWD) 프레임워크

Distributional Implicit Value Learning (DIVL)

Q-learning via Adjoint Matching (QAM) 적용

Flow-based VLA 정책의 복잡한 역전파 문제를 해결하기 위해 Adjoint Matching을 통한 정책 추출 방식을 채택하여 생성형 액션 모델을 안정적으로 업데이트했다.

실제 로봇 함대 검증

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

실제 물류 센터나 가정용 로봇 서비스에서 다수의 로봇을 운영하며 성능을 실시간으로 고도화해야 하는 환경에 즉시 적용 가능한 프레임워크이다.

대규모 물류 창고 내 다수 로봇의 자율 재고 정리 및 재입고 시스템 최적화
서비스 로봇 함대의 실시간 경험 공유를 통한 새로운 매장 환경 조기 적응
인간의 간헐적 개입을 학습 신호로 전환하여 로봇의 예외 상황 처리 능력 강화

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLA(시각-언어-행동 모델)Reinforcement Learning(강화학습)Robot Fleet(로봇 함대)Continual Learning(지속 학습)Distributional RL(분포 강화학습)

배포 중 학습: 범용 로봇 정책을 위한 함대 규모의 강화학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

배포 중 학습: 범용 로봇 정책을 위한 함대 규모의 강화학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드