수동적 관찰자에서 능동적 비평가로: 로봇 조작을 위한 프로세스 추론을 유도하는 강화학습

기존 비디오 AI 모델은 단순히 상황을 묘사할 뿐, 작업이 얼마나 완료되었는지 정확히 판단하지 못하는 한계가 있었다. 이 논문은 강화학습을 통해 AI가 스스로 작업 단계를 추론하게 함으로써, 대형 모델보다 뛰어난 정확도로 로봇의 작업 진행률을 측정하고 실패를 감지하는 기술적 토대를 마련함.

핵심 요약

왜 중요한가

핵심 기여

PRIMO R1 프레임워크 도입

비디오 MLLM을 능동적 비평가로 전환하여 작업 진행률 추정 및 실패 감지 성능을 SOTA 수준으로 끌어올린 7B 규모의 추론 모델임.

구조적 시간 앵커링 입력 전략

초기 상태, 비디오 시퀀스, 현재 상태를 명시적으로 연결하는 입력을 통해 시각적 경계 조건을 명확히 하고 상태 정렬 정확도를 높임.

GRPO 기반 프로세스 추론 강화학습

Group Relative Policy Optimization을 활용하여 조밀한 주석 없이도 모델이 스스로 논리적인 사고 체인을 생성하고 진행률을 예측하도록 유도함.

PRIMO 데이터셋 및 벤치마크 구축

SFT와 RL 학습을 위한 30만 개 이상의 샘플과 도메인 전이 성능 평가를 위한 체계적인 벤치마크를 포함함.

핵심 아이디어 이해하기

기존 비디오 MLLM은 주로 Supervised Fine-Tuning(SFT)을 통해 학습되어, 화면에 보이는 사건을 단순히 설명하는 '관찰자' 역할에 머물러 있다. 이는 로봇 조작처럼 긴 시간 동안 정밀한 목표 달성 여부를 판단해야 하는 작업에서, 현재 상태와 최종 목표 사이의 논리적 거리를 계산하지 못하고 시각적 유사성에만 의존해 실패를 성공으로 오판하는 문제를 야기한다. PRIMO R1은 이를 해결하기 위해 모델이 최종 수치를 내놓기 전, 반드시 '계획-관찰-추론'의 단계를 거치도록 설계되었다. 이는 딥러닝의 사고 체인 개념을 로봇 제어의 상태 추정 문제에 도입한 것으로, 모델이 단순히 픽셀 데이터를 처리하는 것을 넘어 작업의 논리적 구조를 이해하게 만든다. 특히 강화학습 기법인 GRPO를 적용하여, 모델이 생성한 여러 사고 경로 중 실제 정답에 가장 가깝게 도달한 경로에 더 높은 보상을 주는 방식으로 스스로 학습하게 한다. 결과적으로 7B 크기의 작은 모델이 72B 규모의 거대 모델보다 더 정교하게 로봇의 움직임을 비판적으로 분석할 수 있게 된다.

방법론

입력 데이터는 초기 상태 이미지, 실행 과정을 담은 비디오, 현재 결과물 이미지의 세 가지 시각 정보와 작업 목표를 담은 언어 지시문으로 구성됨. 이 'Triad' 구조는 시간적 흐름의 시작과 끝을 명확히 고정하여 모델이 모호한 비디오 데이터 속에서 정확한 상태 변화를 포착할 수 있는 기준점을 제공함. 학습은 CoT 주석이 포함된 샘플로 SFT를 수행한 뒤, GRPO를 사용하여 모델을 고도화하는 2단계 파이프라인으로 진행됨. 보상 함수는 형식 보상과 정확도 보상의 합으로 정의되며, 정확도 보상은 예측값과 정답 사이의 거리를 기반으로 계산됨. [예측값과 정답의 차이를 입력으로] -> [최대 오차 범위로 나누어 1에서 빼는 연산을 수행해] -> [0에서 1 사이의 숫자를 얻고] -> [이 숫자가 1에 가까울수록 모델의 수치적 추론이 정확함을 의미]함.

주요 결과

평균 MRA 82.90, MAE 15.52를 기록하며 모든 오픈소스 베이스라인을 압도함. 특히 72B 규모의 Qwen2.5-VL 모델보다 MRA 기준 9.10 포인트 높은 성능을 보임. 실제 휴머노이드 로봇을 이용한 OOD 실험에서도 72.32 MRA를 유지하며 강력한 일반화 성능을 입증함. 실패 감지 벤치마크인 RoboFail에서 67.0%의 정확도를 달성하여 OpenAI o1(61.0%) 및 GPT-4o(63.0%)와 같은 폐쇄형 모델보다 뛰어난 성능을 나타냄.

실무 활용

로봇이 작업을 수행하는 동안 실시간으로 성공 여부와 진행 단계를 스스로 모니터링할 수 있는 강력한 보상 모델로 활용 가능함.

자율 주행 로봇의 작업 완료 여부 자동 검수
로봇 학습을 위한 고품질의 조밀한 보상 신호 생성
산업용 로봇의 실시간 공정 오류 감지 및 알림 시스템
복잡한 가사 노동 로봇의 단계별 진행 상황 보고

기술 상세

Qwen2.5-VL-7B-Instruct를 기반 아키텍처로 채택하였으며, 비디오 입력을 최대 32프레임까지 처리할 수 있도록 확장함. 핵심은 비디오 시퀀스를 초기 상태와 현재 상태 이미지 사이에 배치하는 구조적 프롬프팅 전략임. 학습 알고리즘인 GRPO는 각 작업에 대해 G개의 출력을 샘플링하고 그룹 내 상대적 보상을 통해 어드밴티지를 계산하여 정책을 업데이트함. 추론 과정은 Planning, Observation, Reasoning의 세 모듈로 구조화됨. Planning 모듈은 고수준 목표를 선형 실행 계획으로 변환하며, Reasoning 모듈은 이 계획 대비 실제 완료된 단계의 비율을 계산하여 최종 진행률을 도출함. 모델의 추론 체인 길이는 평균 359.18 토큰이며 추론 시간은 약 0.62초로 실시간 로봇 제어 루프에 적합한 효율성을 확보함.

키워드

MLLM(멀티모달 대형 언어 모델)Reinforcement Learning(강화학습)Robotic Manipulation(로봇 조작)Process Reasoning(프로세스 추론)Failure Detection(실패 감지)

수동적 관찰자에서 능동적 비평가로: 로봇 조작을 위한 프로세스 추론을 유도하는 강화학습

핵심 요약

왜 중요한가

핵심 기여

PRIMO R1 프레임워크 도입

비디오 MLLM을 능동적 비평가로 전환하여 작업 진행률 추정 및 실패 감지 성능을 SOTA 수준으로 끌어올린 7B 규모의 추론 모델임.

구조적 시간 앵커링 입력 전략

초기 상태, 비디오 시퀀스, 현재 상태를 명시적으로 연결하는 입력을 통해 시각적 경계 조건을 명확히 하고 상태 정렬 정확도를 높임.

GRPO 기반 프로세스 추론 강화학습

Group Relative Policy Optimization을 활용하여 조밀한 주석 없이도 모델이 스스로 논리적인 사고 체인을 생성하고 진행률을 예측하도록 유도함.

PRIMO 데이터셋 및 벤치마크 구축

SFT와 RL 학습을 위한 30만 개 이상의 샘플과 도메인 전이 성능 평가를 위한 체계적인 벤치마크를 포함함.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

로봇이 작업을 수행하는 동안 실시간으로 성공 여부와 진행 단계를 스스로 모니터링할 수 있는 강력한 보상 모델로 활용 가능함.

자율 주행 로봇의 작업 완료 여부 자동 검수
로봇 학습을 위한 고품질의 조밀한 보상 신호 생성
산업용 로봇의 실시간 공정 오류 감지 및 알림 시스템
복잡한 가사 노동 로봇의 단계별 진행 상황 보고

기술 상세

키워드

MLLM(멀티모달 대형 언어 모델)Reinforcement Learning(강화학습)Robotic Manipulation(로봇 조작)Process Reasoning(프로세스 추론)Failure Detection(실패 감지)

수동적 관찰자에서 능동적 비평가로: 로봇 조작을 위한 프로세스 추론을 유도하는 강화학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

수동적 관찰자에서 능동적 비평가로: 로봇 조작을 위한 프로세스 추론을 유도하는 강화학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글