상상력을 언제 신뢰할 것인가: 세계 행동 모델을 위한 적응형 행동 실행

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 로봇 제어 모델은 정해진 횟수만큼 행동을 맹목적으로 실행하여 환경 변화에 취약하거나 불필요한 연산을 반복하는 한계가 있었다. 이 논문은 로봇이 자신의 예측(상상)과 실제 관측값을 실시간으로 비교하여 실행 길이를 조절하는 방식을 제안해 효율성과 안정성을 동시에 확보했다.

왜 중요한가

기존 로봇 제어 모델은 정해진 횟수만큼 행동을 맹목적으로 실행하여 환경 변화에 취약하거나 불필요한 연산을 반복하는 한계가 있었다. 이 논문은 로봇이 자신의 예측(상상)과 실제 관측값을 실시간으로 비교하여 실행 길이를 조절하는 방식을 제안해 효율성과 안정성을 동시에 확보했다.

핵심 기여

미래-현실 검증 프레임워크 정립

세계 행동 모델(WAM)의 예측된 미래 시각 정보와 실제 물리적 실행 결과를 비교하여 남은 행동 시퀀스의 신뢰도를 평가하는 적응형 실행 문제를 공식화했다.

FFDC(Future Forward Dynamics Causal Attention) 제안

예측된 행동, 시각적 역학, 실제 관측값 및 언어 지시사항을 통합적으로 추론하여 현재 실행 중인 계획의 유지 여부를 결정하는 경량 검증 모듈을 개발했다.

Mixture-of-Horizon Training 도입

적응형 실행 환경에서 다양한 길이의 궤적을 효과적으로 처리할 수 있도록 학습 시 샘플링 전략을 개선하여 모델의 장기 예측 능력을 강화했다.

핵심 아이디어 이해하기

기존의 로봇 정책은 현재 상태에서 행동을 결정하는 데 집중하지만, World Action Model(WAM)은 행동과 함께 그 결과로 나타날 미래의 모습(시각적 변화)을 동시에 상상한다. 하지만 지금까지는 이 상상된 미래를 단순히 행동 생성의 보조 수단으로만 사용했을 뿐, 실제 실행 과정에서 상상이 현실과 일치하는지 확인하는 용도로는 쓰지 않았다.

FFDC는 Transformer의 Attention 메커니즘을 활용해 로봇이 상상한 미래 이미지와 실제 카메라로 들어오는 현재 이미지를 실시간으로 대조한다. 만약 로봇이 컵을 잡으러 가는 과정에서 상상한 궤적과 실제 움직임이 일치한다면, 모델을 다시 호출하지 않고 기존 계획을 길게 유지하여 연산 비용을 아낀다.

반대로 물체가 미끄러지거나 장애물이 나타나 상상과 현실의 오차가 커지면, FFDC는 즉시 신뢰 점수를 낮추어 실행을 중단하고 새로운 계획을 세우도록 유도한다. 이는 인간이 계단을 오를 때 발을 헛디디는 순간 즉각적으로 반응하는 것과 유사한 원리로, 고정된 주기가 아닌 상황의 난이도에 따른 유연한 제어를 가능하게 한다.

방법론

FFDC-WAM 프레임워크는 저주파 매크로 플래닝을 담당하는 WAM 백본과 고주파 검증을 수행하는 FFDC 모듈로 구성된다. WAM은 Motus 아키텍처를 기반으로 하며, Rectified Flow-matching 손실 함수를 사용하여 행동과 비디오 토큰을 동시에 예측한다.

FFDC 검증기는 N-레이어 Transformer 구조를 채택했다. 입력값으로 언어 지시 토큰 L, WAM이 예측한 과거/미래 비디오 토큰 O, 현재 실제 관측 토큰 Ot, 그리고 계획된 행동 A를 받는다. [입력 토큰들 → Masked Causal Attention 연산 → [CLS] 토큰 추출] 과정을 거쳐 현재 계획의 유효성을 나타내는 신뢰 점수 et를 출력한다. et가 임계값 0.5보다 높으면 실행을 지속하고, 낮으면 즉시 재계획(Replanning)을 수행한다.

학습을 위해 성공한 시연 데이터뿐만 아니라 실패한 사례 및 인위적으로 노이즈를 섞은 합성 데이터를 포함하는 이진 분류 데이터셋을 구축했다. 이를 통해 모델은 어떤 상황에서 자신의 상상이 틀릴 가능성이 높은지를 학습하며, KV 캐싱 기법을 적용해 검증 시 WAM 전체를 다시 실행하지 않고도 효율적인 추론이 가능하도록 설계했다.

주요 결과

RoboTwin 벤치마크 실험 결과, FFDC-WAM은 고정된 짧은 단위(chunk size 16) 실행 방식 대비 성공률을 2.54% 높이면서도 모델 호출 횟수를 69.10% 줄였다. 전체 작업 완료 시간은 34.02% 단축되어 효율성과 강건성 사이의 최적의 트레이드오프를 달성했다.

난이도가 높은 작업(Hard tasks)에서 성능 향상이 두드러졌다. 예를 들어 'Hanging Mug' 작업에서 고정형 모델은 정밀 제어가 필요한 마지막 단계에서 실패하는 경우가 많았으나, FFDC는 해당 구간에서 신뢰도가 떨어짐을 감지하고 빈번한 재계획을 수행하여 성공률을 크게 높였다.

실제 로봇(Astribot S1)을 이용한 바나나 및 당근 옮기기 실험에서도 기존 방식 대비 성공률이 45%에서 80%로 약 35%p 향상되었다. 이는 실제 환경의 노이즈와 접촉 불확실성 상황에서 적응형 실행이 필수적임을 입증한다.

기술 상세

FFDC는 WAM의 잠재 특징(Latent features)을 직접 활용하여 시각적 역학의 일관성을 평가한다. 특히 Masked Causal Attention을 통해 미래 시각 토큰이 해당 시점까지의 행동 토큰에만 의존하도록 제한함으로써 정보 누출을 방지하고 인과 관계를 보존한다.

학습 전략인 Mixture-of-Horizon Training은 에피소드 내에서 다양한 시작점과 예측 길이를 샘플링하여 모델이 초기 단계에만 편향되지 않고 전체 작업 과정에 걸쳐 균일한 예측 성능을 내도록 유도한다. 또한 데이터 증강 기법으로 Temporal Swap, Gripper Flip, Tail Scaling 등을 적용하여 검증기의 판별 능력을 극대화했다.

한계점

현재 FFDC는 성공, 실패, 합성된 오류 세그먼트를 이용한 이진 감독 학습에 의존하고 있어, 실제 환경에서 발생할 수 있는 매우 다양한 형태의 실행 편차를 모두 포괄하지 못할 가능성이 있다. 더 풍부하고 다양한 실패 모드를 포함하는 실제 데이터를 통한 확장이 필요하다.

실무 활용

복잡한 물리적 상호작용이 필요한 제조 및 서비스 로봇 분야에서 연산 자원을 효율적으로 배분하면서도 작업 성공률을 높이는 데 즉시 활용 가능하다.

장애물이 빈번하게 등장하는 동적 환경에서의 물류 이송 로봇 제어
정밀한 접촉 피드백이 필요한 조립 공정의 적응형 재계획 시스템
엣지 디바이스에서 구동되는 로봇의 추론 에너지 소비 최적화

코드 공개 여부: 비공개

키워드

WAM(세계 행동 모델)Adaptive Execution(적응형 실행)Robotic Manipulation(로봇 조작)Self-Verification(자기 검증)Causal Attention(인과적 어텐션)