RoboMME: 로봇 범용 정책을 위한 메모리 벤치마킹 및 이해

왜 중요한가

로봇이 복잡한 작업을 수행하려면 과거의 행동이나 가려진 물체의 위치를 기억하는 능력이 필수적이지만, 기존 VLA 모델들은 메모리 활용 능력을 체계적으로 평가받지 못했다. 이 논문은 4가지 인지적 차원의 메모리를 평가하는 대규모 벤치마크와 14종의 메모리 증강 모델을 제시하여 로봇 지능의 핵심인 기억 메커니즘을 심층 분석한다.

핵심 기여

RoboMME 벤치마크 구축

시간적, 공간적, 객체적, 절차적 메모리를 평가하는 16개의 장기 작업(long-horizon)과 77만 개의 고품질 학습 데이터를 포함하는 대규모 시뮬레이션 환경을 구축했다.

메모리 인지 분류 체계 제안

로봇 조작에 필요한 기억을 사건의 순서(Temporal), 물체의 위치(Spatial), 참조 정체성(Object), 동작 패턴(Procedural)의 4가지 차원으로 체계화하여 평가 기준을 마련했다.

MME-VLA 모델 제품군 개발

π0.5 모델을 기반으로 Symbolic, Perceptual, Recurrent 메모리 표현과 3가지 통합 전략(Context, Modulator, Expert)을 결합한 14가지 모델 변형을 구현하여 성능을 비교했다.

메모리 효율성 및 성능 분석

실험을 통해 단일 메모리 설계가 모든 작업에 최적은 아니며, Perceptual Memory와 Modulator 통합 방식이 성능과 효율성 사이에서 가장 우수한 균형을 보임을 입증했다.

핵심 아이디어 이해하기

기존의 Vision-Language-Action(VLA) 모델은 주로 현재 관찰되는 이미지(Observation)에 의존하여 다음 행동을 결정하는 Markovian 방식을 취한다. 하지만 실제 환경에서는 물체가 가려지거나(Occlusion), 특정 횟수만큼 반복 작업을 수행해야 하는 등 과거의 정보를 참조해야만 해결 가능한 Non-Markovian 상황이 빈번하게 발생한다.

이 논문은 인간의 인지 이론에서 영감을 받아 로봇의 기억을 4가지 유형으로 정의하고, 이를 모델 아키텍처에 주입하는 다양한 방법을 탐구한다. 단순히 과거 프레임을 입력에 추가하는 것을 넘어, 언어적 요약(Symbolic), 시각적 토큰 추출(Perceptual), 상태 압축(Recurrent) 등 다양한 형태로 과거 데이터를 가공하여 모델의 의사결정에 반영한다.

특히 π0.5와 같은 대규모 모델의 가중치를 직접 수정하지 않고도 외부 메모리 정보를 효과적으로 결합하기 위해, 입력 토큰에 이어 붙이거나(Context), 레이어 정규화(LayerNorm)를 통해 변조하거나(Modulator), 별도의 전용 전문가 레이어를 두는(Expert) 방식을 비교 분석한다. 이를 통해 로봇이 '무엇을', '어떻게' 기억해야 하는지에 대한 기술적 가이드를 제공한다.

방법론

RoboMME 벤치마크는 ManiSkill 시뮬레이터를 기반으로 7자유도 Franka Panda 로봇 팔 환경에서 구축되었다. 16개의 작업은 Counting(시간), Permanence(공간), Reference(객체), Imitation(절차)의 4개 스위트로 나뉘며, 총 1,600개의 시연 데이터와 77만 타임스텝의 궤적을 제공한다.

메모리 표현 방식은 세 가지로 구분된다. Symbolic Memory는 VLM을 사용하여 과거 이력을 언어적 하위 목표(Subgoal)로 요약한다. Perceptual Memory는 과거 이미지에서 중요한 시각적 토큰을 샘플링하거나 중복을 제거(Token Dropping)하여 유지한다. Recurrent Memory는 TTT(Test-Time Training)나 RMT(Recurrent Memory Transformer)를 통해 이력을 고정된 크기의 잠재 상태로 압축한다.

메모리 통합 메커니즘은 π0.5 백본과의 상호작용 방식에 따라 나뉜다. Memory-as-Context는 메모리 토큰을 입력에 직접 연결한다. Memory-as-Modulator는 AdaLN(Adaptive LayerNorm)을 사용하여 중간 활성화 값을 조절한다. [입력 특징량 → Cross-Attention 연산 → Scale/Shift 파라미터 생성 → 정규화된 특징량 변조] 순으로 메모리 정보를 주입한다. Memory-as-Expert는 별도의 트랜스포머 레이어를 할당하여 메모리 토큰을 독립적으로 처리한 후 행동 전문가가 이를 참조하게 한다.

주요 결과

실험 결과, 모든 작업에서 압도적인 단일 모델은 없었으나 Perceptual Memory 기반 모델들이 전반적으로 우수한 성능을 보였다. 특히 Frame Sampling과 Modulator를 결합한 방식이 44.51%의 성공률로 비오라클 모델 중 최고 성능을 기록했다.

작업 특성에 따른 성능 차이가 뚜렷했다. Symbolic Memory는 Counting 작업과 같이 명확한 논리적 단계가 필요한 짧은 호라이즌 작업에서 강점을 보였으나, 정밀한 제어가 필요한 StopCube나 InsertPeg 작업에서는 한계를 보였다. 반면 Perceptual Memory는 시간 민감도가 높거나 복잡한 동작 모사가 필요한 작업에서 필수적이었다.

효율성 측면에서 Perceptual Memory는 메모리 예산(토큰 수) 증가에 따라 성능이 안정적으로 향상되면서도 추가 연산 비용이 적었다. 반면 외부 VLM 추론에 의존하는 Symbolic 방식은 π0.5 대비 약 3배, MemER 방식은 약 5배의 높은 연산 오버헤드를 발생시켰다.

실무 활용

RoboMME는 로봇의 장기 기억 능력을 객관적으로 평가할 수 있는 표준을 제공하며, 개발자는 제공된 MME-VLA 프레임워크를 통해 자사 로봇 모델에 최적화된 메모리 구조를 선택하고 학습시킬 수 있다.

가려진 물체의 위치를 기억하여 조작해야 하는 물류 자동화 로봇 개발
반복 횟수를 정확히 세어야 하는 조립 공정용 로봇의 제어 정책 학습
사람의 시연 동작을 기억하고 복잡한 경로를 따라가는 가사 지원 로봇 구현
다양한 메모리 증강 기법의 성능과 연산 비용을 비교하는 R&D 벤치마킹

기술 상세

아키텍처는 π0.5 백본을 공유하며, VLM 전문가와 행동(Action) 전문가로 구성된 멀티 전문가 트랜스포머 구조를 채택한다. Flow-matching 목적 함수를 통해 가우시안 노이즈로부터 행동 궤적을 생성하는 속도 필드를 학습한다.

Perceptual Memory의 Token Dropping 기법은 RGB 차이 기반의 중요도 점수를 계산하여 상위 K개의 토큰만 유지한다. [프레임 간 픽셀 차이 계산 → 시간적 변화량 산출 → 토큰별 점수 부여 → Top-K 선택] 과정을 통해 메모리 예산 내에서 정보 밀도를 극대화한다.

Recurrent Memory의 RMT 구현은 512개의 지속적 메모리 슬롯을 유지하며, 각 타임스텝마다 관찰 토큰을 청크 단위로 처리하여 슬롯을 순환적으로 업데이트한다. TTT 방식은 자가 지도 학습 손실을 통해 온라인으로 가중치를 업데이트하여 이력을 파라미터 공간에 암시적으로 저장한다.

Memory-as-Expert 설계는 18개 레이어의 전용 트랜스포머를 사용하여 메모리 토큰을 처리한다. 행동 전문가는 VLM 특징과 메모리 특징 모두에 Attention을 수행하지만, VLM과 메모리 전문가는 서로 간섭하지 않도록 설계되어 기존 VLM의 사전 학습된 지식을 보존한다.

한계점

RoboMME는 현재 테이블탑 조작 환경과 고정된 자산 세트에 집중되어 있어, 모바일 로봇 조작이나 더 다양한 환경으로의 확장이 필요하다. 또한 π0.5라는 단일 백본 모델에서 평가가 이루어졌으므로 다른 VLA 아키텍처에서의 일반화 가능성에 대한 추가 연구가 요구된다.

키워드

VLA(시각-언어-행동 모델)Robotic Memory(로봇 메모리)Benchmark(벤치마크)Long-horizon Manipulation(장기 조작)Cognitive Taxonomy(인지 분류 체계)