멀티 스케일 임베디드 메모리(MEM): 로봇의 장기 작업 수행을 위한 이중 기억 아키텍처

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 로봇 정책 모델인 VLA는 기억력 부족으로 인해 주방 청소와 같은 장기 작업을 수행하는 데 어려움이 있었다. Physical Intelligence와 스탠포드 등 공동 연구진은 이를 해결하기 위해 단기 비디오 기억과 장기 언어 기억을 분리한 Multi-Scale Embodied Memory(MEM)를 개발했다. 단기 기억은 세밀한 공간 인식을 담당하고, 장기 기억은 작업의 전체적인 맥락을 언어 형태로 압축하여 관리한다. 이 시스템을 적용한 pi0.6 모델은 냉장고 문 열기 등 적응형 작업에서 성공률이 최대 62% 향상되었으며, NVIDIA H100 GPU에서 실시간 추론이 가능하다.

배경

Vision-Language-Action (VLA) 모델에 대한 이해, Transformer 아키텍처 및 Attention 메커니즘 지식, Embodied AI의 기본 개념

대상 독자

로봇 공학자, Embodied AI 연구원, VLA 모델 개발자

의미 / 영향

이 연구는 로봇이 단순 반복 작업을 넘어 가사 노동과 같은 복잡하고 긴 시퀀스의 작업을 수행할 수 있는 기술적 토대를 마련했다. 특히 언어를 메모리 압축 수단으로 활용함으로써 대규모 멀티모달 모델의 추론 비용 문제를 해결하는 실용적인 방향을 제시한다.

섹션별 상세

MEM은 로봇의 메모리를 단기 비디오 메모리와 장기 언어 메모리의 두 가지 척도로 분리하여 실시간 제어와 의미론적 맥락 유지 사이의 균형을 맞춘다. 단기 메모리는 세밀한 공간 인식을 위해 고밀도 시각 데이터를 처리하며, 장기 메모리는 최대 15분 동안의 이벤트를 언어 기반으로 요약하여 저장한다.

단기 비디오 메모리는 효율적인 비디오 인코더를 사용하여 Vision Transformer(ViT)를 확장하며, 실시간 추론을 위해 Space-Time Separable Attention 기법을 적용한다. 모든 패치에 대해 공동 어텐션을 수행하는 대신 프레임 내 공간 어텐션과 프레임 간 인과-시간 어텐션을 교차로 배치하여 계산 복잡도를 O(n2K2)에서 O(Kn2+nK2)로 낮춘다. 상위 레이어에서 과거 타임스텝의 토큰을 제거함으로써 VLA 백본에 전달되는 토큰 수를 단일 프레임 모델 수준으로 유지한다.

장기 언어 메모리는 고수준 정책(πHL)이 과거 사건을 언어로 요약하고 저수준 정책(πLL)에 하위 작업 지침을 전달하는 계층적 구조로 작동한다. LLM이 생성한 요약 데이터를 학습에 활용하여 '그릇 세 개를 놓았다'와 같은 압축된 정보를 유지함으로써 학습과 추론 사이의 분포 차이를 줄인다. 이러한 방식은 로봇이 작업의 전체 흐름을 파악하고 다음 행동을 결정하는 데 필요한 의미론적 정보를 효과적으로 보존한다.

연구팀은 MEM을 Gemma 3-4B 모델 기반의 pi0.6 VLA에 통합하여 다양한 로봇 시연 및 인터넷 비디오 데이터로 사전 학습을 진행했다. 실험 결과, 냉장고 경첩 방향을 모르는 상태에서 문을 여는 적응형 작업에서 성공률이 62% 증가했으며, 젓가락 집기 작업에서도 11%의 성능 향상을 보였다. 특히 '레시피 준비'나 '주방 청소'와 같이 15분이 소요되는 장기 작업에서 기존 메모리 없는 모델 대비 월등한 수행 능력을 입증했다.

실무 Takeaway

로봇의 메모리를 시각적 단기 기억과 언어적 장기 기억으로 이원화하면 계산 효율성을 유지하면서도 15분 이상의 장기 작업을 수행할 수 있다.
Space-Time Separable Attention과 토큰 드롭 기법을 활용하면 다중 프레임 데이터를 처리하면서도 NVIDIA H100에서 380ms 이내의 실시간 추론 성능을 확보할 수 있다.
실패 상황에서 과거 경험을 바탕으로 전략을 수정하는 In-Context Adaptation 능력을 통해 미지의 환경에서도 로봇의 작업 성공률을 60% 이상 높일 수 있다.

언급된 리소스

논문MEM Technical Paper