로봇의 기억 상실증을 해결하는 MeM: 단기 비디오와 장기 언어 기억의 결합 | AI Trends

엥지유니버스Robotics

로봇의 기억 상실증을 해결하는 MeM: 단기 비디오와 장기 언어 기억의 결합

로봇 VLA 모델의 한계인 기억력을 개선하기 위해 단기 비디오 기억과 장기 언어 기억을 결합한 MeM 아키텍처의 설계 원리와 실무 적용 사례를 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

로봇이 복잡한 장기 작업을 수행하기 위해서는 수 초 단위의 시각적 연속성을 보장하는 비디오 메모리와 수 분 단위의 작업 맥락을 유지하는 언어 메모리의 이중 구조가 필수적이다.

배경

기존의 로봇 VLA 모델들은 과거의 정보를 기억하는 능력이 부족하여 이미 수행한 작업을 반복하거나 사소한 실수에도 루프에 빠지는 한계가 있었다.

대상 독자

로봇 AI 연구자, VLA 모델 개발자, Physical AI 트렌드에 관심 있는 엔지니어

의미 / 영향

로봇이 수십 분에 달하는 복잡한 가사 노동이나 공정 작업을 수행할 수 있는 기술적 토대를 마련했다. 특히 고가의 연산 자원 없이도 효율적인 메모리 관리를 통해 실시간 제어가 가능하다는 점이 실무적으로 매우 중요하다.

챕터별 상세

00:00

로봇에게 기억 구조가 필요한 이유

로봇이 물리적 환경에서 작업을 수행할 때 현재 프레임만 보고 판단하면 과거의 실수를 반복하거나 작업의 진행 단계를 잊어버리는 문제가 발생한다. 특히 컵을 옮기는 도중 팔이 시야를 가리는 '자기 가림' 현상이 발생하면 로봇은 물체의 위치를 놓치게 된다. 이러한 한계를 극복하기 위해 로봇의 뇌에 해당하는 VLA 모델에 체계적인 메모리 시스템을 설계하는 것이 Physical AI의 핵심 과제이다.

01:26

기존 VLA 모델의 한계와 연산량 문제

과거의 모든 카메라 프레임을 모델의 컨텍스트로 입력하는 'Dense History' 방식은 연산량이 폭증하는 치명적인 단점이 있다. 로봇이 10Hz 주기로 동작할 때 1분만 지나도 600장의 이미지가 쌓이며, 이를 Transformer 모델이 실시간으로 처리하는 것은 사실상 불가능하다. 이로 인해 추론 지연 시간이 발생하며 로봇이 정교한 조작을 수행하지 못하고 멈칫거리는 현상이 나타난다.

04:29

MeM 아키텍처: 시공간 압축 이중 구조

MeM은 단기 비디오 메모리와 장기 언어 메모리를 결합한 하이브리드 구조를 채택했다. 단기 메모리는 'Space-Time Separable Attention'을 사용하는 비디오 인코더를 통해 최근 수 초간의 시각 정보를 효율적으로 압축하여 저장한다. 장기 메모리는 로봇이 수행한 작업을 '감자를 씻었다'와 같은 텍스트 형태로 요약하여 저장하는 'Semantic Compression' 기법을 사용하여 토큰 소모를 최소화하면서도 수십 분간의 맥락을 유지한다.

12:47

인컨텍스트 적응: 실패를 통해 배우는 로봇

MeM은 학습 데이터에 '실패한 시도 -> 교정된 행동' 시퀀스를 포함시켜 로봇이 실시간으로 실수를 수정하도록 설계했다. 로봇이 젓가락을 집으려다 헛손질을 하면, 그 실패 장면이 비디오 메모리에 기록되고 모델은 이를 바탕으로 다음 시도에서 그리퍼의 높이를 조절한다. 이는 모델의 가중치를 업데이트하지 않고도 문맥 정보를 활용해 행동을 최적화하는 'In-Context Adaptation'의 전형적인 사례이다.

17:08

실험 결과 및 장기 작업 수행 능력 검증

15분 이상의 장기 작업인 '주방 청소'와 '레시피 준비' 시나리오에서 MeM은 기존 모델 대비 압도적인 성능 향상을 보였다. 메모리가 없는 모델은 작업 성공률이 20~40% 수준에 머물렀으나, MeM은 70~90%에 달하는 높은 진행률을 기록했다. 특히 비디오 메모리만 있거나 언어 메모리만 있는 경우보다 두 가지를 모두 결합했을 때 복잡한 환경 변화에 가장 유연하게 대처함이 확인됐다.

실무 Takeaway

비디오 데이터를 Transformer에 직접 입력하면 연산량이 폭증하므로 시공간 분리 어텐션을 통해 현재 토큰에 과거 정보를 압축하는 설계가 필요하다.
장기 기억은 텍스트 기반의 의미적 요약(Semantic Compression)을 활용해야 토큰 효율성을 유지하면서 수십 분 단위의 작업 맥락을 보존할 수 있다.
로봇의 지능은 단순한 행동 생성을 넘어 과거의 실패를 현재의 컨텍스트로 수용하고 즉각적으로 행동을 수정하는 메모리 활용 능력에서 결정된다.

언급된 리소스

논문MeM: Multi-Scale Embodied Memory for Vision Language Action Models

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 14.수집 2026. 03. 14.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.