핵심 요약
기존 로봇 정책 모델인 VLA는 기억력 부족으로 인해 주방 청소와 같은 장기 작업을 수행하는 데 어려움이 있었다. Physical Intelligence와 스탠포드 등 공동 연구진은 이를 해결하기 위해 단기 비디오 기억과 장기 언어 기억을 분리한 Multi-Scale Embodied Memory(MEM)를 개발했다. 단기 기억은 세밀한 공간 인식을 담당하고, 장기 기억은 작업의 전체적인 맥락을 언어 형태로 압축하여 관리한다. 이 시스템을 적용한 pi0.6 모델은 냉장고 문 열기 등 적응형 작업에서 성공률이 최대 62% 향상되었으며, NVIDIA H100 GPU에서 실시간 추론이 가능하다.
배경
Vision-Language-Action (VLA) 모델에 대한 이해, Transformer 아키텍처 및 Attention 메커니즘 지식, Embodied AI의 기본 개념
대상 독자
로봇 공학자, Embodied AI 연구원, VLA 모델 개발자
의미 / 영향
이 연구는 로봇이 단순 반복 작업을 넘어 가사 노동과 같은 복잡하고 긴 시퀀스의 작업을 수행할 수 있는 기술적 토대를 마련했다. 특히 언어를 메모리 압축 수단으로 활용함으로써 대규모 멀티모달 모델의 추론 비용 문제를 해결하는 실용적인 방향을 제시한다.
섹션별 상세
실무 Takeaway
- 로봇의 메모리를 시각적 단기 기억과 언어적 장기 기억으로 이원화하면 계산 효율성을 유지하면서도 15분 이상의 장기 작업을 수행할 수 있다.
- Space-Time Separable Attention과 토큰 드롭 기법을 활용하면 다중 프레임 데이터를 처리하면서도 NVIDIA H100에서 380ms 이내의 실시간 추론 성능을 확보할 수 있다.
- 실패 상황에서 과거 경험을 바탕으로 전략을 수정하는 In-Context Adaptation 능력을 통해 미지의 환경에서도 로봇의 작업 성공률을 60% 이상 높일 수 있다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.