Stanford OnlineRobotics

장기 작업 로봇 자율성을 위한 핵심 요소 개발: 메모리와 범용성

Physical Intelligence의 Karl Pertsch가 로봇의 장기 과업 수행을 위해 필수적인 다중 스케일 메모리 아키텍처와 고성능 범용 제어 모델인 pi0.7의 핵심 기술을 소개한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

로봇이 수 분 이상의 작업을 수행하려면 시각적/언어적 정보를 압축하여 저장하는 다중 스케일 메모리가 필요하며, pi0.7과 같은 모델은 다양한 조건부 학습을 통해 범용성과 고성능을 동시에 달성할 수 있다.

배경

Physical Intelligence의 Karl Pertsch가 스탠포드 로보틱스 세미나에서 로봇이 복잡한 일상 과업을 수행하기 위해 필요한 기술적 돌파구를 발표했다.

대상 독자

로보틱스 연구자, AI 모델 아키텍트, 임베디드 AI 개발자 및 물리적 자동화 기술에 관심 있는 전문가

의미 / 영향

이 연구는 로봇이 단순 반복 작업을 넘어 가사 노동이나 복잡한 제조 공정처럼 긴 호흡의 작업을 수행할 수 있는 실질적인 아키텍처를 제시했다. 특히 pi0.7 모델의 조건부 제어 방식은 데이터 수집의 난이도를 낮추고 이종 로봇 간의 지능 공유를 가능하게 하여 로봇 파운데이션 모델의 상용화를 앞당길 것으로 보인다. 향후 고수준의 언어 추론과 저수준의 정교한 조작 지능이 결합됨에 따라 인간과 자연어로 소통하며 협업하는 범용 서비스 로봇의 등장이 가속화될 것이다.

챕터별 상세

00:45

장기 작업 자율성의 정의와 필요성

현재 로봇 기술은 자물쇠를 열거나 물체를 옮기는 등의 짧고 정교한 동작(Short-horizon tasks)은 잘 수행하지만, 집 전체를 청소하거나 식재료를 준비하는 긴 작업에는 취약하다. 장기 작업 자율성은 로봇이 수 시간 동안 인간의 개입 없이 복잡한 과업을 완수하는 능력을 의미한다. 이를 위해서는 과거의 상태를 기억하는 메모리, 개별 기술의 견고함, 그리고 새로운 환경에 대한 강력한 일반화 능력이 필수적이다.

06:50

로봇 모델에 메모리가 없는 이유와 문제점

대부분의 최신 로봇 정책(Policy)은 현재 시점의 이미지만 보고 동작을 결정하는 '메모리 없는' 구조를 가진다. 이로 인해 로봇은 방금 설거지한 접시를 기억하지 못해 무한 루프에 빠지거나, 가스레인지에 음식을 올린 시간을 잊어버려 태우는 등의 오류를 범한다. 단순히 과거 프레임을 모두 입력하면 추론 속도가 급격히 느려지고, 학습 데이터(전문가 시연)에는 없는 '실수 상황'이 입력에 포함되면서 분포 변화(Distribution Shift) 문제가 발생해 성능이 저하된다.

12:00

MEM: 다중 스케일 임베디드 메모리 아키텍처

인간의 기억 구조에서 영감을 얻어 단기 시각 메모리와 장기 언어 메모리를 결합한 MEM 아키텍처를 제어 모델에 적용했다. 단기 메모리는 최근 10초간의 시각 정보를 ViT(Vision Transformer) 내부에서 시공간적 어텐션을 통해 압축하여 저장한다. 장기 메모리는 로봇이 수행한 작업을 자연어 텍스트로 요약하여 저장함으로써 수 분 이상의 작업 흐름을 유지한다. 이 두 체계를 통해 로봇은 시각적 세부 사항과 전체적인 작업 맥락을 동시에 파악할 수 있게 되었다.

15:30

시각 메모리의 압축과 추론 효율화

단순히 과거 프레임을 나열하면 토큰 수가 기하급수적으로 늘어나 추론 지연 시간이 300ms를 초과하게 된다. 이를 해결하기 위해 ViT의 마지막 레이어에서 과거 토큰을 버리고 현재 토큰에 정보를 응축하는 토큰 감소(Token Reduction) 기법을 사용했다. 결과적으로 메모리를 사용하지 않을 때와 동일한 수의 토큰만 백본 모델에 전달하면서도 과거 15프레임 이상의 정보를 활용할 수 있게 되어 실시간 제어 성능을 유지했다.

18:30

언어 기반 장기 메모리와 분포 변화 해결

장기 메모리 구현 시 단순히 과거 명령어를 나열하면 로봇의 실패 기록이 반복 입력되어 모델이 혼란에 빠지는 문제가 발생한다. 이를 해결하기 위해 모델이 스스로 현재까지의 작업 상태를 텍스트로 요약(Compression)하도록 학습시켰다. 로봇이 물체를 잡는 데 실패하더라도 메모리에는 '아직 잡지 못함'이 아닌 '작업 진행 중'과 같은 추상화된 상태가 저장되어 분포 변화를 억제한다. 이 방식은 복잡한 요리 레시피 수행 데모에서 기존 방식보다 월등히 높은 성공률을 보였다.

26:30

문맥 내 적응(In-Context Adaptation) 결과

메모리가 탑재된 모델은 실행 중 발생한 실수를 스스로 교정하는 능력을 보였다. 예를 들어 젓가락을 잡으려다 높이 조절 실패로 놓쳤을 때, 메모리에 저장된 실패 경험을 바탕으로 다음 시도에서 잡는 높이를 즉시 수정했다. 또한 양방향으로 열리는 냉장고에서 한쪽 방향이 막혀있을 때 반대쪽으로 시도하는 등, 데이터 업데이트 없이도 실시간 환경 변화에 적응하는 알고리즘적 행동이 발현되었다.

34:00

pi0.7: 범용성과 고성능의 결합

기존 로봇 모델은 넓은 범용성을 가진 프리트레이닝 모델과 특정 작업에 특화된 포스트트레이닝 모델로 나뉘어 있었다. pi0.7은 '다양한 조건부 입력(Diverse Conditioning)'을 통해 이 두 장점을 하나의 모델로 통합했다. 작업 지시문뿐만 아니라 하위 목표 이미지(Subgoal), 작업의 품질 및 속도에 대한 메타데이터를 함께 입력받아 학습한다. 이를 통해 하나의 체크포인트로 옷 개기, 나사 조이기, 박스 조립 등 상이한 고난도 작업들을 전문가 수준으로 수행할 수 있다.

43:00

데이터 품질 혼합 학습과 성능 향상

로봇 학습 데이터에는 전문가의 완벽한 시연뿐만 아니라 미숙한 조작 데이터도 섞여 있기 마련이다. pi0.7은 메타데이터를 통해 데이터의 품질(성공 여부, 속도 등)을 모델에 알려줌으로써 저품질 데이터로부터도 유용한 물리적 법칙을 학습한다. 추론 시에는 '고품질' 메타데이터를 조건으로 주어 모델이 항상 최선의 동작을 출력하도록 유도한다. 실험 결과, 저품질 데이터를 포함해 학습하더라도 조건부 제어를 통해 순수 고품질 데이터로만 학습한 모델보다 더 높은 일반화 성능을 기록했다.

48:00

이종 로봇 간 기술 전이(Cross-Embodiment Transfer)

pi0.7은 시각적 하위 목표(Subgoal)를 조건으로 활용하여 한 로봇에서 학습한 기술을 구조가 다른 로봇으로 전이시킬 수 있다. 예를 들어 소형 로봇 팔로 학습한 '옷 개기' 데이터를 바탕으로, 대형 산업용 로봇 팔(UR5)이 한 번도 해본 적 없는 옷 개기 작업을 수행하는 데 성공했다. 이는 모델이 로봇의 구체적인 관절 구조를 넘어 '환경을 어떻게 변화시켜야 하는가'라는 추상적인 물리 지능을 학습했음을 시사한다.

51:00

코칭(Coaching)을 통한 새로운 작업 학습

언어 조건부 제어 능력이 강화되면서 인간이 말로 로봇의 동작을 교정하는 '코칭'이 가능해졌다. 에어프라이어를 처음 보는 로봇에게 인간이 단계별로 지시를 내려 과업을 완수하게 하고, 이 과정을 데이터로 수집하여 다시 모델에 학습시킨다. 이 방식은 수 시간의 원격 조종(Teleoperation) 없이도 단 몇 번의 언어 지시만으로 로봇에게 새로운 복잡한 과업을 가르칠 수 있는 효율적인 경로를 제시한다.

용어 해설

Long-Horizon Autonomy: — 로봇이 수 초 내의 짧은 동작을 넘어 수 분에서 수 시간 동안 지속되는 복잡한 일련의 과업을 스스로 계획하고 수행하는 능력이다. 이를 위해서는 과거의 행동과 상태를 기억하는 메모리 시스템과 예외 상황에 대처하는 고도의 추론 능력이 필수적이다.
VLA Model: — Vision-Language-Action의 약자로, 시각적 입력과 언어 명령을 받아 로봇의 구체적인 물리적 동작(Action)을 직접 출력하는 멀티모달 파운데이션 모델이다. 텍스트 지시문을 이해하고 실제 환경의 이미지를 분석하여 로봇 팔의 관절 각도나 이동 궤적을 생성한다.
Distribution Shift: — 학습 데이터의 통계적 특성과 실제 추론 환경의 데이터 특성이 달라지는 현상이다. 로봇 학습에서는 완벽한 전문가의 시연 데이터로만 학습한 모델이 실제 실행 중 실수를 저질렀을 때, 그 '실수 상황'이 학습 데이터에 없어 로봇이 당황하거나 무한 루프에 빠지는 원인이 된다.
In-Context Adaptation: — 모델이 별도의 가중치 업데이트 없이 현재 입력된 데이터(문맥)만을 바탕으로 새로운 상황이나 오류를 파악하고 행동을 수정하는 능력이다. 로봇이 물체를 잡으려다 실패했을 때, 메모리에 저장된 실패 기록을 보고 다음 시도에서 잡는 높이를 조절하는 등의 행동이 이에 해당한다.

언급된 리소스

GitHubopenpi GitHub Repository

문서Physical Intelligence 공식 웹사이트

DemoRoboArena Real-world Robot Benchmark

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 01.수집 2026. 05. 01.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.