Memories.ai, 엔비디아와 협력하여 웨어러블 및 로봇을 위한 '시각적 기억' 기술 개발

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 AI 메모리가 텍스트 중심이었던 것과 달리, Memories.ai는 물리적 세계에서 활동하는 웨어러블과 로봇을 위한 시각적 기억 기술에 집중한다. 엔비디아 GTC에서 발표된 협력을 통해 Cosmos-Reason 2와 Metropolis 기술을 도입하여 영상 데이터를 검색 및 요약 가능한 형태로 인덱싱하는 인프라를 개발 중이다. 메타의 스마트 글래스 개발 경험에서 착안한 이 기술은 현재 1,600만 달러의 투자를 유치했으며, 퀄컴 프로세서 최적화 및 주요 웨어러블 제조사와의 협업을 추진하고 있다.

배경

VLM(Vision Language Model)의 기본 개념, 임베딩 및 벡터 검색의 원리, 온디바이스 AI의 특성

대상 독자

웨어러블 및 로보틱스 AI 개발자, VLM 연구자, 하드웨어-소프트웨어 통합 솔루션 관심자

의미 / 영향

AI가 단순히 텍스트 대화를 기억하는 수준을 넘어 사용자가 본 것을 기억하고 회상하게 함으로써 웨어러블 기기의 실질적 유용성을 극대화할 것이다. 이는 로봇이 복잡한 물리적 환경을 학습하고 과거 경험을 바탕으로 추론하는 능력을 비약적으로 향상시킬 것으로 기대된다.

섹션별 상세

Memories.ai는 엔비디아 GTC 컨퍼런스에서 엔비디아와의 협력을 발표하며 시각적 기억 기술 고도화에 나섰다. 엔비디아의 추론형 비전 언어 모델인 Cosmos-Reason 2와 비디오 검색 및 요약 애플리케이션인 Metropolis를 활용하여 웨어러블 및 로봇용 인프라를 구축한다.

공동 창업자인 Shawn Shen과 Ben Zhou는 메타의 레이밴 스마트 글래스 AI 시스템을 구축하던 중 사용자가 기록한 영상 데이터를 다시 불러올 수 없다는 문제점을 발견하고 창업을 결심했다. 텍스트 기반 메모리와 달리 비정형 영상 데이터를 구조화하고 인덱싱하는 솔루션이 부재하다는 점에 주목했다.

시각적 기억 구현을 위해 영상을 데이터 형식으로 임베딩 및 인덱싱하는 인프라 구축과 모델 학습을 위한 데이터 확보에 집중하고 있다. 2025년 7월 자체 대형 시각 기억 모델(LVMM)을 출시했으며, 이는 Gemini Embedding 2와 유사한 멀티모달 인덱싱 및 검색 기능을 수행한다.

데이터 수집을 위해 고화질보다는 데이터 효율성에 최적화된 자체 하드웨어 장치 'LUCI'를 개발하여 학습용 영상을 기록하고 있다. 또한 퀄컴과의 파트너십을 통해 올해 말부터 퀄컴 프로세서에서 LVMM이 구동될 수 있도록 최적화 작업을 진행 중이다.

실무 Takeaway

물리적 세계의 AI 에이전트 구현을 위해 텍스트 중심의 메모리를 넘어 영상 데이터를 검색 가능한 형태로 인덱싱하는 시각적 기억 인프라가 필수적이다.
엔비디아 Cosmos-Reason 2와 같은 최신 VLM을 활용하면 복잡한 영상 데이터에서 의미 있는 정보를 추출하고 요약하는 기능을 효율적으로 구현할 수 있다.
웨어러블 기기의 전력 및 성능 제약을 극복하기 위해 퀄컴 등 하드웨어 제조사와의 협력을 통한 온디바이스 AI 최적화가 상용화의 핵심이다.