왜 중요한가
기존 AI는 정지된 이미지나 짧은 영상 속 객체를 인식하는 데 그쳤으나, 이 논문은 실시간으로 흐르는 긴 영상 스트림에서 사용자가 새롭게 정의한 인물이나 동작을 즉시 학습하고 기억하는 기술을 제안한다. 이는 웨어러블 AI 비서나 개인 맞춤형 로봇이 현실 세계의 변화를 실시간으로 파악하고 사용자 특화 정보를 제공하는 데 필수적인 기술적 토대를 마련한다.
핵심 기여
PSVU(Personalized Streaming Video Understanding) 작업 정의
실시간 스트리밍 영상에서 동적으로 정의되는 개인화된 개념을 인식하고 추론하는 새로운 연구 분야를 공식화했다.
PEARL-Bench 벤치마크 구축
132개의 고유 영상과 2,173개의 정밀한 주석을 포함하며, 프레임 단위의 정적 개념과 비디오 단위의 동적 동작 개념을 모두 평가하는 최초의 종합 벤치마크를 제작했다.
무학습 플러그앤플레이 프레임워크 PEARL 제안
추가 학습 없이 기존 Vision-Language Model에 즉시 적용 가능한 전략으로, 이중 메모리 시스템을 통해 실시간 응답성과 높은 정확도를 동시에 확보했다.
핵심 아이디어 이해하기
기존의 Vision-Language Model(VLM)은 고정된 데이터셋으로 학습되어 새로운 인물이나 특정 동작을 실시간으로 인식하는 데 한계가 있다. 특히 스트리밍 영상은 데이터가 끊임없이 유입되므로, 모든 과거 정보를 메모리에 유지하면 연산량이 시퀀스 길이의 제곱에 비례하여 증가해 실시간 처리가 불가능해진다.
PEARL은 이중 구조 메모리(Dual-grained Memory)를 통해 이 문제를 해결한다. 사용자가 정의한 개념(이름, 특징)은 Concept Memory에 따로 저장하고, 영상의 각 장면은 압축된 벡터(Embedding) 형태로 Streaming Memory에 보관한다. 마치 사람이 새로운 친구의 이름은 머릿속에 저장하고, 그 친구와 있었던 일들은 필요할 때만 기억을 더듬어 찾아내는 것과 같은 원리이다.
질문이 들어오면 Concept-aware Retrieval 알고리즘이 작동하여 질문 속 개념을 상세 설명으로 변환하고, 이를 바탕으로 수많은 영상 클립 중 가장 관련 있는 장면만 빠르게 골라낸다. 이를 통해 모델은 전체 영상을 다시 훑을 필요 없이 필요한 정보만 조합해 실시간으로 답변할 수 있게 된다.
방법론
스트리밍 영상을 의미 단위의 클립()으로 분할하고, 각 클립을 임베딩 모델()을 통해 벡터()로 변환하여 Streaming Memory에 저장한다. 동시에 사용자가 정의한 개념은 텍스트 설명과 시각적 증거를 결합하여 Concept Memory에 구조화된 형태로 등록한다.
질문()이 들어오면 질문 내의 개념 이름을 Concept Memory의 텍스트 설명으로 교체하여 새로운 질문()을 생성한다. [질문 텍스트 → 임베딩 모델 → 쿼리 벡터 ] 과정을 거쳐 Streaming Memory 내의 클립 벡터들과 코사인 유사도를 계산한다. 코사인 유사도는 두 벡터 가 주어질 때 를 계산하며, 두 벡터의 방향이 일치할수록 1에 가까운 값이 나와 질문과 가장 유사한 장면을 숫자로 판별한다. 유사도가 높은 상위 개의 클립을 추출하여 모델의 입력 컨텍스트로 활용함으로써 검색 효율을 극대화한다.
Qwen3-VL-Embedding-2B를 임베딩 모델로 사용하고, LLaVA-OV-7B, Qwen2-VL-7B 등을 백본 모델로 채택했다. PySceneDetect를 활용해 장면 전환을 감지하며, 각 클립은 1초에서 8초 사이의 길이를 유지하도록 설계하여 의미적 일관성을 확보했다.
주요 결과
PEARL-Bench 평가 결과, PEARL 프레임워크를 적용했을 때 LLaVA-OV-7B 모델의 성능이 프레임 레벨에서 8.55%, 비디오 레벨에서 9.08% 향상되었다. 특히 Qwen3-VL-8B 모델에 적용 시 프레임 레벨 평균 정확도 52.24%를 기록하며 기존 온라인 모델들을 압도하는 성능을 보였다.
Ablation Study를 통해 Concept Memory의 유무가 성능에 결정적인 영향을 미침을 확인했다. 개념 정보 없이 현재 프레임만 사용하는 경우보다 Concept Memory를 활용했을 때 실시간 정확도가 35% 이상 급증하여, 명시적인 개념 접지(Grounding)의 중요성을 입증했다.
추론 속도 측면에서도 PEARL은 효율성을 입증했다. LLaVA-OV-7B 기반 PEARL은 775ms의 지연 시간을 기록하여, 다른 온라인 전용 모델들(1,164ms ~ 4,769ms)보다 훨씬 빠른 실시간 응답이 가능함을 보여주었다.
실무 활용
별도의 학습 과정 없이 기존 멀티모달 모델에 메모리 모듈만 추가하여 실시간 개인화 기능을 구현할 수 있다. 저지연 추론이 가능하여 모바일 기기나 로봇 등 실시간 상호작용이 필요한 환경에 즉시 적용 가능하다.
- 맞춤형 피트니스 코칭: 사용자의 특정 운동 자세를 실시간으로 모니터링하고 교정
- 웨어러블 AI 비서: 주변 인물을 식별하고 과거 대화나 관계를 기억하여 보조
- 개인용 서비스 로봇: 가족 구성원의 습관 및 물건 위치를 파악하여 가사 지원
- 실시간 보안 관제: 특정 인물이나 사전에 정의된 이상 행동을 실시간으로 감지
기술 상세
PEARL은 PSVU 작업을 위해 Streaming Memory와 Concept Memory를 분리한 비동기적 메모리 아키텍처를 채택했다. Streaming Memory는 유입되는 영상 스트림을 Scene Boundary Detection을 통해 세그먼트화하고, 각 세그먼트의 특징을 Multimodal Embedding으로 인코딩하여 벡터 데이터베이스 형태로 관리한다.
Concept Memory는 사용자의 지시(Instruction)가 있을 때만 업데이트되며, 외부 툴을 호출하여 현재 장면에서 시각적 특징을 추출하고 이를 LLM을 통해 텍스트 설명으로 요약한다. 이 과정에서 의류나 조명 같은 일시적 특징 대신 성별, 얼굴 구조, 체형 등 영구적(Permanent) 특징에 집중하도록 프롬프트를 설계하여 장기적인 인식 안정성을 높였다.
검색 단계에서는 Query Rewriting 기법을 도입했다. 질문에 포함된 고유 명사를 임베딩 모델이 이해할 수 있는 구체적인 시각 묘사로 치환함으로써, 텍스트-비디오 간의 의미적 정렬(Semantic Alignment) 성능을 대폭 개선했다. 이는 단순히 키워드 매칭을 넘어서는 정교한 증거 추출을 가능하게 한다.
실험 결과, 모델의 크기를 키우는 것보다 PEARL과 같은 전용 프레임워크를 결합하는 것이 성능 향상에 더 효과적임이 밝혀졌다. 이는 표준 오프라인 모델들이 긴 문맥을 처리하는 데 구조적 한계가 있음을 시사하며, 명시적인 메모리 관리의 필요성을 뒷받침한다.
한계점
PEARL-Bench의 비디오 레벨 데이터셋은 현실 세계의 복잡한 동작 데이터를 확보하기 어려워 디지털 휴먼 합성 데이터(Mixamo)를 일부 활용했다. 또한, 매우 긴 영상 스트림에서 메모리가 무한히 확장될 경우 검색 효율이 저하될 수 있는 잠재적 문제가 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.