MA-EgoQA: 다중 임보디드 에이전트의 1인칭 시점 비디오 질의응답

왜 중요한가

여러 로봇이나 에이전트가 협업하는 환경에서 각자의 시각 정보를 통합해 시스템 전체의 상황을 파악하는 능력이 필수적이다. 이 논문은 단일 에이전트를 넘어 다중 에이전트의 장기 기억을 통합하고 추론하는 새로운 평가 기준과 효율적인 메모리 구조를 제시하여 실생활 AI 협업의 토대를 마련했다.

핵심 기여

다중 에이전트 1인칭 비디오 질의응답 과제 정의

여러 임보디드 에이전트가 동시에 수집한 장기 1인칭 비디오 스트림을 통합하여 시스템 수준에서 질문에 답하는 새로운 연구 문제를 공식화했다.

MA-EgoQA 벤치마크 구축

6명의 사용자가 7일간 촬영한 266시간 분량의 비디오를 기반으로 사회적 상호작용, 작업 조정 등 5개 카테고리의 1.7k개 질의응답 쌍을 포함하는 데이터셋을 제작했다.

EgoMAS 베이스라인 모델 개발

이벤트 기반 공유 메모리와 에이전트별 동적 검색 메커니즘을 결합하여 추가 학습 없이도 다중 에이전트의 정보를 효율적으로 통합하는 프레임워크를 구현했다.

핵심 아이디어 이해하기

기존 비디오 QA는 주로 단일 카메라 시점이나 짧은 클립에 집중했다. 하지만 실제 환경의 로봇 시스템은 여러 대가 며칠씩 작동하며 방대한 시각 데이터를 생성하므로, 모든 프레임을 LLM의 컨텍스트 윈도우에 넣는 것은 연산량 문제로 불가능하다. 이 논문은 공유 메모리 개념을 도입하여 이 문제를 해결한다.

각 에이전트의 개별 시각 정보를 4W1H(누가, 무엇을, 어디서, 언제, 어떻게) 형식의 텍스트 요약으로 변환하여 중앙 저장소에 통합한다. 이는 고차원 비디오 데이터를 저차원 텍스트 임베딩 공간으로 압축하여 검색 효율을 극대화하는 원리다. 질문이 들어오면 먼저 공유 메모리에서 관련 이벤트를 찾고, 해당 이벤트를 겪은 특정 에이전트의 상세 기억을 다시 조회하는 2단계 동적 검색을 수행한다.

이러한 구조를 통해 시스템은 수백 시간의 데이터 중 정답에 필요한 핵심 맥락만 선택적으로 추출하여 추론에 활용할 수 있다. 이는 마치 여러 명의 목격자 진술을 종합 장부에 기록해두었다가, 필요할 때 특정 목격자에게 다시 자세한 내용을 묻는 것과 유사한 방식으로 작동한다.

방법론

MA-EgoQA 벤치마크는 EgoLife 데이터셋을 기반으로 구축됐다. 5분 단위 세그먼트에서 캡션과 스크립트를 추출한 뒤 GPT-4o를 이용해 질문 후보를 생성했다. 이후 제로샷 필터링과 단일 에이전트 필터링을 거쳐 다중 에이전트 협업이 반드시 필요한 고난도 문제만 선별했다.

EgoMAS 아키텍처는 이벤트 기반 공유 메모리(Event-based Shared Memory)를 핵심으로 한다. 10분 간격으로 각 에이전트의 관찰 내용을 4W1H 필드로 구조화하여 저장한다. [비디오 프레임 → 캡션 생성 → 4W1H 구조화 → 공유 메모리 저장] 순으로 데이터가 처리된다.

에이전트별 동적 검색(Agent-wise Dynamic Retrieval)은 2단계로 작동한다. 먼저 BM25 알고리즘을 사용해 질문 q와 공유 메모리 m 사이의 유사도 점수 s(m, q)를 계산한다. [질문 키워드와 메모리 텍스트 입력 → TF-IDF 기반 가중치 연산 → 유사도 점수 출력] 과정을 거쳐 상위 n개의 시스템 메모리를 추출한다. 이후 추출된 맥락을 바탕으로 특정 에이전트에게 던질 하위 쿼리를 생성하여 상세 정보를 다시 가져온다.

주요 결과

Gemini-2.5-Flash와 같은 최신 모델도 MA-EgoQA에서 평균 36.93%의 낮은 정확도를 기록했다. 특히 모든 캡션을 단순히 이어 붙이는 방식은 1M 토큰 이상의 긴 컨텍스트를 사용함에도 불구하고 불필요한 정보로 인해 모델의 추론 성능을 저하시키는 것으로 나타났다.

제안된 EgoMAS(Gemini-2.5-Flash 기반)는 41.41%의 정확도를 달성하여 단순 컨텍스트 입력 방식보다 4.48%p 높은 성능을 보였다. 특히 Qwen3VL-8B 기반의 EgoMAS는 훨씬 적은 파라미터로도 거대 모델인 GPT-5(34.81%)를 상회하는 효율성을 입증했다.

카테고리별 분석 결과, 타인의 의도나 믿음을 추론해야 하는 마음 이론(Theory of Mind) 영역이 모든 모델에서 가장 낮은 점수를 기록하며 가장 어려운 과제로 확인됐다. 또한 필요한 에이전트 수가 늘어날수록 성능이 급격히 하락하여 정보 통합의 어려움을 보여주었다.

실무 활용

여러 대의 서비스 로봇이나 보안 카메라 시스템이 수집한 방대한 영상 기록을 통합 관리하고 자연어로 질의응답하는 시스템 구축에 즉시 활용 가능하다.

스마트 홈에서 여러 가전 로봇의 활동 내역 통합 모니터링 및 질의응답
다수의 경찰 바디캠 영상을 분석하여 특정 사건의 전후 맥락 파악 및 증거 검색
공장 내 협동 로봇들의 작업 이력을 기반으로 한 이상 징후 감지 및 보고서 생성
대규모 시설 관리 시스템에서 에이전트 간 작업 중복 및 누락 확인을 위한 자동 분석

기술 상세

MA-EgoQA는 6명의 에이전트가 7일간 촬영한 266시간의 비디오를 포함하며, 질문 생성 시 Single-agent Filtering을 통해 특정 한 명의 기억만으로는 풀 수 없는 문제를 강제했다. EgoMAS는 훈련이 필요 없는 Training-free 프레임워크로, BM25 기반의 어휘 검색과 LLM의 추론 능력을 결합한 RAG 구조를 다중 에이전트 환경으로 확장했다. 공유 메모리 구조화 시 4W1H(When, What, Where, Who, How) 필드를 명시적으로 구분하여 저장함으로써, 에이전트 간의 시점 정렬(Temporal Alignment)과 맥락 통합(Contextual Fusion) 문제를 해결했다.

한계점

현재 MA-EgoQA는 EgoLife라는 단일 데이터셋 환경에 국한되어 있어 다양한 환경으로의 일반화 검증이 부족하다. 또한 EgoMAS의 성능이 정답 셋을 직접 참조하는 Oracle 성능(약 83.8%)에 비해 여전히 큰 격차(약 42.4%)를 보이고 있어 더 정교한 검색 기법이 요구된다.

키워드

Multi-Agent(다중 에이전트)Egocentric Video(1인칭 비디오)Video QA(비디오 질의응답)Shared Memory(공유 메모리)Embodied AI(임보디드 AI)