핵심 요약
기존의 시각적 공간 지능(VSI) 평가 도구들이 실제 비디오 입력과 일치하지 않는 잘못된 정답지를 가지고 있어 모델의 능력을 왜곡하고 있음을 밝혀냈습니다. 이를 해결하기 위해 3D 주석을 전면 재검토하고 프레임 수에 따라 정답이 변하는 새로운 평가 체계를 도입하여 모델의 실제 공간 추론 능력을 더 엄밀하게 측정할 수 있게 되었습니다.
왜 중요한가
기존의 시각적 공간 지능(VSI) 평가 도구들이 실제 비디오 입력과 일치하지 않는 잘못된 정답지를 가지고 있어 모델의 능력을 왜곡하고 있음을 밝혀냈습니다. 이를 해결하기 위해 3D 주석을 전면 재검토하고 프레임 수에 따라 정답이 변하는 새로운 평가 체계를 도입하여 모델의 실제 공간 추론 능력을 더 엄밀하게 측정할 수 있게 되었습니다.
핵심 기여
데이터 주석 오류 및 편향성 수정
기존 VSI-Bench에서 발견된 객체 누락, 잘못된 라벨링, 부정확한 크기 측정 등 체계적인 오류를 수정하기 위해 381개 장면에 대해 전문적인 3D 도구를 사용하여 전면 재주석을 수행했다.
프레임 인식형 평가 프로토콜 도입
모델에 입력되는 비디오 프레임 수(16/32/64/전체)에 따라 특정 객체의 가시성이 달라지는 점을 반영하여, 각 입력 조건에서 실제로 답변 가능한 질문들로만 평가를 구성하는 프레임 인식형(Frame-aware) 방식을 제안했다.
가시성 기반 스트레스 테스트 구축
질의 대상 객체가 포함된 프레임을 의도적으로 제거한 더미 비디오(Dummy-videos)를 생성하여, 모델이 실제 시각적 증거에 기반해 추론하는지 아니면 데이터셋의 통계적 편향에 의존해 답변하는지 구분하는 진단 도구를 개발했다.
핵심 아이디어 이해하기
기존의 비디오 기반 공간 지능 평가는 주로 3D 스캔 데이터에서 추출한 포인트 클라우드 주석을 그대로 사용한다. 하지만 3D 재구성 과정에서 발생하는 노이즈로 인해 실제 비디오에는 선명하게 보이는 물체가 주석에서는 누락되거나, 물체의 크기가 실제와 다르게 기록되는 '주석-비디오 불일치' 문제가 발생한다. 이는 모델이 정답을 맞춰도 우연이거나, 틀려도 모델의 잘못이 아닐 수 있는 불확실성을 초래한다.
또한, 대부분의 Vision-Language Model(VLM)은 연산 효율을 위해 전체 비디오 중 일부 프레임(예: 16개 또는 32개)만 샘플링하여 입력받는다. 기존 벤치마크는 전체 비디오 내용을 기준으로 질문을 던지는데, 만약 샘플링된 프레임에 해당 물체가 찍히지 않았다면 모델은 보이지 않는 정보를 추론해야 하는 불가능한 상황에 놓이게 된다. 이는 평가의 타당성을 근본적으로 훼손한다.
ReVSI는 '모델이 보는 것과 벤치마크가 묻는 것'을 엄격하게 일치시키는 원리를 적용한다. 각 프레임별로 어떤 객체가 얼마나 노출되는지 정밀하게 계산하여, 모델이 받은 입력 프레임 내에서 충분한 시각적 근거가 있을 때만 해당 질문을 유효한 것으로 간주한다. 이를 통해 모델의 순수한 3D 공간 추론 능력을 노이즈 없이 측정할 수 있게 된다.
방법론
ReVSI는 5개의 실내 장면 데이터셋(ScanNet, ScanNet++, ARKitScenes 등)에서 381개 장면을 추출하고, 전문 3D 주석 도구를 사용하여 객체 라벨과 3D Bounding Box를 재구축했다. 특히 중력 방향으로 정렬된 Oriented Bounding Box(OBB) 알고리즘을 사용하여 물체의 방향과 크기를 정확하게 측정했다.
프레임별 가시성 계산을 위해 [3D Bounding Box 좌표와 카메라 궤적 값을 입력으로] → [레이 캐스팅(Ray Casting) 연산을 수행하여 각 프레임에서의 픽셀 점유율을 계산하고] → [5% 이상의 픽셀 노출 여부를 확인하여] → [해당 프레임에서 객체의 가시성 여부를 결정한다]. 이 정보를 바탕으로 16, 32, 64프레임 등 각 샘플링 예산에 맞는 동적인 정답지(Ground Truth)를 생성한다.
또한 모델의 환각(Hallucination)을 측정하기 위해 세 가지 유형의 더미 비디오를 제작했다. 'Query-Dropped'는 질의 대상 객체가 포함된 프레임만 제거한 비디오이며, 'First-Frame Repeated'는 첫 프레임만 반복한 비디오, 'Black'은 완전한 검은색 비디오다. 이 비디오들을 입력했을 때 모델이 0이 아닌 숫자를 답한다면, 이는 시각적 증거가 아닌 사전 학습된 데이터의 편향(Priors)에 의존하고 있음을 의미한다.
주요 결과
실험 결과, 기존 VSI-Bench에서 높게 평가되었던 오픈소스 모델들이 ReVSI에서는 성능이 최대 40%까지 급락하는 현상이 발견되었다. 특히 객체 계산(Object Counting)과 상대적 방향(Relative Direction) 작업에서 하락폭이 컸으며, 이는 기존 벤치마크가 모델의 환각이나 편향된 추측을 걸러내지 못했음을 시사한다.
반면 GPT-4o나 Gemini 3 Pro와 같은 상용 모델들은 ReVSI에서 오히려 성능이 안정적으로 유지되거나 소폭 상승했다. 더미 비디오 테스트에서 상용 모델은 시각적 증거가 없을 때 '0' 또는 답변 불가를 정확히 출력한 반면, 특정 데이터로 파인튜닝된 전문 모델들은 물체가 없는 검은 화면을 보고도 물체가 있다고 답하는 심각한 환각 증세를 보였다.
객체 절대 거리 측정 실험에서는 Qwen3-VL-32B-Instruct 모델이 6m 이상의 장거리 거리 추정에서 강점을 보였으나, 1m 미만의 단거리에서는 상대적 오차가 크게 발생하는 특성을 보였다. 이는 모델이 2D 단서보다 3D 공간 구조를 이해하는 방식에 차이가 있음을 나타낸다.
기술 상세
ReVSI는 기존 65개의 닫힌 라벨 세트 대신 504개의 오픈 보카브러리(Open-vocabulary) 라벨을 사용하여 데이터의 다양성을 확보했다. 주석 과정에서 GPT-5.2를 보조 도구로 활용하여 인간 주석자가 명명한 객체 이름의 일관성을 검증하는 단계를 거쳤다.
수학적으로는 Mean Relative Accuracy(MRA) 지표를 개선하여 사용했다. [예측값 y_hat과 실제값 y가 주어질 때] → [|y_hat - y| / y < 1 - θ 식을 통해 상대 오차를 계산하고] → [다양한 임계값 θ(0.5~0.95)에 대해 평균을 내어] → [예측의 정밀도를 종합적으로 평가한다]. 이 방식은 단순 정확도(Accuracy)보다 수치적 근사치를 더 잘 반영한다.
또한 3D 공간 추론을 위해 특화된 모델들(SpatialVLM, VLM-3R 등)이 대규모 학습 데이터를 사용함에도 불구하고 ReVSI에서 성능 향상이 미미하다는 점을 발견했다. 이는 현재의 학습 데이터 생성 파이프라인 자체가 노이즈가 섞인 3D 주석에 기반하고 있어, 모델이 잘못된 정보를 학습하고 있음을 기술적으로 증명했다.
한계점
고품질의 3D 실내 공간 지능 데이터셋 구축에 숙련된 인간 주석자의 수동 작업이 많이 필요하여, 더 큰 규모의 데이터셋으로 확장하는 데 비용적 한계가 존재한다. 또한 현재는 실내 장면에 국한되어 있어 실외 환경에 대한 평가는 포함되지 않았다.
실무 활용
VLM의 공간 지능을 실무에 적용하려는 개발자들에게 모델의 실제 신뢰도를 검증할 수 있는 엄격한 테스트베드를 제공한다. 특히 로봇 제어나 실내 내비게이션 등 정확한 3D 이해가 필요한 분야에서 모델의 환각 여부를 사전에 차단하는 용도로 활용 가능하다.
- 로봇 에이전트의 실내 객체 위치 파악 및 이동 경로 계획 능력 검증
- VLM 기반의 실내 인테리어 및 공간 분석 서비스의 정확도 평가
- 모델이 시각적 근거 없이 답변하는 '지식 편향' 현상 진단 및 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.