핵심 요약
3D 환경에서 작동하는 AI 에이전트가 존재하지 않는 물체를 있다고 답하거나 위치를 오인하는 환각 현상은 안전한 물리적 상호작용을 방해하는 치명적인 결함이다. 이 논문은 추가적인 모델 재학습 없이 추론 단계에서 3D 장면 그래프를 변형해 비교하는 방식만으로 에이전트의 판단 신뢰도를 획기적으로 높이는 방법을 제시한다.
왜 중요한가
3D 환경에서 작동하는 AI 에이전트가 존재하지 않는 물체를 있다고 답하거나 위치를 오인하는 환각 현상은 안전한 물리적 상호작용을 방해하는 치명적인 결함이다. 이 논문은 추가적인 모델 재학습 없이 추론 단계에서 3D 장면 그래프를 변형해 비교하는 방식만으로 에이전트의 판단 신뢰도를 획기적으로 높이는 방법을 제시한다.
핵심 기여
최초의 3D 전용 추론 시점 대조 디코딩 프레임워크
2D 이미지 기반의 기존 방식과 달리 3D 환경의 구조적 특성을 반영하여 추론 시점에 환각을 억제하는 3D-VCD 프레임워크를 최초로 제안했다.
3D 반사실적 그라운딩 메커니즘 도입
객체의 카테고리, 좌표, 크기 등을 의도적으로 왜곡한 변형된 장면 그래프를 생성하고, 이를 원본과 대조하여 언어적 편향에만 의존하는 토큰 생성을 억제한다.
학습이 필요 없는 범용적 적용성
모델의 가중치를 수정하거나 추가 학습 데이터가 필요하지 않은 Training-free 방식이며, 3D-LLM, LEO 등 다양한 기존 아키텍처에 즉시 적용 가능하다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 실제 시각 정보보다 학습 과정에서 익힌 언어적 통계(Linguistic Priors)에 과도하게 의존하는 경향이 있다. 예를 들어, 거실 장면에서 'TV가 있느냐'는 질문을 받으면 실제 TV를 찾기보다 '거실에는 보통 TV가 있다'는 확률적 예측에 따라 '예'라고 답하는 환각이 발생한다. 이는 Softmax를 거쳐 출력되는 토큰 확률 분포에서 시각적 근거가 부족함에도 특정 단어의 확률이 높게 유지되기 때문이다.
3D-VCD는 이러한 문제를 해결하기 위해 '시각 정보가 왜곡되었을 때도 확률이 변하지 않는 토큰은 환각일 가능성이 높다'는 직관을 활용한다. 모델에게 정상적인 3D 장면 그래프와 함께, 물체의 위치를 옮기거나 이름을 바꾼 왜곡된 장면 그래프를 동시에 입력한다. 만약 어떤 단어가 두 환경 모두에서 높은 확률로 생성되려 한다면, 이는 실제 3D 구조를 보고 판단한 것이 아니라 언어 모델의 고정 관념에서 나온 것이라고 판단한다.
결과적으로 두 입력에 대한 Logit 값을 대조하여 왜곡된 환경에서도 살아남는 '가짜 확신' 토큰들을 깎아내고, 실제 시각적 증거에 민감하게 반응하는 토큰들만 남긴다. 이를 통해 에이전트는 주변 환경의 실제 물리적 구성에 기반한 정확한 답변과 행동 계획을 도출할 수 있게 된다.
방법론
3D-VCD는 구조화된 3D 객체 중심 표현인 장면 그래프(Scene Graph)를 기반으로 작동한다. 먼저 입력된 3D 데이터를 바탕으로 객체의 카테고리(c), 중심점 좌표(p), 크기(s)를 포함하는 원본 그래프 G를 구성한다. 이후 변형 연산자 D를 적용하여 카테고리 이름을 무작위로 섞거나(Semantic Perturbation), 중심점과 크기에 가우시안 노이즈를 추가(Geometric Perturbation)하여 왜곡된 그래프 G_hat을 생성한다.
모델은 동일한 질문 x에 대해 원본 그래프를 참조한 Logit(z_o)과 왜곡된 그래프를 참조한 Logit(z_d)을 각각 계산한다. 이때 [원본/왜곡 장면 데이터 → MLLM 순전파 → 각 토큰별 점수(Logit) 산출] 과정을 거친다. 최종적으로 z_vcd = (1 + α)z_o - αz_d 수식을 사용하여 대조 연산을 수행한다. 여기서 α는 대조 강도를 조절하는 파라미터로, [원본 점수에 가중치를 부여하고 왜곡된 환경에서도 높게 나타난 점수를 차감 → 시각 정보에 민감한 토큰만 강조]하는 원리다.
추론 효율성을 위해 두 번의 연산을 하나의 배치(Batch)로 묶어 처리하는 Batched Dual Forward Pass를 사용하며, Transformer의 KV Caching 기술을 적용하여 중복 계산을 최소화한다. 이를 통해 단순 추론 대비 약 0.25배의 지연 시간 증가만으로 실시간 에이전트 운용이 가능하도록 구현했다.
관련 Figure

원본 장면 그래프와 왜곡된 장면 그래프를 병렬로 처리하여 각 토큰의 Logit을 비교하고, 최종적으로 환각된 객체(TV)에 대한 반응을 제거하여 올바른 답변을 생성하는 과정을 단계별로 설명한다.
3D-VCD의 전체적인 작동 프로세스를 보여주는 다이어그램
주요 결과
3D-POPE 벤치마크 실험 결과, 3D-LLM 모델 대비 정확도가 8.1%에서 최대 35.8%까지 향상되었다. 특히 무작위(Random) 설정에서 정밀도(Precision)가 50.03%에서 62.16%로 크게 개선되었으며, 존재하지 않는 물체에 대해 '예'라고 답하는 과잉 긍정률(Yes-rate)은 99.81%에서 75.15%로 대폭 감소했다.
HEAL 벤치마크의 방해 요소 주입(Distractor Injection) 테스트에서도 Qwen-14B-Instruct 모델에 적용 시 상태 환각률(CS)이 16.45%에서 5.0%로 약 3.3배 감소하는 성과를 거두었다. 이는 3D-VCD가 단순한 물체 존재 여부뿐만 아니라 물체의 상태나 복잡한 지시문 이행 과정에서의 환각도 효과적으로 억제함을 증명한다.
관련 Figure

기존 모델들(3D-LLM, LEO 등)에 비해 3D-VCD가 정밀도, F1 스코어, 정확도 모든 면에서 월등한 성능을 보임을 시각적으로 나타낸다. 특히 모든 데이터 분할(Random, Popular, Adversarial)에서 일관된 개선을 보여준다.
3D-POPE 벤치마크의 각 세부 항목별 성능을 보여주는 레이더 차트
기술 상세
3D-VCD는 추론 시점의 Logit 조작을 통해 시각적 그라운딩을 강화하는 알고리즘이다. 핵심은 3D 장면의 기하학적(Geometric) 정보와 의미론적(Semantic) 정보를 분리하여 섭동(Perturbation)을 가할 수 있다는 점이다. 2D VCD가 픽셀 수준의 노이즈나 블러링에 의존하는 것과 달리, 3D-VCD는 객체 단위의 속성을 직접 수정하므로 3D 공간 추론 실패의 근본 원인인 객체 존재 여부 및 공간 레이아웃 오인을 직접 타격한다.
수학적으로는 대조 디코딩(Contrastive Decoding)의 변형이며, 특히 '부정적 컨텍스트'를 생성하는 방식에서 3D 장면 그래프의 구조적 특성을 활용한다. 실험적으로 ε = 0.05 수준의 적절한 기하학적 노이즈가 가장 높은 성능 향상을 보였는데, 이는 너무 작은 노이즈는 대조 신호가 부족하고 너무 큰 노이즈는 장면의 구조적 일관성을 완전히 파괴하여 유의미한 비교가 불가능해지기 때문으로 분석된다.
관련 Figure

물체 수가 10개에서 50개로 늘어나도 추론 시간이 약 3.8초에서 6.7초로 완만하게 증가함을 보여주며, 제안된 방식이 복잡한 실제 환경에서도 효율적으로 작동할 수 있음을 증명한다.
장면 복잡도(물체 수)에 따른 추론 시간 변화 그래프
한계점
이 연구는 정적인 3D 장면에서의 환각 완화에 집중하고 있으며, 시간에 따라 환경이 변하는 동적인 3D 장면에서의 시공간적 환각 문제는 향후 과제로 남겨두고 있다.
실무 활용
추가 학습 비용 없이 기존 3D 에이전트의 신뢰성을 즉각적으로 높일 수 있어 실무 로보틱스 및 스마트 홈 서비스에 매우 유용하다.
- 가정용 서비스 로봇의 물체 탐색 및 파지 작업 시 오인식 방지
- 3D 환경 내 복잡한 경로 계획 수립 시 존재하지 않는 장애물에 대한 환각 억제
- 디지털 트윈 환경에서의 정확한 공간 질의응답 시스템 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.