시각적 근거 기반
모델의 답변이 텍스트 지식에만 의존하지 않고 실제 입력된 이미지나 비디오의 시각적 내용에 직접적으로 뿌리를 두고 생성되는 상태를 의미한다. 진정한 멀티모달 추론의 핵심 지표이다.