시각 언어 모델 기반 점수화
Vision-Language Model을 활용하여 생성된 영상의 물리적 일관성, 객체의 상태 변화, 스타일 유지 여부 등을 인간의 시각적 판단과 유사하게 평가하는 방식이다.