잠재 시각 추론
멀티모달 모델의 내부 숨겨진 상태(Hidden State)인 잠재 토큰을 활용해 인간의 상상 과정을 모방하고 복잡한 시각 문제를 해결하려는 추론 패러다임이다. 모델이 이미지를 직접 생성하지 않고도 내부 벡터 공간에서 시각적 변화를 시뮬레이션하여 추론 성능을 높이려는 목적을 가진다.