Think-with-Images
멀티모달 대형언어모델에서 텍스트 질의에 대한 시각적 증거를 얻기 위해 중간 이미지를 생성하고 이를 추론에 활용하는 프레임워크를 가리킨다. 질문만으로는 필요한 시각 변화나 시점 전이가 불충분할 때 유용한 증거를 확보하도록 편집 과정과 추론을 연결한다.