멀티모달 사고의 흐름
텍스트와 시각 정보를 결합하여 사고의 흐름을 생성하는 기법이다. 모델이 이미지의 세부 요소를 단계적으로 분석하여 복합적인 추론 결론에 도달하게 함으로써 시각 지능의 논리성을 강화하는 역할을 한다.