multimodal-cot
텍스트와 시각 정보를 결합하여 사고의 흐름을 생성하는 기법이다. 모델이 이미지의 세부 요소를 단계적으로 분석하여 복합적인 추론 결론에 도달하게 함으로써 시각 지능의 논리성을 강화하는 역할을 한다.
"벽은 없다" 구글 제미나이-3가 증명한 멀티모달 스케일링의 힘