암시적 시각 체인오브쏘트 (implicit-visual-chain-of-thought) 용어 설명 | AI Trends
implicit-visual-chain-of-thought
암시적 시각 체인오브쏘트
중급
중간 추론 상태를 텍스트나 중간 이미지로 외부화하지 않고, MLLM의 내부 쿼리(learnable queries)에 구조적 계획과 의미적 렌더링을 순차적으로 담아 디퓨전 생성기(DiT)에 조건으로 제공하는 기법이다. 구조적 쿼리(Q_s)가 먼저 형태·배치 정보를 인코딩하고, 의미적 쿼리(Q_m)가 이를 참조해 색·재질 등 외형을 완성한다. 추론은 단일 포워드 패스로 이루어지며 학습 시에만 스케치 감독을 사용한다.