쿼리 기반 생성 (query-conditioned-generation) 용어 설명 | AI Trends
query-conditioned-generation
쿼리 기반 생성
중급
텍스트와 함께 학습 가능한 연속형 시각 쿼리(learnable queries)를 MLLM에 입력해 그 출력 쿼리를 디퓨전 생성기 조건으로 사용해 이미지를 복원하는 방식이다. 쿼리는 구조·외형 정보를 압축하고, DiT는 이 쿼리들을 cross-attention으로 참조해 노이즈 제거를 수행한다.