시각적 프롬프트
텍스트 지시사항이나 레이아웃 정보를 이미지 캔버스 위에 직접 렌더링하여 모델의 입력으로 사용하는 방식이다. 텍스트 인코더 없이도 기하학적 정렬과 의미론적 제어를 단일 시각 공간 내에서 처리할 수 있게 한다.