비전 캡셔닝
AI가 이미지를 시각적으로 분석하여 그 내용을 설명하는 텍스트 문장을 생성하는 기술이다. 이미지 생성 모델에 입력할 정교한 프롬프트를 얻기 위해 원본 이미지의 구도, 색상, 사물을 텍스트로 변환하는 데 사용된다.
LoRA 없이도 이 정도? z-image turbo로 구현한 고전 할리우드 유명인들