상세 이미지 캡셔닝
이미지의 전체적인 맥락뿐만 아니라 객체 간의 관계, 세부 속성 등을 매우 상세하게 텍스트로 설명하는 기술이다. 시각 정보와 언어 정보 사이의 정밀한 연결을 가능하게 하여 멀티모달 모델의 성능 향상에 핵심적인 역할을 한다.