투영 레이어
비전 인코더에서 추출한 시각적 특징 벡터를 언어 모델의 임베딩 공간으로 변환하는 연결 계층이다. 서로 다른 모달리티의 데이터를 동일한 차원으로 맞춰 모델이 통합적으로 이해할 수 있도록 돕는 가교 역할을 한다.