미드 퓨전
비전 인코더와 언어 모델을 중간 단계에서 결합하는 아키텍처다. 비전 토큰을 언어 모델의 임베딩 공간으로 투영하여 처리하며, 초기 결합 방식보다 연산 효율이 높으면서도 강력한 교차 모달 추론 성능을 유지하는 장점이 있다.