프로젝터
비텍스트 인코더의 출력을 텍스트 백본의 숨김 공간으로 매핑하기 위해 학습 가능한 선형 계층(fc_vision_2, fc_audio)을 도입하는 방식으로, frozen 텍스트 임베딩과의 호환성을 보장한다.