비전 인코더
입력된 이미지의 픽셀 데이터를 모델이 처리할 수 있는 추상적인 벡터 표현으로 변환하는 핵심 구성 요소이다.
CLIP 대신 LLM을 비전 인코더로? 텐센트의 혁신적 VLM PenguinVL