2차원 회전 위치 임베딩
텍스트의 순서 정보를 처리하는 RoPE 기법을 확장하여 이미지의 가로세로 공간 정보를 모델이 인식할 수 있게 하는 기술이다.
CLIP 대신 LLM을 비전 인코더로? 텐센트의 혁신적 VLM PenguinVL