라바
시각적 지시어 튜닝을 통해 구축된 대규모 멀티모달 모델이다. CLIP 비전 인코더와 언어 모델을 연결하여 이미지와 텍스트 입력을 동시에 처리하고 텍스트로 응답하며, 비전 분야의 GPT 모먼트를 상징한다.