본문으로 건너뛰기

AI Trends

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

둘러보기

피드 트렌딩 커뮤니티 공지사항 일자별 아카이브

탐색

기술 태그 AI 용어 사전

서비스

서비스 소개 문의

정책

운영 정책 개인정보 처리방침 이용약관

© 2026 AI Trends. All rights reserved.후원

피드 트렌딩 커뮤니티 탐색 보관함

홈 트렌딩 커뮤니티 보관함 프로필

llava

라바

중급

시각적 지시어 튜닝을 통해 구축된 대규모 멀티모달 모델이다. CLIP 비전 인코더와 언어 모델을 연결하여 이미지와 텍스트 입력을 동시에 처리하고 텍스트로 응답하며, 비전 분야의 GPT 모먼트를 상징한다.

비슷한 개념

vision-language-models multimodal-large-language-model lvm visual-instruction-tuning clip video-mllm vision-llm vla

← 용어 사전 전체 보기