멀티모달 대형 언어 모델
텍스트뿐만 아니라 이미지, 영상 등 다양한 형태의 데이터를 동시에 이해하고 처리할 수 있는 거대 언어 모델입니다.
LongVideo-R1: 영상 전체를 보지 않고도 필요한 구간만 찾아내는 지능형 에이전트