vlm
이미지와 텍스트를 동시에 이해하고 처리할 수 있는 AI 모델이다. 문서의 시각적 구조를 직접 분석하여 텍스트와 레이아웃 정보를 한 번에 파악하는 데 활용된다.
CLIP 대신 LLM을 비전 인코더로? 텐센트의 혁신적 VLM PenguinVL
위성 사진에서 수영장 찾기? VLM으로 구현하는 제로샷 객체 탐지
학습 없이 위성 사진에서 수영장을 찾는다? VLM 기반 위성 분석 도구
3090에서 100tk/s 속도로 이미지 속 물체를 찾아내는 Qwen-35B
71장의 데이터로 탁수를 잡아라: YOLO와 VLM의 비효율적 결합 해결책은?