비전 트랜스포머
이미지를 패치 단위로 나누어 트랜스포머 구조로 처리하는 아키텍처이다. 기존 CNN 방식보다 전역적인 문맥 파악 능력이 뛰어나 멀티모달 모델의 시각 인코더로 널리 쓰인다.
SAM 3가 1위? 2026년 AI 비전 모델 성능 순위 전격 공개