본문으로 건너뛰기

navit

NaViT(임의 비율 입력 지원 비전 백본)

중급

NaViT는 다양한 종횡비의 이미지를 자연스럽게 처리하도록 설계된 비전 Transformer 계열 아키텍처이다. 본문에서는 NaViT 유사 인코더 구조에 RoPE를 결합해 입력 이미지의 종횡비를 유지한 채 패치 토큰으로 변환하고, 토큰 길이 범위를 [64,256]으로 설정해 배치/학습을 안정화했다.