navit
NaViT(임의 비율 입력 지원 비전 백본)
NaViT는 다양한 종횡비의 이미지를 자연스럽게 처리하도록 설계된 비전 Transformer 계열 아키텍처이다. 본문에서는 NaViT 유사 인코더 구조에 RoPE를 결합해 입력 이미지의 종횡비를 유지한 채 패치 토큰으로 변환하고, 토큰 길이 범위를 [64,256]으로 설정해 배치/학습을 안정화했다.
NaViT(임의 비율 입력 지원 비전 백본)
NaViT는 다양한 종횡비의 이미지를 자연스럽게 처리하도록 설계된 비전 Transformer 계열 아키텍처이다. 본문에서는 NaViT 유사 인코더 구조에 RoPE를 결합해 입력 이미지의 종횡비를 유지한 채 패치 토큰으로 변환하고, 토큰 길이 범위를 [64,256]으로 설정해 배치/학습을 안정화했다.