본문으로 건너뛰기

interleaved-tokens

인터리브드 토큰

고급

텍스트 데이터와 이미지 데이터를 하나의 연속된 시퀀스 안에 섞어서 배치하는 방식이다. 이를 통해 모델은 별도의 인코더 없이도 텍스트 지시사항과 시각적 요소 사이의 공간적 관계를 직접적으로 학습하고 추론한다.