일차원 토크나이제이션
비디오를 일차원 연속 토큰 시퀀스로 압축하는 방식으로 토큰 순서성을 유지하여 autoregressive 생성 모델과 직접 결합할 수 있다. 패치 기반 3D 라티스 대신 learnable holistic queries로 입력을 요약하고 하나의 일렬 토큰으로 양방향 정보를 표현한다. AVTok 문맥에서는 오디오의 자연스러운 1D 표현과 호환되어 멀티모달 통합을 가능하게 하는 핵심 표현 단위이다.