해시 시그니처
하나의 토큰을 여러 독립 해시 함수로 맵핑해 얻는 짧은 정수 시퀀스로, 각 좌표는 물리적 버킷 인덱스를 뜻한다. 이 논문에서는 H개의 해시 함수로 구성된 시그니처를 사용해 단일 버킷 충돌을 피하고 조합적으로 고유한 토큰 식별자를 생성한다. 시그니처는 입력의 해시 버킷 임베딩을 결합한 뒤 Transformer에 공급되며 출력 단계에서 역변환되어 텍스트 토큰으로 복원된다.