ByT5
구글이 개발한 T5 모델의 변형으로, 텍스트를 토큰 단위가 아닌 바이트(byte) 단위로 처리하는 모델이다. 어휘 사전(vocabulary) 크기에 구애받지 않아 오타나 고어, 특수 문자가 많은 데이터셋에서 강점을 보이며 이번 경진대회의 복잡한 고대 문자 표기법 처리에 효과적이었다.