단일 스트림 트랜스포머
텍스트, 비디오, 오디오 등 서로 다른 형태의 데이터를 별도의 처리 경로로 나누지 않고 하나의 통합된 토큰 시퀀스로 묶어 처리하는 신경망 구조이다. 구조적 단순함을 통해 데이터 간의 상관관계를 직접 학습하며 학습 및 추론 효율성을 극대화하는 데 기여한다.