자기회귀
이전에 생성된 토큰들을 입력으로 사용하여 다음 토큰을 순차적으로 예측하는 방식이다. 대부분의 현대 언어 모델이 채택하고 있는 구조로, 앞선 단계의 오류가 뒤에 영향을 미치는 특성이 있다.