autoregressive
이전에 생성된 토큰들을 입력으로 사용하여 다음 토큰을 순차적으로 예측하는 방식이다. 대부분의 현대 언어 모델이 채택하고 있는 구조로, 앞선 단계의 오류가 뒤에 영향을 미치는 특성이 있다.
270M 모델이 120B를 이겼다? 지식 증류로 완성한 초소형 함수 호출 AI