자기회귀
이전 단계에서 생성된 토큰들을 바탕으로 다음 토큰을 하나씩 순차적으로 예측하여 생성하는 방식이다. 대부분의 기존 LLM이 채택하고 있는 방식이지만 문장이 길어질수록 생성 속도가 느려지는 병목 현상이 발생한다.
GPT-5보다 10배 빠르다? 1초에 1,000토큰 뽑아내는 Mercury 2의 비밀