추론 토큰
모델이 최종 답변을 내놓기 전 내부적으로 논리적 단계를 거치며 생성하는 토큰이다. RLVR 학습을 통해 모델은 더 복잡한 문제를 해결하기 위해 스스로 더 많은 추론 토큰을 생성하며 사고하는 법을 배운다.