추론 토큰(reasoning-tokens)이란 무엇인가요?

Question

Accepted Answer

모델이 최종 답변을 내놓기 전 내부적으로 논리적 단계를 거치며 생성하는 토큰이다. RLVR 학습을 통해 모델은 더 복잡한 문제를 해결하기 위해 스스로 더 많은 추론 토큰을 생성하며 사고하는 법을 배운다.

reasoning-tokens