추론 궤적
모델이 최종 답변을 생성하기까지 출력한 중간 토큰들의 연속이다. 프롬프트와 중간 reasoning 토큰, 최종 Answer를 포함하며, 이 논문에서는 단일 실행에서 관찰된 궤적 τ=(P,R,A)를 입력 데이터로 사용해 미래 행동을 예측하는 목적 변수로 매핑한다. 궤적은 자연어처럼 보이나 내부 계산을 충실히 반영하지 않을 수 있다.