프롬프트 에코
autoregressive decoder 백본에서 프롬프트 위치로 예측을 두려면, 관찰된 trajectory 뒤에 프롬프트를 복사해 붙이는 입력 배치 방식이다. 이렇게 하면 echoed prompt 토큰 위치의 예측 헤드가 reasoning과 answer에 접근할 수 있다.