신용 할당
강화학습에서 최종 보상에 대해 각 행동(토큰 생성)이 기여한 정도를 결정하는 과정이다. LLM에서는 특정 답변이 좋았을 때 어떤 토큰이 결정적이었는지 파악하는 데 중요하며 이를 정확히 계산해야 모델이 올바른 방향으로 학습된다.