신용 할당
강화학습에서 최종 보상에 대해 각 행동(토큰 생성)이 기여한 정도를 결정하는 과정이다. LLM에서는 특정 답변이 좋았을 때 어떤 토큰이 결정적이었는지 파악하는 데 중요하며 이를 정확히 계산해야 모델이 올바른 방향으로 학습된다.
모호한 지시를 스스로 해결하는 에이전트, 정보 이득 기반 RL로 진화
PPO와 GRPO의 차이점? LLM 정렬을 위한 RL 핵심 완벽 정리