밀집 감독 신호
밀집 감독 신호는 장기 궤적의 중간 시점(중간 상태나 행동)에 점수를 할당하여 최종 보상만으로는 포착하기 힘든 행동의 가치를 촘촘하게 평가하는 방법이다. 이 논문에서는 토큰 확률, 자기 증류, 임베딩 유사도, 코드 기반 평가 등 여러 방식으로 점수를 산출하여 비교한다. 밀집 신호는 긴 시간 지평선에서 어떤 중간 행동이 최종 성과에 기여하는지를 더 잘 알려 학습과 탐색에 추가 정보를 제공한다.