SDAR
Self-Distilled Agentic Reinforcement Learning의 약자. RL과 OPSD를 조합하는 가중식 보조 목표를 토큰 단위에서 조정하는 프레임워크.