적응 증류
Stage 2에서 downstream 과업 결과를 보상으로 사용해 Mem-π의 파라미터를 강화학습으로 미세조정하는 과정. decision-contents decoupled 학습 목표에 맞춰 파생되는 보상 신호를 학습한다.