Proxy Prompt Reinforcement Learning
Proxy Prompt Reinforcement Learning은 길어진 멀티모달 맥락(ct)을 평가하기 위한 프롬프트-기반 프로 rewarding 신호를 offline-VLM(교사 모델)으로 추출하고, 이를 RL 보상으로 사용해 Diffusion 정책을 안정적으로 조정하는 방법이다.