Proxy Prompt Reinforcement Learning(Proxy Prompt Reinforcement Learning)이란 무엇인가요?

Question

Accepted Answer

Proxy Prompt Reinforcement Learning은 길어진 멀티모달 맥락(ct)을 평가하기 위한 프롬프트-기반 프로 rewarding 신호를 offline-VLM(교사 모델)으로 추출하고, 이를 RL 보상으로 사용해 Diffusion 정책을 안정적으로 조정하는 방법이다.

Proxy Prompt Reinforcement Learning

비슷한 개념