본문으로 건너뛰기
VESPO: 안정적인 오프-폴리시 LLM 학습을 위한 변분 시퀀스 수준 소프트 정책 최적화 | AI Trends