변분 공식화
복잡한 최적화 문제를 다루기 쉬운 함수 형태나 분포 간의 거리 최소화 문제로 변환하여 수학적으로 해결하는 접근 방식입니다.
64배의 정책 지연도 견디는 안정적인 비동기 LLM 강화학습, VESPO