본문으로 건너뛰기

maxrl

최대 가능도 강화학습

고급

REINFORCE 알고리즘과 최대 가능도 추정을 결합한 새로운 강화학습 목적 함수이다. 샘플 효율성을 높이고 어려운 문제에서 더 큰 그래디언트를 생성하여, 복잡한 추론 작업에서 모델의 성능을 효과적으로 개선하는 기법이다.