td3
DDPG의 과대평가 문제를 해결하기 위해 두 개의 비평가자 네트워크를 사용하는 연속 제어 강화학습 알고리즘이다. 타겟 정책 평활화와 지연된 업데이트를 통해 학습의 안정성을 높이는 것이 특징이다.
TD3 강화학습, 순차적 훈련이 동시 훈련보다 나을 수 있을까?
같은 TD3 코드로 학습했는데 왜 내 모델만 핸들을 꺾을까?