replay-buffer
에이전트가 환경과 상호작용하며 얻은 경험 데이터를 저장하는 메모리 공간이다. 학습 시 데이터를 무작위로 샘플링하여 데이터 간의 상관관계를 줄이고 학습 효율을 높이는 데 사용된다.
TD3 강화학습, 순차적 훈련이 동시 훈련보다 나을 수 있을까?