리플레이 메모리
에이전트의 과거 경험(상태, 행동, 보상 등)을 저장했다가 학습 시 무작위로 추출하여 사용하는 버퍼이다. 데이터 간의 상관관계를 줄여 학습의 안정성을 높이고 샘플 효율성을 극대화하는 역할을 한다.