타겟 네트워크
강화학습 알고리즘에서 학습의 안정성을 높이기 위해 사용하는 별도의 신경망이다. 메인 네트워크의 가중치를 주기적으로 복사하여 목표값을 계산할 때 사용함으로써 학습 중 발생하는 수치적 진동을 억제한다. 이를 통해 신경망 업데이트 시 발생하는 상관관계 문제를 완화한다.