비대칭 크리틱
강화학습 시 가치 함수를 평가하는 Critic에게만 시뮬레이션의 정답 정보(노이즈 없는 상태 등)를 제공하는 구조임. 실제 환경 배포 시 노이즈가 섞인 관측값만으로도 안정적인 제어가 가능하도록 도움.