비용-투-고 함수
특정 상태에서 시작하여 미래의 끝까지 발생할 것으로 예상되는 누적 비용의 최솟값을 의미한다. 동적 계획법에서 최적의 결정을 내리기 위한 핵심 지표로 활용된다.
제어는 단순한 최적화가 아니다? 최적 제어와 강화학습의 본질적 차이