바나흐 고정점 정리
완비 거리 공간에서 수축 사상은 유일한 고정점을 가지며 임의의 점에서 시작해 함수를 반복 적용하면 그 고정점에 수렴한다는 수학적 정리이다. 가치 반복 알고리즘이 최적해에 도달하는 근거가 된다.
강화학습의 핵심 증명: 왜 그리디 정책이 항상 최적인가?