오프라인 정책 평가
새로운 모델이나 정책을 실제 환경에 배포하기 전, 과거에 수집된 데이터를 사용하여 성능을 추정하는 방법이다. 실시간 테스트의 리스크를 줄이면서 모델의 유효성을 검증하는 핵심 단계이다.