오프라인 강화학습
실시간 탐색 대신 미리 수집된 데이터셋(로그)만을 사용하여 정책을 학습시키는 기법이다. 실제 비즈니스 환경에서 무작위 탐색으로 발생할 수 있는 위험을 방지할 수 있어, 기업용 AI 에이전트 배포 시 가장 먼저 고려되는 안전한 학습 방식이다.