실시간 강화학습
실제 운영 환경에서 발생하는 사용자 상호작용 데이터를 즉시 수집하여 모델 학습의 보상 신호로 활용하는 기법이다. 시뮬레이션 환경과 실제 환경 사이의 불일치를 해소하고 실제 사용자 만족도를 직접적으로 최적화할 수 있다.