contextual-bandit
주어진 문맥(정보)에 따라 여러 선택지 중 하나를 골라 보상을 최대화하는 강화학습의 일종이다. 행동이 다음 상태에 영향을 주지 않는다는 점에서 일반적인 강화학습보다 단순하지만, 실시간 추천이나 정책 결정에 널리 쓰인다.
주어진 문맥(정보)에 따라 여러 선택지 중 하나를 골라 보상을 최대화하는 강화학습의 일종이다. 행동이 다음 상태에 영향을 주지 않는다는 점에서 일반적인 강화학습보다 단순하지만, 실시간 추천이나 정책 결정에 널리 쓰인다.