markov-decision-process
상태, 행동, 보상을 통해 순차적인 의사결정 문제를 모델링하는 수학적 프레임워크이다. 현재의 선택이 다음 상태와 보상에 영향을 미치는 동적인 시스템을 분석하고 최적화하는 데 필수적이다.
부정직한 입찰자도 막는다! 강화학습 기반 경매 최적화 알고리즘 CLUB 공개