buffer-periods
학습 과정에서 특정 기간 동안 정책 변경을 멈추거나 데이터를 분리하여 입찰자의 전략적 조작이 학습 결과에 즉각 반영되지 않도록 차단하는 기술이다. 이를 통해 입찰자의 기만 행위를 방지한다.
부정직한 입찰자도 막는다! 강화학습 기반 경매 최적화 알고리즘 CLUB 공개