강화학습 롤아웃
강화학습 에이전트가 주어진 정책에 따라 환경과 상호작용하며 일련의 행동과 보상 데이터를 수집하는 실행 과정이다. 이 과정은 본질적으로 추론(Inference) 연산과 동일하여, 통신 제한 환경에서도 대규모로 수행하기 쉽다는 특징이 있다.