정책 시스템
실행 가능한 Python 아티팩트로 제출되는 정책 본체로서 reset 및 act(obs) 진입점을 포함한다. 이 번들은 상태, 헬퍼 모듈, 상수, 진단 코드, 학습된 파라미터 등을 포함할 수 있으며 서버가 해당 번들을 실행해 에피소드를 평가한다. 평가에서는 이 번들이 반복 제출과 수정의 단위가 되어 에이전트의 개선 경로를 기록한다.