Gym 기반 API
강화학습 환경에서 표준으로 사용되는 인터페이스 방식으로, reset(초기화), step(행동 수행), observation(관찰) 등의 구조를 가진다. 에이전트와 환경 간의 상호작용을 정형화하여 평가의 재현성을 보장한다.