롤아웃
강화학습에서 에이전트가 환경과 상호작용하며 일련의 행동과 결과를 생성하는 데이터 수집 과정으로, 학습의 핵심적인 추론 단계이다.
AI 개발을 1년 늦출 수 있을까? 추론 검증의 3가지 핵심 병목
에이전트끼리 서로 배운다? 훈련 비용은 절반, 성능은 3.3% 향상된 HACRL
샘플 비용은 절반으로, 성능은 3.3% 향상시킨 이종 에이전트 협력 강화학습