본문으로 건너뛰기
ProRL Agent: 다중 턴 LLM 에이전트 강화학습을 위한 서비스형 롤아웃 인프라 | AI Trends