오프폴리시 학습
과거의 정책이나 다른 에이전트가 생성한 데이터를 활용하여 학습하는 방식입니다. 이미 수집된 데이터를 재사용할 수 있어 효율적이며, 과거의 성공적인 탐색 경로를 다시 학습에 반영하여 성능을 높이는 데 유리합니다.
GRPO 대비 성능 128% 향상, 메모리로 LLM 에이전트의 탐색 한계 돌파