탐색과 활용의 균형
새로운 정보를 얻기 위해 미지의 영역을 시도하는 탐색과 이미 알고 있는 최선의 정보를 활용하는 것 사이의 균형을 맞추는 문제입니다. 강화학습 에이전트가 최적의 성과를 내기 위해 반드시 해결해야 하는 핵심 과제입니다.
GRPO 대비 성능 128% 향상, 메모리로 LLM 에이전트의 탐색 한계 돌파