에이전트 강화학습
LLM과 같은 지능형 에이전트가 환경과 상호작용하며 보상을 최대화하는 행동을 학습하는 기법으로 복잡한 다단계 추론과 도구 사용 능력을 강화하는 데 사용된다.
에이전트 강화학습의 고질적 학습 붕괴 문제, SAMPO 알고리즘으로 해결