멀티 에이전트 그룹 상대 정책 최적화
멀티 에이전트 시스템의 효율적 학습을 위한 강화학습 기법이다. 에이전트 간의 협업 능력과 복잡한 추론 과정을 최적화하여 시스템 전체의 성능을 극대화한다.