정책 공간 응답 오라클
게임 이론에서 새로운 전략을 반복적으로 추가하여 내쉬 평형에 도달하려는 인구 기반 강화학습 프레임워크이다. 각 단계에서 상대방의 전략에 대한 최적 대응을 찾아 정책 집합을 확장하며, 메타 게임 분석을 통해 에이전트 간의 복잡한 상호작용을 관리하고 성능을 개선한다.