정책 공간 응답 오라클
게임 이론에서 새로운 전략을 반복적으로 추가하여 내쉬 평형에 도달하려는 인구 기반 강화학습 프레임워크이다. 각 단계에서 상대방의 전략에 대한 최적 대응을 찾아 정책 집합을 확장하며, 메타 게임 분석을 통해 에이전트 간의 복잡한 상호작용을 관리하고 성능을 개선한다.
구글 딥마인드 AlphaEvolve, 스스로 진화하며 인간을 뛰어넘는 AI 알고리즘 설계