nash-equilibrium
게임 이론에서 모든 참가자가 상대방의 전략을 알고 있다고 가정할 때, 어느 누구도 전략을 바꿀 유인이 없는 상태를 의미한다. MARL에서는 학습이 안정화되어 최적의 정책에 도달했음을 나타내는 지표로 쓰인다.
1900 ELO 달성: 탐색 엔진 없이 신경망만으로 포켓몬 고수가 된 AI
MARL의 블랙박스를 깨다: 정형 추론으로 구현하는 1,000개 에이전트의 안정성
에이전트끼리 대화하는 시대가 왔다: Moltbook이 예고한 AI 스웜의 미래