내쉬 균형
게임 이론에서 모든 참가자가 상대방의 전략을 알고 있다고 가정할 때, 어느 누구도 전략을 바꿀 유인이 없는 상태를 의미한다. MARL에서는 학습이 안정화되어 최적의 정책에 도달했음을 나타내는 지표로 쓰인다.