핵심 요약
Minimax 탐색의 한계를 극복하기 위해 TD Learning으로 평가 함수를 자동 학습하며, 동시성 게임과 비영합 게임에서의 최적 전략을 게임 이론적 관점에서 정의한다.
배경
Stanford 대학교의 대표적인 AI 강의인 CS221의 일부로, 지난 시간의 Minimax 탐색에 이어 학습을 통한 전략 수립을 다룹니다.
대상 독자
인공지능 알고리즘의 수학적 원리와 강화학습의 게임 적용에 관심 있는 개발자 및 연구자
의미 / 영향
이 강의는 게임 인공지능이 단순한 탐색 알고리즘에서 스스로 학습하는 강화학습 체계로 진화했음을 보여준다. 특히 혼합 전략과 Nash Equilibrium에 대한 이해는 자율주행차 간의 상호작용이나 경매 시스템 설계 등 복잡한 사회적/경제적 AI 에이전트 설계에 필수적인 이론적 토대를 제공한다. 개발자들은 이를 통해 단순 승리뿐만 아니라 시스템의 안정성을 고려한 알고리즘을 구축할 수 있다.
챕터별 상세
Minimax 복습과 평가 함수 학습의 필요성
- •Minimax는 에이전트의 최대 이익과 상대의 최소 이익을 가정하는 탐색 기법이다
- •수작업으로 설계된 평가 함수는 복잡한 게임의 모든 상황을 대변하기 어렵다
- •TD Learning을 통해 데이터로부터 가치 함수를 직접 학습할 수 있다
Minimax는 모든 가능한 수를 탐색하여 최선의 수를 찾는 알고리즘이지만, 탐색 공간이 넓은 경우 상태의 가치를 판단하는 평가 함수가 필수적이다.
TD Learning의 원리와 게임 환경 적용
- •SARSA는 On-policy 알고리즘으로 현재 정책에 따른 Q-value를 추정한다
- •TD Learning은 보상(r)과 다음 상태의 가치(V)를 이용해 현재 상태의 가치를 갱신한다
- •Self-play는 에이전트가 자기 자신과 대국하며 최적의 가치 함수를 찾아가는 과정이다
TD Learning은 전체 에피소드가 끝나기 전에도 다음 상태의 예측치를 이용해 현재 상태를 업데이트하는 Bootstrapping 기법을 사용한다.
게임 AI의 역사적 사례 분석
- •Checkers 프로그램은 Self-play와 Alpha-beta pruning을 결합한 초기 사례이다
- •TD-Gammon은 신경망을 통해 중간 보상 없이도 전문가 수준의 플레이를 학습했다
- •AlphaGo Zero는 순수하게 Self-play만으로 바둑의 새로운 통찰력을 제시했다
MCTS는 무작위 시뮬레이션을 통해 각 수의 승률을 계산하는 탐색 알고리즘으로, 강화학습된 정책망과 결합되어 사용된다.
동시성 게임과 혼합 전략의 개념
- •동시성 게임에서는 상대의 수를 보고 대응할 수 없으므로 심리전과 확률이 중요하다
- •Pure strategy는 상대에게 읽히기 쉬우며 최적의 대응에 취약하다
- •Mixed strategy는 행동의 확률 분포를 최적화하여 최소한의 기대 수익을 보장한다
혼합 전략은 상대방이 나의 다음 수를 예측할 수 없게 만들어 전략적 우위를 점하는 방법이다.
Minimax Theorem과 Nash Equilibrium
- •Minimax Theorem은 혼합 전략 하에서 Max-Min과 Min-Max 값이 같음을 보장한다
- •Nash Equilibrium은 모든 플레이어가 서로의 전략에 대해 최선의 대응을 하고 있는 상태이다
- •비영합 게임에서는 협력이 전체 이익을 높일 수 있음에도 균형점은 배신으로 흐를 수 있다
Nash Equilibrium은 다른 플레이어가 전략을 바꾸지 않는 한, 어떤 플레이어도 자신의 전략을 바꾸어 이득을 볼 수 없는 상태를 의미한다.
실무 Takeaway
- 상태 공간이 지수적으로 큰 게임에서는 모든 경로를 탐색하는 대신 TD Learning을 통한 가치 함수 근사로 효율적인 의사결정이 가능하다.
- Self-play 학습 방식은 인간의 기보 데이터 없이도 에이전트가 스스로 대국하며 최적의 전략을 찾아내게 하는 핵심 기법이다.
- 동시성 게임에서는 자신의 전략을 확률적으로 분산시키는 Mixed strategy를 사용해야 상대의 최적 대응으로부터 자신의 수익을 방어할 수 있다.
- Nash Equilibrium 분석을 통해 다중 에이전트 환경에서 시스템이 도달하게 될 안정적인 상태를 예측하고 설계할 수 있다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.