Stanford OnlineAI/ML조회 1회

Stanford CS221: 인공지능 원리와 기법 - 게임 II (TD Learning 및 게임 이론)

게임의 승리 전략을 학습하기 위한 TD Learning 기법과 동시성 게임에서의 혼합 전략 및 Nash Equilibrium을 다루는 Stanford 대학의 AI 강의이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Minimax 탐색의 한계를 극복하기 위해 TD Learning으로 평가 함수를 자동 학습하며, 동시성 게임과 비영합 게임에서의 최적 전략을 게임 이론적 관점에서 정의한다.

배경

Stanford 대학교의 대표적인 AI 강의인 CS221의 일부로, 지난 시간의 Minimax 탐색에 이어 학습을 통한 전략 수립을 다룹니다.

대상 독자

인공지능 알고리즘의 수학적 원리와 강화학습의 게임 적용에 관심 있는 개발자 및 연구자

의미 / 영향

이 강의는 게임 인공지능이 단순한 탐색 알고리즘에서 스스로 학습하는 강화학습 체계로 진화했음을 보여준다. 특히 혼합 전략과 Nash Equilibrium에 대한 이해는 자율주행차 간의 상호작용이나 경매 시스템 설계 등 복잡한 사회적/경제적 AI 에이전트 설계에 필수적인 이론적 토대를 제공한다. 개발자들은 이를 통해 단순 승리뿐만 아니라 시스템의 안정성을 고려한 알고리즘을 구축할 수 있다.

챕터별 상세

00:00

Minimax 복습과 평가 함수 학습의 필요성

지난 강의에서 다룬 Minimax 원칙을 복습하며 에이전트가 유틸리티를 최대화하고 상대방이 최소화하는 구조를 재확인했다. 체스와 같은 복잡한 게임에서 사람이 직접 휴리스틱을 설계하는 manual heuristics 방식의 한계를 지적했다. 이를 해결하기 위해 Reinforcement Learning, 특히 TD Learning을 사용하여 게임의 상태를 평가하는 evaluation function을 스스로 학습하는 방법론을 제시했다.

•Minimax는 에이전트의 최대 이익과 상대의 최소 이익을 가정하는 탐색 기법이다
•수작업으로 설계된 평가 함수는 복잡한 게임의 모든 상황을 대변하기 어렵다
•TD Learning을 통해 데이터로부터 가치 함수를 직접 학습할 수 있다

Minimax는 모든 가능한 수를 탐색하여 최선의 수를 찾는 알고리즘이지만, 탐색 공간이 넓은 경우 상태의 가치를 판단하는 평가 함수가 필수적이다.

03:10

TD Learning의 원리와 게임 환경 적용

강화학습의 SARSA 알고리즘을 기반으로 가치 기반 학습의 핵심 개념인 V-value와 Q-value를 정의했다. TD Learning은 현재 상태의 예측값과 다음 상태에서 얻은 보상을 합친 타겟값 사이의 차이를 줄이는 방식으로 가중치를 업데이트한다. 게임 환경에서는 에이전트와 상대방이 동일한 가치 함수를 공유하며 대국하는 Self-play 방식을 적용하여 데이터를 생성하고 학습을 진행한다.

•SARSA는 On-policy 알고리즘으로 현재 정책에 따른 Q-value를 추정한다
•TD Learning은 보상(r)과 다음 상태의 가치(V)를 이용해 현재 상태의 가치를 갱신한다
•Self-play는 에이전트가 자기 자신과 대국하며 최적의 가치 함수를 찾아가는 과정이다

TD Learning은 전체 에피소드가 끝나기 전에도 다음 상태의 예측치를 이용해 현재 상태를 업데이트하는 Bootstrapping 기법을 사용한다.

14:19

게임 AI의 역사적 사례 분석

1959년 Arthur Samuel의 Checkers 프로그램부터 최신 AlphaGo Zero까지의 발전 과정을 분석했다. 초기에는 선형 평가 함수와 수작업 피처를 사용했으나, TD-Gammon에 이르러 신경망을 활용한 비선형 학습이 도입되었다. AlphaGo Zero는 인간의 지식 없이 오직 Self-play와 Monte Carlo Tree Search(MCTS)만을 결합하여 인간을 능가하는 성능을 달성했으며, 이는 강화학습의 강력함을 증명한 사례이다.

•Checkers 프로그램은 Self-play와 Alpha-beta pruning을 결합한 초기 사례이다
•TD-Gammon은 신경망을 통해 중간 보상 없이도 전문가 수준의 플레이를 학습했다
•AlphaGo Zero는 순수하게 Self-play만으로 바둑의 새로운 통찰력을 제시했다

MCTS는 무작위 시뮬레이션을 통해 각 수의 승률을 계산하는 탐색 알고리즘으로, 강화학습된 정책망과 결합되어 사용된다.

18:16

동시성 게임과 혼합 전략의 개념

가위바위보와 같이 두 플레이어가 동시에 수를 두는 Simultaneous games의 특성을 다루었다. 이러한 게임에서는 자신의 전략을 상대에게 노출할 경우 결정론적인 Pure strategy는 항상 패배할 수밖에 없음을 확인했다. 이를 해결하기 위해 각 행동에 확률을 부여하는 Mixed strategy를 도입했으며, 상대가 나의 확률 분포를 알더라도 나의 기대 수익을 낮출 수 없는 최적의 확률 분포를 찾는 과정을 설명했다.

•동시성 게임에서는 상대의 수를 보고 대응할 수 없으므로 심리전과 확률이 중요하다
•Pure strategy는 상대에게 읽히기 쉬우며 최적의 대응에 취약하다
•Mixed strategy는 행동의 확률 분포를 최적화하여 최소한의 기대 수익을 보장한다

혼합 전략은 상대방이 나의 다음 수를 예측할 수 없게 만들어 전략적 우위를 점하는 방법이다.

21:57

Minimax Theorem과 Nash Equilibrium

John von Neumann의 Minimax Theorem을 통해 혼합 전략을 허용할 경우 '먼저 전략을 공개하는 것'이 불리하지 않음을 수학적으로 증명했다. 또한, 영합 게임이 아닌 일반적인 게임 상황으로 확장하여 Nash Equilibrium의 개념을 정의했다. 죄수의 딜레마(Prisoner's Dilemma) 사례를 통해 각 플레이어가 자신의 이익만을 쫓을 때 사회적으로 최선이 아닌 상태에서 균형이 이루어지는 현상을 분석했다.

•Minimax Theorem은 혼합 전략 하에서 Max-Min과 Min-Max 값이 같음을 보장한다
•Nash Equilibrium은 모든 플레이어가 서로의 전략에 대해 최선의 대응을 하고 있는 상태이다
•비영합 게임에서는 협력이 전체 이익을 높일 수 있음에도 균형점은 배신으로 흐를 수 있다

Nash Equilibrium은 다른 플레이어가 전략을 바꾸지 않는 한, 어떤 플레이어도 자신의 전략을 바꾸어 이득을 볼 수 없는 상태를 의미한다.

실무 Takeaway

상태 공간이 지수적으로 큰 게임에서는 모든 경로를 탐색하는 대신 TD Learning을 통한 가치 함수 근사로 효율적인 의사결정이 가능하다.
Self-play 학습 방식은 인간의 기보 데이터 없이도 에이전트가 스스로 대국하며 최적의 전략을 찾아내게 하는 핵심 기법이다.
동시성 게임에서는 자신의 전략을 확률적으로 분산시키는 Mixed strategy를 사용해야 상대의 최적 대응으로부터 자신의 수익을 방어할 수 있다.
Nash Equilibrium 분석을 통해 다중 에이전트 환경에서 시스템이 도달하게 될 안정적인 상태를 예측하고 설계할 수 있다.

언급된 리소스

문서Stanford CS221 Course Schedule

논문AlphaGo Zero Nature Paper

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 10.수집 2026. 03. 10.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Stanford CS221: 인공지능 원리와 기법 - 게임 II (TD Learning 및 게임 이론) | AI Trends