구글 리서치 풋볼 경진대회 2위 팀 SaltyFish의 강화학습 전략 분석

구글 리서치 풋볼 경진대회에서 2위를 차지한 SaltyFish 팀이 IMPALA 알고리즘과 Surgery 기법을 활용해 고성능 축구 AI 에이전트를 구축한 기술적 세부 사항을 공유합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

IMPALA 알고리즘을 기반으로 한 분산 학습 환경 구축과 Surgery 기법을 통한 동적 피처 확장이 고성능 에이전트 개발의 핵심이다. 단순한 보상 설계와 충분한 컴퓨팅 자원 확보가 최종 성적에 결정적인 영향을 미쳤다.

배경

구글 리서치와 맨체스터 시티 FC가 공동 개최한 구글 리서치 풋볼 경진대회는 물리 기반 축구 시뮬레이션에서 자율 AI 에이전트를 개발하는 도전적인 과제이다.

대상 독자

강화학습 연구자, 게임 AI 개발자, 데이터 과학자 및 Kaggle 경진대회 참가자

의미 / 영향

SaltyFish 팀의 사례는 복잡한 물리 시뮬레이션 환경에서 강화학습을 적용할 때 단순한 알고리즘 개선보다 데이터 표현과 학습 커리큘럼 설계가 더 중요함을 보여줍니다. 특히 Surgery 기법을 통한 점진적 모델 개선 방식은 장기적인 학습 프로젝트에서 시행착오를 줄이는 강력한 도구가 될 수 있습니다. 또한, 복잡한 네트워크 구조보다 기본에 충실한 아키텍처가 실제 경진대회 환경에서 더 안정적인 성능을 낸다는 점은 실무자들에게 중요한 시사점을 줍니다.

챕터별 상세

00:00

팀 소개 및 연구 배경

NetEase Fuxi AI Lab 소속의 SaltyFish 팀은 2017년에 설립된 중국 최초의 게임 AI 연구소 팀이다. 이들은 강화학습, 사용자 페르소나, 컴퓨터 비전 등 다양한 AI 분야를 연구하며 농구 게임, MMORPG, 게임 테스팅 등에 강화학습을 적용한 경험이 풍부하다. 이번 대회에서는 3~4명의 핵심 개발자와 3명의 어드바이저가 참여하여 2위를 기록했다.

•NetEase Games 산하 Fuxi AI Lab의 강화학습 전문 그룹이 참여함
•농구 게임 및 MMORPG 등 실제 게임 환경에서의 RL 적용 경험 보유
•대규모 컴퓨팅 플랫폼 지원을 통해 효율적인 실험 환경 구축

09:11

강화학습 솔루션 및 기술 요약

기본 알고리즘으로 IMPALA를 사용했으며, 신경망 구조는 단순한 Fully Connected 구조를 채택했다. 상태 표현(State Representation)을 위해 Multi-head 벡터 방식을 사용했으며, 학습 도중 피처를 추가하는 Surgery 기법을 적용했다. 이외에도 Curriculum Learning, Imitation Learning, 그리고 코너킥과 스로인 상황을 위한 고정 규칙(Fixed Rules)을 혼합하여 에이전트를 완성했다.

•분산 학습에 최적화된 IMPALA 알고리즘을 메인으로 사용함
•Multi-head 벡터 상태 표현을 통해 정보의 그룹별 특징을 추출함
•Surgery 기법을 활용해 학습 중단 없이 새로운 피처를 동적으로 추가함

11:01

학습 접근 방식: PvE에서 Self-play까지

학습은 총 3단계로 진행되었다. 1단계는 쉬운 룰 기반 AI를 상대로 전진과 슈팅을 학습했고, 2단계는 어려운 룰 기반 AI를 상대로 드리블과 슈팅 기술을 강화했다. 마지막 3단계는 Self-play를 통해 정교한 전술을 습득했다. Self-play 시 대결 상대는 최신 모델을 70%, 과거 모델 중 하나를 랜덤하게 30% 비율로 선택하여 전략의 다양성을 확보했다.

•단계별 Curriculum Learning을 통해 기초부터 고급 전술까지 순차적으로 학습함
•Self-play 시 최신 모델과 과거 모델을 섞어 대결 상대를 선정하여 범용성을 높임
•룰 기반 AI와의 PvE 학습이 초기 정책 수렴에 중요한 역할을 함

14:26

상태 표현의 진화와 Surgery 기법

초기에는 공과 선수들의 위치, 방향 등 기본적인 벡터 정보만 사용했다. 하지만 대회 중반에 옐로카드, 레드카드, 피로도, 오프사이드 정보가 누락되었음을 발견하고 Surgery 기법을 통해 이를 추가했다. Surgery 기법은 기존 신경망의 가중치를 유지하면서 새로운 입력 차원을 확장하는 방식으로, 적용 후 에이전트의 성능 지표가 비약적으로 상승했다.

•이미지 피처 대신 벡터 피처만 사용하여 GPU 자원 소모를 최소화함
•Surgery 기법으로 학습된 지식을 보존하며 모델 구조를 동적으로 변경함
•과거 4개 액션 시퀀스를 히스토리 정보로 추가하여 성능을 극대화함

18:21

신경망 아키텍처 및 보상 설계

신경망은 각 정보 그룹(공, 선수 등)을 처리하는 개별 레이어와 이를 통합하는 3개의 공유 레이어로 구성되었다. 보상 설계는 최대한 단순하게 유지했다. PvE 단계에서는 득점과 체크포인트 보상을 사용했지만, Self-play 단계에서는 오직 득점 보상만 사용했다. 체크포인트 보상을 Self-play에 계속 사용하면 패스를 하지 않는 이기적인 플레이가 발생하는 부작용이 있었기 때문이다.

•Multi-head 구조를 통해 다양한 상태 정보를 효율적으로 융합함
•Self-play에서는 최종 목표인 득점에만 보상을 집중하여 전술적 완성도를 높임
•복잡한 Reward Shaping이 오히려 성능을 저해할 수 있음을 실험으로 확인 함

21:30

추가 연구 및 실험 결과 분석

대회 종료 후 다양한 추가 실험을 진행했다. 랜덤 시드가 학습 결과에 미치는 영향을 분석한 결과, 동일한 설정에서도 약 50%의 확률로만 성공적인 수렴이 일어났다. 또한 ASN(Action Semantics Network)이나 GNN(Graph Neural Network) 같은 복잡한 구조를 테스트했으나, 기본 Fully Connected 구조보다 성능이 낮거나 학습 속도가 느린 것으로 나타났다.

•강화학습에서 랜덤 시드가 수렴 여부에 결정적인 영향을 미침을 증명함
•복잡한 신경망 구조보다 데이터 표현과 학습 방식이 더 중요함을 확인 함
•Imitation Learning을 통해 상위권 팀의 정책을 분석하고 대응 전략을 수립함

실무 Takeaway

학습 도중 입력 피처를 추가할 때는 Surgery 기법을 사용하여 기존 학습된 가중치를 보존하면서 새로운 정보를 통합하는 것이 효율적이다.
Self-play 학습 시 대결 상대를 오직 최신 모델로만 구성하지 않고 과거 모델을 일정 비율(30%) 섞어주는 것이 전략의 고착화를 막고 범용성을 높인다.
복잡한 Reward Shaping은 에이전트의 특정 행동을 유도할 수 있지만, 최종 목표인 승리 성능을 저해할 수 있으므로 단순한 보상 체계가 유리할 때가 많다.
강화학습 모델의 성능은 랜덤 시드에 매우 민감하므로, 동일한 설정으로 여러 번 실험하여 최적의 수렴 결과를 찾는 과정이 필수적이다.

언급된 리소스

문서Google Research Football Competition Overview

논문IMPALA: Importance Weighted Actor-Learner Architecture

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 26.수집 2026. 02. 26.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

구글 리서치 풋볼 경진대회 2위 팀 SaltyFish의 강화학습 전략 분석 | AI Trends