구글 딥마인드, LLM 기반 진화형 코딩 에이전트 'AlphaEvolve'로 새로운 멀티에이전트 학습 알고리즘 발견

핵심 요약

멀티에이전트 강화학습(MARL) 알고리즘 설계는 그동안 인간의 직관과 시행착오에 의존해 왔다. 구글 딥마인드는 LLM을 진화 연산자로 활용해 알고리즘의 소스 코드를 직접 수정하고 새로운 상징적 논리를 창안하는 'AlphaEvolve' 프레임워크를 개발했다. 이 시스템은 변동성 적응형 할인 기법을 도입한 VAD-CFR과 하이브리드 메타 솔버를 사용하는 SHOR-PSRO라는 두 가지 혁신적인 알고리즘을 발견했다. 실험 결과, 발견된 알고리즘들은 포커와 주사위 게임 등 다양한 불완전 정보 게임에서 기존 최첨단 성능을 능가하거나 대등한 수준을 보였다.

배경

강화학습(Reinforcement Learning), 멀티에이전트 시스템, CFR(Counterfactual Regret Minimization), PSRO(Policy Space Response Oracles)

대상 독자

강화학습 연구자 및 멀티에이전트 시스템 개발자

의미 / 영향

알고리즘 설계의 패러다임이 인간의 수동 설계에서 AI 기반 자동 발견으로 전환되고 있음을 보여준다. 특히 MARL과 같이 탐색 공간이 넓은 분야에서 LLM의 창의적인 코드 생성 능력이 실질적인 성능 돌파구를 마련할 수 있음을 입증했다.

섹션별 상세

AlphaEvolve는 하이퍼파라미터 최적화를 넘어 소스 코드 자체를 게놈으로 취급하는 의미론적 진화(Semantic Evolution)를 수행한다. Gemini 2.5 Pro를 지능형 진화 연산자로 활용하여 코드의 제어 흐름을 재작성하고 새로운 상징적 연산을 주입한다. 부모 알고리즘 선택, LLM 기반 변이, 자동 평가 및 선택으로 이어지는 엄격한 진화 루프를 통해 인간이 설계하기 어려운 비직관적 최적화 논리를 발견한다.

VAD-CFR 알고리즘은 지수 가중 이동 평균(EWMA)을 사용하여 학습 과정의 변동성을 추적하고 이에 따라 할인율을 조절한다. 변동성이 높을 때는 불안정한 과거 이력을 빠르게 잊고, 변동성이 낮아지면 더 많은 이력을 유지하여 정밀한 튜닝을 수행한다. 양수 후회에 1.1배 가중치를 부여하는 비대칭 부스팅과 초기 노이즈 필터링을 위한 500회 반복 하드 웜스타트 기법을 포함한다.

SHOR-PSRO는 인구 기반 학습의 메타 전략 솔버를 혁신한 하이브리드 알고리즘이다. 낙관적 후회 매칭과 소프트맥스 분포를 선형적으로 결합한 하이브리드 블렌딩 메커니즘을 통해 수렴 속도와 안정성을 동시에 개선한다. 학습 초기에는 탐색을 장려하고 후기에는 평형을 찾는 동적 어닐링 스케줄을 적용하며, 학습과 평가 시 서로 다른 전략을 사용하는 비대칭 구조를 채택했다.

실무 Takeaway

LLM을 알고리즘 논리 구조 진화의 핵심 엔진으로 활용하여 연구 생산성을 극대화할 수 있다.
VAD-CFR의 EWMA 기반 변동성 관리 기법을 적용하면 불완전 정보 게임 환경에서 학습의 불안정성을 획기적으로 줄일 수 있다.
SHOR-PSRO와 같이 학습과 평가 단계의 전략을 비대칭적으로 설계하는 것이 복잡한 멀티에이전트 환경에서 성능 향상의 핵심이 된다.