Advantage Actor-Critic (a2c) | AI Trends 용어 사전 | AI Trends
a2c
Advantage Actor-Critic
고급
정책을 직접 학습하는 Actor와 그 정책의 가치를 평가하는 Critic을 동시에 사용하는 강화학습 구조이다. Advantage 함수를 사용하여 보상의 변동성을 줄이고 학습 속도를 높이는 메커니즘을 가진다. 동기식 업데이트 방식을 통해 여러 에이전트의 경험을 효율적으로 통합하며 안정적인 성능 향상을 도모한다.