행위자-비평가 모델
강화학습에서 행동을 결정하는 '행위자'와 그 행동을 평가하는 '비평가'가 동시에 학습하는 구조이다. 에이전트가 복잡한 환경에서 최적의 전략을 찾는 데 사용되며, 미래 AGI의 핵심 구조로 지목된다.