행위자-비평가 모델
강화학습에서 행동을 결정하는 '행위자'와 그 행동을 평가하는 '비평가'가 동시에 학습하는 구조이다. 에이전트가 복잡한 환경에서 최적의 전략을 찾는 데 사용되며, 미래 AGI의 핵심 구조로 지목된다.
SB3와 트랜스포머로 만든 포트폴리오 AI, 왜 학습이 안 될까?
DQN부터 PPO까지, 강화학습 알고리즘을 바닥부터 직접 구현해보세요
강화학습 알고리즘, 밑바닥부터 직접 구현하며 마스터하기
모델이 모델을 가르친다? 4개 LLM이 협업해 만든 메타 에이전트 SOPHIA
LLM은 안전하지만 AGI는 다르다? AI 안전 전문가의 경고