본문으로 건너뛰기

alphazero

알파제로

중급

인간의 기보 데이터 없이 자기 복제 학습(Self-play)만으로 바둑, 체스 등을 정복한 강화학습 모델이다. 본 프로젝트는 이 철학을 언어 모델에 적용하여 인간 데이터 없는 학습을 지향한다.