제너레이티브 플로우 네트워크
다양한 고품질 샘플을 보상에 비례하는 확률로 생성하도록 학습되는 확률적 모델. 기존 강화학습이 단일 최적해를 찾는 것과 달리, 보상이 높은 여러 경로를 골고루 탐색하여 데이터 생성의 다양성을 확보하는 데 중요함.