생성 흐름 네트워크
보상에 비례하는 확률로 이산적인 객체를 샘플링하도록 설계된 확률적 프레임워크이다. 강화학습과 달리 다양한 고보상 샘플을 동시에 탐색할 수 있어 LLM 레드티밍에서 취약점의 다양성을 확보하는 데 핵심적인 역할을 한다.