제로 어드밴티지 문제
강화학습 과정에서 특정 질문에 대해 생성된 모든 응답이 보상을 얻지 못해 상대적 우위를 계산할 수 없게 되는 현상이다. 이로 인해 학습 신호가 소실되어 연산 자원과 데이터가 낭비된다.