데이터 오염 제거
학습 데이터에 평가용 벤치마크 데이터가 포함되어 모델 성능이 왜곡되는 것을 방지하는 과정이다. 합성 데이터 생성 시 기존 벤치마크 패턴을 단순 반복하지 않도록 필터링하여 모델의 실제 일반화 능력을 보장한다.