데이터 정제
대규모의 가공되지 않은 데이터셋에서 노이즈를 제거하고 학습에 가장 효과적인 고품질 샘플만을 선별하는 과정이다. 모델의 용량이 작을수록 불필요한 정보가 성능을 저해할 수 있으므로, 핵심적인 데이터(Core Set)를 추출하는 것이 성능 향상에 결정적인 역할을 한다.