oversampling
데이터 불균형을 해결하기 위해 소수 클래스의 샘플을 인위적으로 늘리는 기법이다. 단순 복제나 합성 데이터 생성을 통해 클래스 간 비율을 맞춘다.
힌글리시 데이터의 늪, 통계적 합성 방식은 LLM 학습에 유효할까?
데이터 불균형 해결의 열쇠: 마르코프 체인 기반의 새로운 텍스트 증강 기법