모지바케
텍스트 인코딩 오류로 인해 문자가 깨져서 읽을 수 없는 상태로 표시되는 현상이다. 데이터셋에 포함될 경우 모델이 잘못된 토큰을 학습하게 되어 성능 저하의 원인이 된다. 데이터 전처리 과정에서 반드시 검출하고 수정해야 하는 데이터 품질 문제 중 하나이다.