언어 식별
주어진 텍스트가 어떤 언어로 작성되었는지 자동으로 판별하는 기술이다. 대규모 웹 데이터 정제 과정에서 특정 언어의 데이터를 추출하거나 품질을 필터링하는 첫 번째 단계로 매우 중요하다.