OCR 필터링
광학 문자 인식 과정에서 발생하는 오타나 깨진 텍스트를 걸러내는 전처리 과정이다. 사전 검증이나 언어 식별 기술을 활용해 벡터 DB에 저질 데이터가 유입되는 것을 차단한다.