임베딩 기반 탐지
텍스트 데이터를 고차원 벡터로 변환하여 문장 간의 의미적 유사성을 수치화함으로써 단순한 키워드 매칭을 넘어선 중복 콘텐츠를 식별하는 방식이다. 이를 통해 내용이 유사하지만 표현이 다른 문서들을 효과적으로 정제할 수 있다.