민해시
대규모 데이터셋에서 두 집합 간의 유사도를 빠르게 추정하기 위해 사용하는 확률적 알고리즘이다. 모든 데이터를 전수 비교하는 대신 해시 값을 비교하여 유사한 문서를 찾아내므로 중복 데이터 제거 작업의 효율성을 극대화한다.