레벤슈타인 거리
두 문자열 사이의 유사도를 측정하기 위해 한 문자열을 다른 문자열로 바꾸는 데 필요한 최소 연산 횟수를 계산하는 알고리즘이다. 삽입, 삭제, 교체 연산을 포함하며 오타가 있거나 유사한 이름을 가진 중복 레코드를 찾는 퍼지 매칭에 활용된다.
"나쁜 데이터가 모델을 망치기 전에" 파이썬으로 자동화하는 데이터 품질 검사 5선