심해시
심해시. 데이터의 유사도를 빠르게 계산하기 위한 해싱 기법으로, SemanticDedup 스테이지에서 중복된 콘텐츠 블록을 찾아내는 데 사용된다. 대규모 텍스트 뭉치에서 내용이 거의 유사한 부분을 식별하여 중복 토큰 소모를 방지하는 데 매우 효율적이다.