역문서 빈도
특정 단어가 문서군 전체에서 얼마나 희귀한지를 나타내는 수치로, TF-IDF의 핵심 요소이다. 값이 높을수록 해당 단어의 정보량이 많다고 판단하지만, 계산을 위해 대규모 말뭉치가 필수적이다.
말뭉치 없이도 정확한 텍스트 유사도? 카오스 이론을 활용한 CHIMERA-Hash Ultra