DOM 증류
웹 페이지의 복잡한 HTML 구조(DOM)에서 불필요한 요소를 제거하고 핵심적인 구조와 의미적 관계만을 추출하는 기술이다. LLM의 입력 토큰을 절약하고 데이터의 품질을 높이기 위해 사용자가 실제로 주목하는 콘텐츠와 메타데이터 간의 관계를 분석하여 정제된 데이터를 생성한다.