Wikimedia Deutschland의 Wikidata 임베딩 프로젝트: 3,000만 개의 지식 그래프 항목을 벡터화하다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

무분별한 스크래핑으로 인한 인프라 부하 문제를 해결하고 AI 모델이 위키데이터에 더 쉽게 접근할 수 있는 방법이 필요했다. Wikimedia Deutschland는 Jina AI의 임베딩 모델을 사용하여 3,000만 개의 위키데이터 항목을 텍스트로 변환 후 벡터화했으며, 이를 위해 Hugging Face와 Parquet 형식을 활용해 데이터 처리 효율을 높였다. 또한 MCP(Model Context Protocol)를 도입하여 LLM이 복잡한 SPARQL 쿼리를 더 정확하게 생성할 수 있도록 돕는다. 이 프로젝트는 지식 그래프의 정밀함과 벡터 검색의 유연성을 결합하여 AI 생태계에 고품질의 구조화된 데이터를 제공하는 것을 목표로 한다.

배경

벡터 데이터베이스 및 임베딩의 기본 개념, 지식 그래프 및 SPARQL 쿼리 언어에 대한 이해, RAG(검색 증강 생성) 아키텍처 지식

대상 독자

LLM 및 RAG 시스템 개발자, 지식 그래프 연구자, 오픈 소스 AI 프로젝트 기여자

의미 / 영향

이 프로젝트는 거대 언어 모델이 위키데이터와 같은 방대한 구조화 지식에 접근하는 방식을 근본적으로 바꾼다. 단순 검색을 넘어 MCP를 통한 도구 사용(Tool Use) 능력을 결합함으로써, AI가 더 정확하고 검증 가능한 정보를 바탕으로 답변을 생성할 수 있는 기반을 마련했다.

섹션별 상세

Wikidata의 1억 1,900만 개 항목 중 Wikipedia 페이지와 연결된 핵심 항목 3,000만 개를 우선적으로 벡터화했다. 이는 일반적인 지식 정보를 중심으로 데이터 규모를 관리 가능한 수준으로 유지하기 위함이며, 향후 과학 논문 등 특정 도메인으로의 확장 가능성도 열어두었다.

지식 그래프의 구조적 데이터를 임베딩 가능한 텍스트로 변환하기 위해 데이터 덤프를 활용한 다중 패스 프로세스를 구축했다. 각 항목의 레이블, 설명, 별칭뿐만 아니라 그래프의 엣지(Edge) 정보를 문장 형태로 재구성하여 포함했으며, 의미가 없는 외부 ID 등은 제외하여 임베딩의 품질을 최적화했다.

Jina Embedding V3 모델과 Matryoshka Embedding 기법을 적용하여 벡터 크기를 512차원으로 설정했다. 이는 1024차원의 최대 성능과 비교했을 때 충분한 정확도를 유지하면서도 저장 공간과 계산 리소스를 획기적으로 절감할 수 있는 최적의 지점임을 테스트를 통해 확인했다.

데이터 배포 및 처리 효율을 위해 Hugging Face에 Parquet 형식으로 데이터를 업로드했다. Parquet의 열 기반 구조 덕분에 전체 테라바이트급 데이터를 다운로드하지 않고도 행 단위로 필요한 정보를 읽어와 벡터 데이터베이스에 푸시할 수 있었으며, 이는 외부 스크래퍼들의 API 부하를 줄이는 대안이 된다.

MCP(Model Context Protocol) 서버를 구축하여 LLM이 Wikidata의 구조를 직접 탐색할 수 있는 환경을 제공한다. LLM은 벡터 검색으로 관련 항목을 먼저 찾고, MCP를 통해 그래프의 연결 관계를 파악한 뒤, 최종적으로 정확한 SPARQL 쿼리를 작성하여 정밀한 데이터를 추출할 수 있다.

실무 Takeaway

RAG 시스템 구축 시 단순 텍스트 검색보다 지식 그래프 기반의 벡터 검색을 결합하면 정보의 정확도와 엔티티 간의 연결성을 획기적으로 개선할 수 있다.
대규모 데이터셋을 벡터화할 때 Matryoshka Embedding을 활용하면 성능 손실을 최소화하면서도 인프라 비용과 검색 속도를 최적화할 수 있다.
Hugging Face와 Parquet 형식을 활용한 데이터 배포 전략은 API 호출 부하를 줄이고 외부 개발자의 데이터 접근성을 높이는 효과적인 오픈 소스 협업 모델이다.

언급된 리소스

GitHubWikidata Embedding Project with MCP support

문서Wikidata on Hugging Face