퍼플렉시티, 대규모 검색 및 RAG 최적화 다국어 임베딩 모델 'pplx-embed' 공개

핵심 요약

퍼플렉시티(Perplexity)가 대규모 검색 작업과 RAG(검색 증강 생성) 시스템에 최적화된 다국어 임베딩 모델 시리즈인 'pplx-embed'를 공개했다. 기존의 인과적 디코더 아키텍처와 달리 양방향 어텐션을 도입하여 문맥 이해도를 높였으며, 확산 기반 사전 학습을 통해 웹 데이터의 노이즈에 강한 성능을 갖췄다. 특히 쿼리용과 컨텍스트용 모델을 분리하여 검색 정확도를 높였고, INT8 양자화 및 마트료시카 표현 학습(MRL)을 지원해 운영 효율성을 극대화했다. 이 모델들은 0.6B와 4B 두 가지 규모로 제공되어 다양한 성능 및 비용 요구사항을 충족한다.

배경

임베딩(Embedding)의 개념, RAG(검색 증강 생성) 아키텍처, 벡터 데이터베이스 기초

대상 독자

RAG 시스템을 구축하는 엔지니어 및 대규모 검색 서비스를 운영하는 개발자

의미 / 영향

퍼플렉시티의 이번 모델 공개는 폐쇄형 API에 의존하던 임베딩 시장에 강력한 오픈소스 대안을 제시한다. 특히 웹 데이터 처리에 특화된 설계는 실시간 정보 검색이 중요한 AI 서비스들의 성능을 한 단계 끌어올릴 것으로 예상된다.

섹션별 상세

양방향 어텐션과 확산 기반 사전 학습을 통해 문맥 표현력을 강화했다. 대부분의 LLM이 사용하는 인과적(Causal) 구조 대신 양방향 어텐션을 구현하여 문장 전체의 맥락을 동시에 처리한다. 확산(Diffusion) 기반 사전 학습 기법을 텍스트 임베딩에 적용하여 노이즈가 많거나 파편화된 웹 데이터로부터 깨끗한 의미 신호를 재구성하는 능력을 확보했다. 이를 통해 정형화되지 않은 오픈 웹 텍스트 처리 시에도 높은 복원력과 정확한 의미 표현이 가능하다.

RAG 시스템의 비대칭성 해결을 위한 전용 모델을 분리하여 제공한다. 짧은 검색 쿼리와 긴 문서 청크 사이의 의미적 차이인 '비대칭성' 문제를 해결하기 위해 두 가지 버전을 출시했다. pplx-embed-v1은 독립적인 텍스트 임베딩과 검색 쿼리에 최적화되어 있으며, pplx-embed-context-v1은 RAG 파이프라인의 지식 베이스로 사용되는 문서 청크에 튜닝되었다. 이러한 역할 분리를 통해 사용자의 질문과 데이터베이스에 저장된 정보 간의 벡터 공간 정렬을 개선하고 검색 품질을 높였다.

운영 효율성을 위해 양자화 및 마트료시카 표현 학습을 지원한다. 0.6B와 4B 두 가지 파라미터 규모로 제공되며, 두 모델 모두 네이티브 INT8 양자화를 지원하여 메모리 사용량을 줄이고 추론 속도를 높였다. 특히 마트료시카 표현 학습(MRL) 기술을 적용하여 개발자가 성능 손실을 최소화하면서 벡터 차원을 절단해 저장 비용을 절감할 수 있도록 설계했다. 이진 양자화(Binary Quantization) 사용 시 정확도 저하 없이 저장 공간을 최대 32배까지 절약할 수 있어 대규모 프로덕션 환경에 적합하다.

실무 Takeaway

RAG 시스템 구축 시 쿼리와 컨텍스트 전용 모델을 구분하여 사용함으로써 검색 정확도를 향상시킬 수 있다.
웹 스크래핑 데이터와 같이 노이즈가 많은 텍스트를 처리할 때 확산 기반 사전 학습 모델이 더 높은 안정성을 제공한다.
마트료시카 표현 학습(MRL)을 활용해 벡터 차원을 유연하게 조정함으로써 인프라 비용과 검색 성능 사이의 균형을 맞출 수 있다.

언급된 리소스

논문pplx-embed Technical Paper