확산 기반 사전 학습
데이터에 노이즈를 추가했다가 이를 제거하며 원래 데이터를 복원하는 과정을 학습하는 기법이다. 텍스트 임베딩에 적용하면 지저분한 웹 데이터에서도 핵심 의미를 잘 추출하게 돕는다.
RAG 성능 극대화, 퍼플렉시티의 새로운 임베딩 모델 pplx-embed 출시