LLM2VEC-GEN: 대형 언어 모델을 활용한 생성형 임베딩

왜 중요한가

기존 임베딩은 문장의 겉모양만 비교하지만, 이 기술은 질문에 대한 AI의 답변을 미리 예측해 벡터로 만듭니다. 덕분에 AI가 가진 똑똑한 추론 능력과 위험한 질문을 걸러내는 안전 장치를 검색 시스템에서도 그대로 쓸 수 있게 됩니다.

핵심 기여

생성형 응답 기반 임베딩 패러다임 제시

입력 텍스트 자체를 인코딩하는 대신, 해당 입력에 대한 LLM의 잠재적 응답을 표현하도록 학습하는 새로운 자가 지도 학습 프레임워크를 제안함.

특수 토큰을 활용한 효율적인 학습 구조

LLM 백본을 동결한 채 '사고(thought)' 및 '압축(compression)' 토큰과 경량 프로젝션 레이어만 학습시켜 연산 효율성을 극대화함.

LLM의 안전성 및 추론 능력 전이

LLM의 거부 응답이나 논리적 추론 과정을 임베딩 공간에 투영함으로써 유해 콘텐츠 검색을 43.2% 줄이고 추론 성능을 29.3% 개선함.

핵심 아이디어 이해하기

기존의 텍스트 임베딩은 문장 내 단어들의 관계를 파악하는 Attention Mechanism을 통해 입력값 자체의 의미를 벡터화한다. 하지만 '질문'과 '답변'은 형태가 다르기 때문에, 단순히 질문의 겉모양만 인코딩해서는 실제 정답 문서와 연결하기 위해 방대한 양의 정답 쌍 데이터로 대조 학습을 수행해야 하는 한계가 있다. LLM2VEC-GEN은 질문을 인코딩하는 대신 '이 질문에 대해 똑똑한 AI가 어떻게 대답할지' 그 미래의 응답을 미리 계산하여 벡터에 담는다. 질문 뒤에 특수 토큰을 붙여 LLM이 답변을 생성하는 과정을 흉내 내게 하고, 그 결과물을 고정된 길이의 벡터로 압축한다. 즉, 질문의 표현이 달라도 AI의 답변이 같다면 두 질문은 임베딩 공간에서 매우 가까운 위치에 놓이게 된다. 이 방식의 핵심은 LLM이 이미 배운 안전 가이드라인과 논리적 추론 능력을 임베딩에 그대로 옮겨온다는 점이다. 유해한 질문을 받으면 LLM은 거절하는 답변을 내놓으려 하므로, 임베딩 벡터 역시 유해한 내용이 아닌 '거절'의 의미를 갖게 되어 나쁜 정보를 검색하지 않게 된다. 결과적으로 별도의 정답 데이터 없이도 LLM의 지능을 검색 엔진에 이식하는 효과를 거둔다.

방법론

자가 지도 학습 기반의 응답 증류 프레임워크를 사용한다. 레이블이 없는 쿼리에 대해 LLM이 생성한 응답을 타겟으로 설정하고, 이를 임베딩 공간에 압축하여 저장하는 방식을 취한다. LLM 백본은 동결하며 어휘 사전에 추가된 특수 토큰들만 업데이트한다. 쿼리 뒤에 10개의 사고 토큰과 10개의 압축 토큰을 추가한다. 사고 토큰은 LLM이 응답을 생성하기 전의 중간 연산 공간을 제공하며, 압축 토큰의 마지막 레이어 은닉 상태 $h_i$ 를 최종 임베딩의 기초로 활용한다. 재구성 손실( $L_{recon}$ )과 정렬 손실( $L_{align}$ )을 동시에 최적화한다. 압축 토큰의 은닉 상태 $h_i$ 를 입력으로 하여 $MLP_{recon}$ 레이어를 통과시켜 소프트 프롬프트 $p_i$ 를 얻는다. 이 $p_i$ 를 LLM의 입력으로 주어 다음 토큰의 확률 분포를 계산하고, 실제 응답 토큰 $r_{i,j}$ 에 대한 음의 로그 가능도(Negative Log-Likelihood)를 산출한다. 이 값이 작을수록 압축된 벡터가 응답의 정보를 더 많이 보존하고 있음을 의미한다. 또한 교사 모델이 생성한 응답 임베딩 $e_i$ 와 모델이 예측한 임베딩 $\hat{e}_i$ 두 벡터가 주어질 때 그 차이의 제곱을 계산하는 $L_{align}$ 을 통해 의미론적 구조를 형성한다.

주요 결과

MTEB 벤치마크에서 기존 최상위 자가 지도 학습 모델 대비 평균 9.3%의 성능 향상을 달성했다. 특히 Qwen-3-8B 모델을 활용했을 때 62.1점을 기록하며 자가 지도 학습 분야의 새로운 SOTA를 경신했다. 클러스터링(+23.9%)과 분류(+9.2%) 등 입력-출력 간극이 큰 작업에서 개선이 뚜렷했다. 안전성 평가인 AdvBench-IR에서 유해 콘텐츠 검색 정확도를 최대 43.2% 감소시켰다. 이는 임베딩 모델이 LLM의 거부 응답 패턴을 학습하여 유해한 의도를 가진 쿼리를 안전한 영역으로 배치했기 때문임이 확인됐다. 추론 능력을 측정하는 BRIGHT 벤치마크에서 기존 방식 대비 29.3%의 성능 개선을 보였다. 모델의 크기가 커질수록 LLM 내부의 추론 메커니즘이 임베딩 공간으로 더 잘 전이되는 경향이 확인됐으며, 이는 8B 모델에서 가장 높은 성능 향상으로 나타났다.

실무 활용

레이블이 없는 데이터만으로도 LLM의 지능을 임베딩에 이식할 수 있어, 고성능 검색 시스템 구축 비용을 획기적으로 낮춘다.

유해 콘텐츠 검색을 차단해야 하는 안전한 기업용 검색 엔진
복잡한 논리적 추론이 필요한 법률 및 의료 문서 검색 시스템
데이터 레이블링 비용이 부담스러운 스타트업의 자가 학습형 추천 시스템
검색 의도를 텍스트로 복원하여 분석하는 마케팅 인사이트 도구

기술 상세

LLM2VEC-GEN은 Decoder-only 아키텍처를 활용하여 입력 쿼리 뒤에 사고 토큰과 압축 토큰을 배치하는 Suffix Embedding 방식을 채택한다. 이는 인과적 어텐션(Causal Attention) 구조에서 질문의 모든 정보를 참조한 뒤 응답의 정수를 추출하기에 유리한 구조이다. 학습 시에는 LLM 백본의 모든 파라미터를 Frozen 상태로 유지하고, 추가된 특수 토큰의 Embedding 레이어와 두 개의 단층 MLP 프로젝션 레이어만 업데이트하여 파라미터 효율성을 확보한다. 수학적으로는 압축 토큰의 은닉 상태 $h_i$ 를 소프트 프롬프트 $p_i$ 로 변환하여 응답 $r_i$ 를 재구성하도록 강제함으로써 정보 병목(Information Bottleneck)을 형성한다. 구현 측면에서 Qwen-3-8B 모델 기준 2개의 H100 GPU로 약 3.5시간 만에 학습이 완료될 정도로 효율적이며, 학습 파라미터는 약 1,300만 개 수준으로 전체 모델 크기에 비해 매우 작다.

한계점

검색(Retrieval) 성능에서 일부 대형 모델이 교사 모델보다 낮은 수치를 보였으며, 이는 압축 토큰이 모델 생성물의 모든 세부 뉘앙스를 완벽하게 담아내지 못하는 한계에서 기인함.

키워드

LLM(대형 언어 모델)Text Embedding(텍스트 임베딩)Self-Supervised Learning(자가 지도 학습)Safety Alignment(안전 정렬)MTEB(대규모 텍스트 임베딩 벤치마크)