핵심 요약
기존 검색 시스템은 단순히 주제가 비슷한 문서를 찾는 데 집중하여 사용자의 구체적인 제약 조건을 무시하는 경우가 많습니다. 이 논문은 동일한 문서 쌍에 대해 정반대의 지시어를 생성하여 학습시키는 기법을 통해 검색 모델이 지시어의 미세한 차이를 정확히 구분하도록 만듭니다.
왜 중요한가
기존 검색 시스템은 단순히 주제가 비슷한 문서를 찾는 데 집중하여 사용자의 구체적인 제약 조건을 무시하는 경우가 많습니다. 이 논문은 동일한 문서 쌍에 대해 정반대의 지시어를 생성하여 학습시키는 기법을 통해 검색 모델이 지시어의 미세한 차이를 정확히 구분하도록 만듭니다.
핵심 기여
극성 반전 데이터 합성 전략 제안
LLM을 활용하여 기존 지시어와 정반대의 정답 레이블을 가지는 보완적 지시어를 생성하는 데이터 합성 파이프라인을 구축했다. 이를 통해 모델이 단순 주제 매칭이 아닌 지시어의 제약 조건에 집중하도록 강제한다.
FollowIR 벤치마크 성능 45% 향상
305M 파라미터 규모의 인코더 모델에서 FollowIR p-MRR 지표를 기존 대비 45% 개선했으며, 이는 더 큰 규모의 범용 임베딩 모델들을 상회하는 결과다.
데이터 다양성과 지시어 감독의 상호보완성 입증
데이터 예산이 동일한 상황에서 데이터 다양성은 일반적인 검색 품질을 유지하고, 지시어 감독은 지시어 민감도를 높이는 상호보완적 역할을 수행함을 실험으로 증명했다.
핵심 아이디어 이해하기
기존의 Dense Retrieval 모델은 쿼리와 문서 사이의 Embedding 공간상 거리를 좁히는 방향으로 학습된다. 하지만 'A를 제외하고 검색해줘'와 같은 지시어가 포함된 경우, 모델은 'A'라는 키워드의 Embedding에 매몰되어 정작 제외하라는 지시를 무시하고 관련 문서를 노출하는 한계가 있다.
이 논문은 동일한 문서 쌍(D+, D-)에 대해 두 가지 상반된 관점(Dual-View)을 제공하여 이 문제를 해결한다. 원래 지시어에서는 D+가 정답이지만, LLM이 생성한 새로운 지시어 아래에서는 D-가 정답이 되도록 레이블을 반전시킨다.
결과적으로 모델은 동일한 문서들을 보면서도 지시어에 따라 정답이 바뀌는 상황을 학습하게 된다. 이는 모델이 문서의 고정된 주제 정보에 의존하는 대신, 쿼리에 포함된 지시어의 의미론적 맥락을 실시간으로 해석하여 점수를 계산하도록 유도한다.
방법론
Dual-View(DV) 학습은 LLM을 사용하여 기존 데이터셋의 극성을 반전시키는 새로운 지시어를 생성하는 것으로 시작한다. 쿼리 q, 정답 문서 D+, 오답 문서 D-가 주어졌을 때, LLM은 D-가 정답이 되고 D+가 오답이 되도록 만드는 새로운 지시어 Inew를 생성한다. [q, D+, D- 입력] → [LLM의 추론 및 조건부 생성] → [Inew 출력] → [레이블이 반전된 새로운 학습 쌍 생성]
학습 단계에서는 InfoNCE Loss를 사용하여 대조 학습을 수행한다. 모델은 (q ⊕ Iorig, D+) 쌍의 유사도는 높이고 (q ⊕ Iorig, D-)는 낮추는 동시에, (q ⊕ Inew, D-)의 유사도는 높이고 (q ⊕ Inew, D+)는 낮추도록 학습된다. [임베딩 벡터 간 내적 계산] → [Softmax를 통한 확률 분포 변환] → [정답 레이블과의 교차 엔트로피 계산] → [지시어에 민감한 인코더 가중치 업데이트]
관련 Figure

기존 지시어에서 정답이었던 '빙하 아래 화산' 문서가 새로운 지시어 아래에서는 오답이 되고, 반대로 오답이었던 '화산 폭발의 기후 영향' 문서가 정답이 되는 과정을 시각화했다. 이를 통해 모델이 동일한 문서 쌍을 지시어에 따라 다르게 처리해야 함을 명확히 보여준다.
원래 지시어와 LLM에 의해 생성된 새로운 지시어 사이에서 문서의 정답 여부가 반전되는 과정을 보여주는 다이어그램
주요 결과
FollowIR 벤치마크에서 Ins-DV 모델은 p-MRR 7.57을 기록하여 기존 Ins-orig(5.21) 대비 45% 성능 향상을 보였다. 이는 300M 규모의 모델임에도 불구하고 EmbeddingGemma-300M(5.61)이나 Qwen3-Embedding-0.6B(5.09)와 같은 더 큰 모델들보다 지시어 준수 능력이 뛰어남을 의미한다.
InfoSearch 데이터셋의 Keyword 서브셋에서는 p-MRR이 2.06에서 5.61로 172% 상승했다. 또한 데이터 다양성을 유지하기 위해 비지시어 데이터를 혼합한 All-DV 설정에서는 FollowIR p-MRR 8.30을 달성하며 실험군 중 가장 높은 성능을 기록했다.
기술 상세
본 연구는 gte-multilingual-mlm-base(305M)와 bge-m3-retromae를 백본으로 사용했다. 데이터 합성에는 Qwen3-Next-80B-A3B-Instruct 모델을 활용하여 고품질의 반전 지시어를 생성했다. 학습 시에는 Arctic-Embed 프레임워크를 기반으로 쿼리당 30개의 Hard Negative를 사용했으며, 이 중 1~3개는 지시어 기반 오답(Instruction Negatives)으로 구성했다. 특히 데이터 믹싱 과정에서 비지시어 데이터가 지시어 신호를 희석시키는 '데이터 믹싱 카타스트로피' 현상을 분석하고, DV 데이터가 이를 어떻게 완화하는지 그래디언트 관점에서 설명했다.
한계점
모든 데이터 포인트에 대해 의미 있는 보완적 지시어가 존재한다고 가정하지만, 실제로는 매우 좁은 범위의 검색 기준을 가진 쿼리의 경우 자연스러운 반전 지시어를 생성하기 어려울 수 있다. 또한 현재 실험은 영어 벤치마크에 집중되어 있어 다국어 환경으로의 확장이 과제로 남아있다.
실무 활용
사용자의 복잡한 제약 조건이 포함된 검색 시스템이나 RAG 파이프라인의 성능을 개선하는 데 즉시 활용 가능하다.
- 특정 기간, 특정 형식을 지정하는 기업 내 문서 검색 시스템 최적화
- 부정적 제약 조건(예: '특정 성분 제외')이 중요한 커머스 검색 엔진
- 지시어에 따라 검색 결과의 스타일이나 관점을 바꿔야 하는 AI 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.