BM25 vs. 벡터 검색: RAG 시스템을 위한 검색 알고리즘 심층 비교 및 구현

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

검색 엔진에서 문서의 관련성을 판단하기 위해 수십 년간 BM25 알고리즘이 표준으로 사용되어 왔다. BM25는 단어 빈도, 역문서 빈도, 문서 길이를 조합하여 점수를 계산하며 단어 빈도 포화 기법을 통해 키워드 조작을 방지한다. 반면 벡터 검색은 텍스트를 고차원 수치 벡터로 변환하여 단어가 일치하지 않아도 의미적 유사성을 기반으로 문서를 찾아낸다. 내부 테스트 결과 BM25는 빠르고 설명 가능성이 높지만 문맥 이해가 부족하며 벡터 검색은 의미 파악에 능하지만 비용이 발생한다. 현대적인 프로덕션 시스템에서는 두 방식의 장점을 결합한 하이브리드 검색이 표준으로 자리 잡고 있다.

배경

기본적인 Python 프로그래밍 지식, OpenAI API 키 사용 권한, TF-IDF 및 벡터 공간 모델에 대한 기초 이해

대상 독자

RAG 시스템 성능 최적화를 고민하는 AI 엔지니어 및 데이터 과학자

의미 / 영향

검색 기술의 양대 산맥인 키워드 기반과 의미 기반 검색의 차이를 명확히 이해함으로써 서비스 특성에 맞는 최적의 검색 엔진 아키텍처를 설계할 수 있는 가이드를 제공한다.

섹션별 상세

BM25는 단어의 출현 빈도와 희소성을 기반으로 문서의 순위를 매기는 확률적 모델이다. k1 파라미터를 사용해 단어 빈도가 일정 수준을 넘으면 점수 상승폭을 제한하는 포화 메커니즘을 적용한다. 이를 통해 특정 단어를 무분별하게 반복하는 키워드 스터핑 시도를 효과적으로 차단한다. 단순한 키워드 매칭을 넘어 문서 길이에 따른 가중치 조절을 수행하여 공정한 순위 산출이 가능하다.

벡터 검색은 텍스트를 고차원 공간의 밀집 벡터로 변환하여 의미적 거리를 계산한다. OpenAI의 text-embedding-3-small과 같은 모델을 사용해 쿼리와 문서 간의 코사인 유사도를 측정한다. 심장 마비와 심부전처럼 단어는 다르지만 의미가 유사한 개념을 연결할 수 있는 능력을 갖추고 있다. 이는 키워드가 정확히 일치해야만 검색이 가능한 BM25의 근본적인 한계를 극복하게 해준다.

두 기술은 성능과 비용 측면에서 뚜렷한 트레이드오프 관계를 형성한다. BM25는 별도의 GPU나 외부 API 없이 CPU 연산만으로 작동하여 매우 빠르고 비용이 거의 들지 않는다. 반면 벡터 검색은 인덱싱과 검색 시점에 임베딩 모델 호출이 필요하여 추가적인 비용과 지연 시간이 발생한다. 또한 벡터 검색 결과는 점수 해석이 어려운 반면 BM25는 어떤 단어 때문에 높은 점수를 받았는지 명확히 설명할 수 있다.

Python의 rank_bm25와 openai 라이브러리를 활용해 두 검색 방식을 직접 구현하고 비교할 수 있다. 12개의 텍스트 청크로 구성된 코퍼스를 대상으로 동일한 쿼리를 수행하여 검색 결과의 차이를 시각적으로 확인한다. 실험 결과 키워드가 명확한 쿼리에서는 BM25가 우수하지만 추상적인 질문이나 유의어 검색에서는 벡터 검색이 더 정확한 문서를 반환한다. 이러한 특성 때문에 실제 서비스에서는 두 결과를 재순위화하여 결합하는 방식이 권장된다.

python

def tokenize(text: str) -> list[str]:
    """Lowercase and split on non-alphanumeric characters."""
    return re.findall(r'\w+', text.lower())

# Build BM25 index over the corpus
tokenized_corpus = [tokenize(chunk) for chunk in CHUNKS]
bm25 = BM25Okapi(tokenized_corpus)

텍스트를 소문자로 변환하고 토큰화하여 BM25 인덱스를 구축하는 과정

python

def embedding_search(query: str, top_k: int = 3) -> list[dict]:
    """Return top-k chunks ranked by cosine similarity to the query embedding."""
    query_emb = get_embedding(query)
    scores = [cosine_similarity(query_emb, emb) for emb in chunk_embeddings]
    ranked = np.argsort(scores)[::-1][:top_k]
    return [
        {"chunk_id": int(i), "score": round(float(scores[i]), 4), "text": CHUNKS[i]}
        for i in ranked
    ]

OpenAI 임베딩을 사용하여 코사인 유사도 기반의 벡터 검색을 수행하는 함수

실무 Takeaway

시스템 프롬프트나 고유 명사가 중요한 검색 환경에서는 BM25를 우선적으로 고려하여 연산 비용을 절감할 수 있다.
사용자의 질문 의도가 다양하고 유의어 사용이 빈번한 경우 벡터 검색을 도입하여 검색 정확도를 높여야 한다.
프로덕션 환경에서는 BM25의 속도와 벡터 검색의 의미 이해력을 결합한 하이브리드 검색 아키텍처를 구축하는 것이 가장 효율적이다.

언급된 리소스

GitHubrank_bm25 GitHub

API DocsOpenAI Embeddings API Docs

def tokenize(text: str) -> list[str]: """Lowercase and split on non-alphanumeric characters.""" return re.findall(r'\w+', text.lower()) # Build BM25 index over the corpus tokenized_corpus = [tokenize(chunk) for chunk in CHUNKS] bm25 = BM25Okapi(tokenized_corpus)

def embedding_search(query: str, top_k: int = 3) -> list[dict]: """Return top-k chunks ranked by cosine similarity to the query embedding.""" query_emb = get_embedding(query) scores = [cosine_similarity(query_emb, emb) for emb in chunk_embeddings] ranked = np.argsort(scores)[::-1][:top_k] return [ {"chunk_id": int(i), "score": round(float(scores[i]), 4), "text": CHUNKS[i]} for i in ranked ]

BM25 vs. 벡터 검색: RAG 시스템을 위한 검색 알고리즘 심층 비교 및 구현

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

BM25 vs. 벡터 검색: RAG 시스템을 위한 검색 알고리즘 심층 비교 및 구현

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드