핵심 요약
멀티턴 대화 환경에서의 RAG는 이전 대화 맥락과 검색된 정보를 동시에 고려해야 하므로 단일 턴보다 훨씬 복잡하다. 이 논문은 서로 다른 특성을 가진 여러 모델을 결합하고 경량 모델을 판사로 활용하여 정답이 없는 질문에 대한 거절 능력과 답변의 충실도를 획기적으로 높이는 실전적인 방법론을 제시한다.
왜 중요한가
멀티턴 대화 환경에서의 RAG는 이전 대화 맥락과 검색된 정보를 동시에 고려해야 하므로 단일 턴보다 훨씬 복잡하다. 이 논문은 서로 다른 특성을 가진 여러 모델을 결합하고 경량 모델을 판사로 활용하여 정답이 없는 질문에 대한 거절 능력과 답변의 충실도를 획기적으로 높이는 실전적인 방법론을 제시한다.
핵심 기여
판사 기반 이종 LLM 앙상블 시스템
7개의 서로 다른 LLM과 2가지 프롬프트 전략을 결합하고, GPT-4o-mini를 판사로 사용하여 각 인스턴스에 가장 적합하고 충실한 답변을 선택하는 시스템을 구축하여 SemEval-2026 Task 8에서 1위를 차지했다.
도메인 특화 경량 모델 Meno-Lite-0.1 개발
Qwen2.5-7B를 기반으로 러시아어-영어 교육 데이터 및 RAG 지향 지시어 튜닝을 거친 7B 규모의 모델을 공개했다. 이 모델은 훨씬 큰 규모의 모델과 대등한 RAG 성능을 보여주며 비용 효율적인 대안을 제시한다.
카테고리별 Few-shot 프롬프트 전략
질문의 답변 가능 여부와 대화 이력 유무에 따라 데이터를 3가지 카테고리로 분류하고, 각 카테고리의 대표 예시(Medoid)를 활용한 Few-shot 전략이 추상적인 지시어보다 효과적임을 입증했다.
핵심 아이디어 이해하기
기존의 RAG 시스템은 주로 단일 질문에 답하는 방식에 치중되어 있어, 대화가 길어질수록 이전 맥락을 놓치거나 검색된 문서에 없는 내용을 지어내는 Hallucination 문제가 심화된다. 특히 답변할 수 없는 질문에 대해 '모른다'고 답해야 하는 상황에서 모델의 판단력이 흐려지는 한계가 있다.
이 논문은 모델마다 잘하는 영역이 다르다는 점에 착안하여, 다양한 크기와 가문의 모델들을 병렬로 실행한다. 이는 앙상블 학습의 기본 원리인 '오류의 다양성'을 활용하는 것으로, 특정 모델이 놓친 맥락을 다른 모델이 잡아낼 확률을 높인다. 여기에 GPT-4o-mini라는 가벼운 판사 모델을 배치하여 각 모델의 출력물이 제공된 문서에 얼마나 충실한지(Faithfulness)를 점수화한다.
결과적으로 시스템은 단순히 확률적으로 가장 높은 답변을 내놓는 것이 아니라, 여러 후보 중 외부 지식에 가장 잘 근거한 답변을 골라내게 된다. 이는 모델의 파라미터 수를 무작정 늘리는 것보다 다양한 모델의 조합과 정교한 선택 메커니즘이 실제 서비스 환경에서 더 강력한 성능을 낼 수 있음을 의미한다.
방법론
시스템은 프롬프트 구축, 후보 생성, 판사 기반 선택의 3단계 파이프라인으로 구성된다. 첫 단계에서는 Gemini를 활용해 최적의 시스템 프롬프트를 반복적으로 정제하고, 데이터의 특성에 따라 3개 그룹(전체 맥락 존재, 빈 맥락, 빈 대화 이력)으로 나누어 각 그룹의 중심점(Medoid)에 해당하는 예시를 Few-shot으로 제공한다.
후보 생성 단계에서는 Gemini-3-Pro, GLM-4.6, Llama-3.3-70B 등 7개의 이종 모델을 사용한다. 이들은 시스템 프롬프트만 사용하는 그룹과 Few-shot을 사용하는 그룹으로 나뉘어 독립적으로 답변을 생성한다. 다양한 모델 가문과 크기를 섞어 실패 모드의 다양성을 확보한다.
마지막으로 GPT-4o-mini 판사가 각 후보 답변의 Faithfulness를 0에서 1 사이의 점수로 평가한다. [각 후보 답변과 제공된 문서를 입력으로] -> [답변 내의 모든 주장이 문서에 의해 지지되는지 검사하여] -> [최종 충실도 점수를 출력하고] -> [가장 높은 점수를 받은 답변을 최종 선택한다]. 만약 문서가 비어있는 경우 '모른다'는 고정 응답을 출력하는 사후 처리를 거친다.
주요 결과
MTRAGEval Task B 벤치마크에서 0.7827의 조화 평균(HM3)을 기록하며 26개 팀 중 1위를 달성했다. 이는 가장 강력한 베이스라인이었던 gpt-oss-120b의 0.6390보다 약 22.5% 향상된 수치이다.
Ablation Study 결과, 판사에 의한 선택이 무작위 선택보다 Answerable 인스턴스에서 2.5p.p., Underspecified 인스턴스에서 1.9p.p. 높은 성능을 보였다. 특히 Faithfulness 지표(RL_F)에서 0.998 대 0.922로 큰 차이를 보여 판사가 근거 기반 답변을 정확히 식별함을 확인했다.
자체 개발한 Meno-Lite-0.1(7B) 모델은 답변 가능한 사례에서 0.681 HM3를 기록했다. 이는 파라미터 수가 10배 이상 큰 Llama-3.3-70B와 유사한 수준의 러시아어 벤치마크 성능을 보여주며, 특정 도메인에 특화된 미세 조정의 효율성을 입증했다.
기술 상세
앙상블은 Group 1(시스템 프롬프트 전용: Gemini-3-Pro, GLM-4.6, Llama-3.3-70B, Qwen3-235B)과 Group 2(Few-shot 포함: Claude 4.5 Haiku, Qwen2.5-32B, Meno-Lite-0.1)로 나뉜다. 이러한 이질적 구성은 모델 간의 상호 보완적인 실패 모드를 유도한다.
Meno-Lite-0.1은 Qwen2.5-7B-Instruct에서 시작하여 T-lite-it-1.0과 RuadaptQwen2.5-7B-Lite-Beta를 거쳐 최종 튜닝되었다. 1.3B 토큰의 지속적 사전 학습(CPT)과 50M 토큰의 지도 미세 조정(SFT)을 수행했으며, 특히 정보 추출, 엔티티 정규화, 멀티홉 추론에 집중했다.
판사 모델인 GPT-4o-mini는 RAD-Bench를 변형한 프롬프트를 사용하여 답변의 각 클레임이 제공된 구절에 의해 지지되는지 평가한다. 실험 결과 판사의 점수는 대회 주최측의 다중 판사 점수와 높은 상관관계(Spearman ρ=0.95)를 보였다.
벤치마크 분석을 통해 '빈 컨텍스트'가 정답 거절의 강력한 힌트가 되는 타겟 누출(Target Leakage) 문제를 지적하며, 향후 평가에는 관련 없는 방해 문서(Distractor)를 포함해야 함을 제안했다.
한계점
7개의 생성 모델과 1개의 판사 모델을 동시에 실행해야 하므로 계산 비용이 높고 실시간 서비스에 적용하기에는 지연 시간(Latency) 문제가 발생할 수 있다. 또한 GPT-4o-mini 판사가 가끔 더 긴 답변을 선호하는 경향이 있으며, 판사 모델 자체에 대한 의존도가 높다는 한계가 있다.
실무 활용
다양한 API와 오픈 소스 모델을 결합하여 높은 신뢰도가 필요한 고객 지원 챗봇이나 전문 지식 검색 시스템에 즉시 적용 가능한 구조이다.
- 금융/의료 등 오답의 위험이 큰 도메인에서의 멀티턴 상담 에이전트
- 복잡한 기술 문서 기반의 사내 지식 관리 시스템(KMS)
- 다양한 언어가 혼재된 환경에서의 다국어 RAG 서비스
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.