DeepRefine: 강화학습 기반의 에이전트-컴파일 지식 정제

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

에이전트-컴파일 지식 베이스는 지식의 불완전성, 부정확성, 중복 등의 문제로 인한 검색 정확도 저하를 겪는다. DeepRefine은 다중 턴 상호작용과 abductive 진단을 통해 문제 영역을 국소화하고, 지식 베이스를 점진적으로 업데이트하는 정제 정책을 강화학습으로 최적화한다. 이를 통해 다양한 벤치마크에서 다운스트림 RAG 성능이 일관되게 향상된다.

왜 중요한가

핵심 기여

일반화 가능한 지식 정제 프레임워크

사전 구성된 지식 베이스를 사용자가 제시하는 쿼리로 개선하는 일반적 학습 기반 강화학습 프레임워크를 제시한다. 이 프레임워크는 특정 데이터세트나 도메인에 국한되지 않고 다양한 지식 베이스 및 검색 방법과 호환된다.

3단계 추론 프로세스

Answerable Judgement Loop, Error Abduction, Refinement Actions Generation의 세 가지 단계로 구성된 추론 파이프라인을 도입한다. 0-hop 조회에서 시작해 필요 시 인접 아이템을 확장하면서 문제 영역을 국소화하고, 정보의 부재나 오류를 추론한 뒤 지식 베이스 수정 액션을 생성한다.

GBD 보상 기반 RL 정책 최적화

GBD(Gain-Beyond-Draft) 보상을 사용해 지식 정제 정책을 엔드-투-엔드로 학습한다. GenAcc 기반의 평가를 통해 드래프트 대비 정제된 정답의 개선을 보상으로 측정하고 GRPO 알고리즘으로 정책을 업데이트한다.

효율적 정제 및 추론 인퍼런스

정제 정책은 지식 베이스의 전체 재구축 없이 필요한 영역만 선택적으로 수정하도록 설계되어 추론 지연을 최소화한다. 또한 학습 중에는 토큰 비용 절감을 위해 액션 형식의 코드 표기로 변환하여 디코딩 시간을 단축한다.

핵심 아이디어 이해하기

출발점과 한계: 지식 베이스는 다수의 엔티티-관계 트리플로 구성되며 다단계 추론에서 필요한 근거를 제공한다. 그러나 정합성 없이 구성된 베이스는 다-hop 추론의 중간 노드 누락, 모호한 엔티티로 인해 정답 도출이 어려워진다. 이 문제를 해결하려면 전체 KG를 순차적으로 탐색하기보단 쿼리-연관 서브그래프를 다중 턴으로 확장하며 진단하는 방식이 필요하다. 해결 원리: DeepRefine은 Answerable Judgement Loop으로 질의의 답변 가능성을 먼저 판단하고, 필요 시 Gf의 서브그래프를 확장한다. Error Abduction은 상호작용 히스토리를 바탕으로 인컴플리트, 오류, 중복의 원인을 추론하고 Refinement Actions Generation은 insert_edge, delete_edge, replace_node의 세 가지 액션으로 Gf를 직접 수정한다. 달라지는 점: 이 접근은 골든 레퍼런스 없이도 정책을 훈련할 수 있게 하며, GBD 보상으로 다운스트림 성능 증대를 직접 최적화한다. 실험적으로 5개 데이터세트에서 엔진별로 안정적으로 성능이 향상되었고, RL 학습으로 정제 정책의 일반화와 재현성이 향상된다.

방법론

단락 1: 전체 접근 방식과 핵심 아이디어 3단계 추론 프로세스(Answerable Judgement Loop, Error Abduction, Refinement Actions Generation)로 구성된 DeepRefine의 목표는 쿼리 Q에 대해 Gf를 업데이트하는 A 시퀀스 Aq를 생성하는 것이다. 단락 2: Answerable Judgement Loop에서 0-hop의 Top-k 조회(G(0)q)로 시작하고(i) 추가적으로 G(i)q를 확장하며, 최대 확장 홉 수 Lh까지 반복한다. 입력은 쿼리 q와 Gf의 지식 아이템/트리플이다. 단락 3: Error Abduction에서 Iq로 불완전성, 오류, 중복의 원인을 도출하고, 이들을 태그로 표현한다. 단락 4: Refinement Actions Generation에서 Aq를 생성하고, insert_edge(), delete_edge(), replace_node()의 세 액션으로 전체 KG Gf를 직접 수정한다. 단락 5: 보상 설계와 학습: 강화학습 프레임워크 GRPO를 사용하고, 보상은 GBD(q) = ACC(Arefined, A) − ACC(Adraft, A)로 정의되며 GenAcc 기반으로 계산한다. 단락 6: 추론(Inference) 단계: 온라인 질의 스트림과 지식 베이스 evolve 스트림의 두 흐름이 존재하고, 정제는 비동기적으로 수행되어 시스템 응답 지연을 최소화한다.

주요 결과

주요 벤치마크 성과: Table 1의 Five QA 벤치마크에서 DeepRefine-8B의 효과가 대부분의 조합에서 양의 향상을 보였다. 예를 들어 Naive: Avg 31.72, ToG: Avg 33.75, HippoRAG2: Avg 42.24, AR1: HippoRAG2 + DeepRefine-8B Avg 45.27, Graphify(LLM-Wiki) + DeepRefine-8B Avg 16.35에 달했다. Table 2에 따르면 지식 정제의 평균 소요 시간은 AutoGraph-R1보다 낮다. Simple QA/Multi-hop/Conversation의 속도는 각각 3,201.7s / 3,357.5s / 1,115.8s로 측정되며 AutoGraph-R1의 6,782.8s / 9,780.4s / 2,826.5s보다 빠르다. Ablation 연구(Table 3)에서 RL 학습으로 최적화된 DeepRefine-8B가 RL 미학습 버전보다 일반적으로 더 높은 성능을 보였으며, RL 도입 시 성능 안정성과 다운스트림 이득이 증가하는 경향을 확인하였다. 사례 연구(D)에서 Incompleteness, Incorrectness, Redundancy의 세 가지 유형에 대해 DeepRefine의 정제가 효과적으로 작용함을 확인하였다. 사례 D.1/Incompleteness에서 2010년 인구 수 관련 누락된 증거를 삽입_edge로 보완하고, D.2/Incorrectness에서 모순된 엣지를 삭제하고 올바른 연결을 삽입하는 방식으로 정합성을 회복했다. D.3/Redundancy에서 Coreference 해결과 Disambiguation을 통해 중복으로 인한 모호성을 감소시켰다. 실험은 8B 모델에서 더 큰 이점이 관찰되었다.

기술 상세

단락 1: 지식 베이스 Gf를 트리플 형태의 구조화된 데이터로 가정하고, Q에 대응하는 각 쿼리에 대해 S = {A1q, ..., A|Q|q}를 생성하는 정책 pθ를 학습한다. 단락 2: G(0)q = Top-k(q, Gf, N)로 0-hop 서브그래프를 얻고, 이어지는 i번째 확장에서 G(i)q = G(i−1)q ∪ Top-k(q, Gcand, M)로 확장한다. 단락 3: Error Abduction에서 Iq를 도출하고, 에 기술한다. 단락 4: Aq = arg max pθ(A | G(L)q, Iq)로 Refinement Actions를 생성하고, insert_edge(), delete_edge(), replace_node()를 통해 Gf를 수정하여 Ĝf를 얻는다. 단락 5: GRPO 알고리즘으로 정책을 미세조정하며, 리워드는 GenAcc의 전환 상태에 따른 점수 차이를 통해 업데이트한다. 단락 6: Inference 단계에서 두 스트림이 병행되며, 정제는 비동기적으로 수행되어 온라인 질의 응답의 대기 시간을 최소화한다.

실무 활용

지식 베이스를 런타임에서 점진적으로 개선하여 RAG 기반 질의 응답의 정확도와 신뢰성을 높이는 실무 적용 가능 전략이다.

지식 그래프 기반 의사결정 시스템의 정합성 개선
다중 도메인 대화형 에이전트의 기억 관리 및 회상 정확도 향상
지식 베이스 관리 자동화 및 지속적 배포 파이프라인 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

DeepRefineRAGknowledge refinementabductionGain-Beyond-DraftGRPO reinforcement learning