HAGE: RL-Driven Weighted Graph Evolution을 통한 Agentic Memory 활용

메모리 검색은 컨텍스트 창의 한계를 넘어 긴 시퀀스에서 중요한 정보를 잃어버리기 쉽다. HAGE는 relation-specific views와 학습 가능한 edge_embeddings를 도입해 관계 신호를 다차원적으로 표현하고, RL로 쿼리 의도에 따라 트래버설 경로를 조정한다. 이로써 장기 추론 정확도와 처리 효율의 균형을 개선한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

Weighted multi-relational memory graph

에지에 trainable feature 벡터 eij ∈ R^4를 부여해 Temporal/Semantic/Causal/Entity 관계를 구분하고, 초기값은 e(0)ij = [stemp, ssem, scausal, sent]^⊤로 설정되며 학습 과정에서 업데이트된다.

Query-conditioned retrieval with routing

쿼리 q에 대해 v_Tq를 이용한 관계 의도 식별과 QueryRouter를 통해 e˜ij를 확장하고 wij(q) = softplus(MLP([q; e˜ij]))를 산출한다. S(nj|ni,q) = λ cos(vj, q) + (1−λ) wij(q)로 경로 점수를 계산하고 π(nj|ni,q)를 통해 탐색을 선택한다.

RL-based joint optimization

MDP 형태로 학습하여 routing 정책과 edge 특징을 함께 최적화하고 L = −J(θ) + Lanchor로 학습한다. Lanchor는 Phase 1 초기값 e(0)ij로부터의 편차를 제약하는 L2 항으로 구성된다.

Empirical validation and efficiency

LoCoMo와 HotpotQA에서 최상위 성능을 달성한다. gpt-4o-mini에서 LoCoMo Overall 점수 0.739, HotpotQA에서 F1 0.678, LLM Score 0.824를 기록하고, 평균 토큰 비용은 3.82K, 평균 지연은 2.17초이다.

Open-source availability

MVP 구현은 공개 코드베이스에 제공된다. https://github.com/FredJiang0324/HAGE_MVPReview

핵심 아이디어 이해하기

단계 1: 메모리는 Event-Nodes로 구성된 다층 그래프이며 각 엣지는 네 가지 관계 타입에 대해 학습 가능한 벡터를 가진다. 단계 2: 쿼리 q에 따라 Relation Intent를 파악하고 e˜ij에 q의 컨텍스트를 결합해 엣지 가중치를 계산한다. 단계 3: cos 유사도와 학습된 구조적 가중치의 합성 점수로 이웃 노드를 점진적으로 탐색하며, 탐색 경로를 확률적으로 샘플링한다. 단계 4: 보상은 타깃 증거의 발견과 탐색 비용의 trade-off로 구성되고, 정책 경사하강법으로 파라미터 θ를 업데이트한다. 단계 5: Phase 1의 초기 엣지 특성값을 유지하기 위한 anchor 정규화로 일반화 성능을 안정화한다.

방법론

전체 아키텍처는 Gt = (Nt, Et)로 표현되며 Et = Etemp ∪ Esem ∪ Ecausal ∪ Eent이고, 노드는 ni = ⟨ci, τi, vi, Ai⟩로 표기된다. 에지 (i, j)은 eij ∈ R^R, R = 4이며 초기값은 e(0)ij = [stemp, ssem, scausal, sent]^⊤이다. 2) 쿼리 조건부 검색은 q에 대해 vTq를 산출하고, ẽij = [eij; vTq; cos(q, vi); cos(q, vj)]를 얻은 뒤, wij(q) = softplus(MLP([q; ẽij]))를 계산한다. 최종 점수 S(nj|ni,q) = λ cos(vj, q) + (1−λ) wij(q)를 통해 π(nj|ni,q)를 얻는다. 3) 학습은 MDP로 정의되며 상태 s_t = (ni, q⃗, Vt), 행동 a_t은 이웃 노드 nj이며, 보상 rt = rhit_t − λstep·step_t − λtimeout·timeout_t 이다. Gt는 γ로 감소합산하며, ∇θJ은 REINFORCE로 계산하고 baselined를 적용한다. 4) Lanchor = λanchor Σ(eij − e(0)ij)^2이며 L = −J(θ) + Lanchor로 업데이트한다. 5) 구현은 PyTorch 기반으로, 노드 임베딩은 all-MiniLM-L6-v2로 초기화하고 어댑션으로 adjacency를 사용하며, 5-fold cross-validation과 200에폭 학습을 수행한다.

주요 결과

LoCoMo에서 gpt-4o-mini 기반으로 HAGE는 Overall 0.739로 최고 성능을 달성했다(최고 baseline 0.700에서 상승). Temporal, Single-Hop, Adversarial, Overall에서 우수한 성능 향상을 보였다. Qwen2.5-3B에서도 0.548로 최고 성능 중 하나를 기록했다. HotpotQA에서 GPT-4o-mini 기준 F1 0.678, LLM Score 0.824로 최고치를 달성했고, Qwen2.5-3B에서도 HAGE가 모든 기준에서 상회했다. 효율성 면에서는 Avg. Score 0.739, Tokens/Query 3.82K, Latency 2.17s로 가장 우수한 균형을 보였다. Table 4의 ablation 결과에서 Static Edge 0.698/0.462에서 HAGE 0.739/0.548로의 개선이 확인되며, Edge 학습과 Router 학습의 조합이 최적 성능에 기여한다.

기술 상세

3.1 개요: HAGE는 relation-specific graph views를 갖춘 Weighted Multi-Relational Memory Graph를 제시하고, 3.2에서 Nm = (Nt, Et) 및 4개의 관계 세부 모듈(Etemp, Esem, Ecausal, Eent)로 구성된 메모리 구조를 정의한다. Edge는 eij ∈ R^4이며 초기화는 e(0)ij = [stemp, ssem, scausal, sent]^⊤ 또는 primary relation type의 one-hot 벡터이다. 3.3에서 Query-conditioned Retrieval은 q에 대해 vTq를 계산하고, ẽij를 구성한 뒤 wij(q)를 얻고, S(nj|ni,q)를 통해 탐색 확률을 정의한다. 3.4에서 Reinforcement Learning 기반 Joint Optimization은 MDP로 모델링되고, Gt를 이용한 할인 보상으로 정책을 업데이트하며, Lanchor로 초기화된 벡터의 drift를 억제한다. 3.5 구현은 PyTorch 기반이며, 노드 임베딩은 all-MiniLM-L6-v2, 학습은 Adam으로 수행한다. 4.2 및 4.3 실험에서 LoCoMo/HotpotQA 데이터셋에 대한 성능과 일반화 능력을 제시한다. 3.4.1의 Co-Evolutionary Training Dynamics은 두 파라미터군 간 비대칭 학습률(ηrouter > ηedge)로 안정화를 도모한다.

한계점

한계점으로는 (i) LoCoMo와 HotpotQA 두 벤치마크에 대한 평가로 일반화 범위가 제한됨, (ii) relation-intent 분류 및 평가의 품질에 의존하는 LLM 구성요소에 따른 비용 및 모델 의존성 존재, (iii) 개인정보 보안 및 편향 위험과 같은 윤리적 고려가 필요하다.

실무 활용

HAGE의 학습 가능한 관계 신호와 쿼리 조건부 트래버설은 에이전트 메모리 시스템의 장기 기억 검색 효율성과 정확도를 높인다. 다중-hop 및 시계열 의존 질의에 특히 강한 성능을 보이며, 외부 메모리의 활용과 비용 효율성에도 긍정적 영향을 준다.

Personal assistant 에이전트의 다-session 기억 유지 및 활용
지식 기반 대화 시스템의 다짓점 증거 연결 강화
장기간 연구 도구로서 문헌/데이터 간의 고차원 연관성 추적
다중-도메인 대화에서 과거의 사건-관계 정보를 재사용

코드 공개 여부: 공개

코드 저장소 보기

키워드

agentic memory(에이전틱 메모리)memory retrieval(메모리 검색)relational memory graph(관계형 메모리 그래프)relation-specific graph views(관계 특이 그래프 뷰)edge embedding(에지 임베딩)routing network(라우팅 네트워크)semantic similarity(시맨틱 유사도)reinforcement learning(강화학습)query-conditioned traversal(쿼리 조건부 탐색)

HAGE: RL-Driven Weighted Graph Evolution을 통한 Agentic Memory 활용

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

Weighted multi-relational memory graph

Query-conditioned retrieval with routing

RL-based joint optimization

Empirical validation and efficiency

Open-source availability

MVP 구현은 공개 코드베이스에 제공된다. https://github.com/FredJiang0324/HAGE_MVPReview

핵심 아이디어 이해하기

방법론

전체 아키텍처는 Gt = (Nt, Et)로 표현되며 Et = Etemp ∪ Esem ∪ Ecausal ∪ Eent이고, 노드는 ni = ⟨ci, τi, vi, Ai⟩로 표기된다. 에지 (i, j)은 eij ∈ R^R, R = 4이며 초기값은 e(0)ij = [stemp, ssem, scausal, sent]^⊤이다. 2) 쿼리 조건부 검색은 q에 대해 vTq를 산출하고, ẽij = [eij; vTq; cos(q, vi); cos(q, vj)]를 얻은 뒤, wij(q) = softplus(MLP([q; ẽij]))를 계산한다. 최종 점수 S(nj|ni,q) = λ cos(vj, q) + (1−λ) wij(q)를 통해 π(nj|ni,q)를 얻는다. 3) 학습은 MDP로 정의되며 상태 s_t = (ni, q⃗, Vt), 행동 a_t은 이웃 노드 nj이며, 보상 rt = rhit_t − λstep·step_t − λtimeout·timeout_t 이다. Gt는 γ로 감소합산하며, ∇θJ은 REINFORCE로 계산하고 baselined를 적용한다. 4) Lanchor = λanchor Σ(eij − e(0)ij)^2이며 L = −J(θ) + Lanchor로 업데이트한다. 5) 구현은 PyTorch 기반으로, 노드 임베딩은 all-MiniLM-L6-v2로 초기화하고 어댑션으로 adjacency를 사용하며, 5-fold cross-validation과 200에폭 학습을 수행한다.

주요 결과

기술 상세

한계점

실무 활용

Personal assistant 에이전트의 다-session 기억 유지 및 활용
지식 기반 대화 시스템의 다짓점 증거 연결 강화
장기간 연구 도구로서 문헌/데이터 간의 고차원 연관성 추적
다중-도메인 대화에서 과거의 사건-관계 정보를 재사용

코드 공개 여부: 공개

코드 저장소 보기

HAGE: RL-Driven Weighted Graph Evolution을 통한 Agentic Memory 활용

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

HAGE: RL-Driven Weighted Graph Evolution을 통한 Agentic Memory 활용

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드