LongMemEval-V2: 서버 환경에서의 장기 기억 평가를 위한 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

웹 에이전트가 인터페이스, 상태 변화, 워크플로우, 환경 고착점 등 환경 특유의 경험을 축적하고 이를 추론에 활용하는 능력을 평가하는 벤치마크를 제시한다. LME-V2는 451개의 질문과 최대 500개의 트래젝토리 haystack, 115M 토큰 규모의 데이터로 구성되어 기억 능력의 다섯 가지 핵심 영역을 포괄적으로 측정한다.

왜 중요한가

웹 에이전트가 인터페이스, 상태 변화, 워크플로우, 환경 고착점 등 환경 특유의 경험을 축적하고 이를 추론에 활용하는 능력을 평가하는 벤치마크를 제시한다. LME-V2는 451개의 질문과 최대 500개의 트래젝토리 haystack, 115M 토큰 규모의 데이터로 구성되어 기억 능력의 다섯 가지 핵심 영역을 포괄적으로 측정한다.

핵심 기여

LME-V2 벤치마크 제시

웹 에이전트의 Trajectory에서 정적 상태 회상, 동적 상태 추적, 워크플로우 지식, 환경 고착점, 전제 인지의 다섯 가지 기억 능력을 다루는 451개 질문을 수집하고, Small(100 traj 일괄 haystack) 및 Medium(질문별 500 traj haystack) 두 계층으로 구성한다. 총 haystack 길이는 Small 25M 토큰, Medium 115M 토큰에 달한다.

맥락 수집 기반 평가 형식

Insert(h)와 Query(q) API를 통해 기억에 Trajectory를 누적하고, 최종 기억에서 질문 q에 대한 컨텍스트 ci를 반환받아 고정된 읽기 모델로 정답을 산출하는 컨텍스트 수집 평가를 제시한다.

AgentRunbook-R 설계

Raw state slice pool, state transition event pool, procedure/notes pool의 세 가지 기억 풀로 분리하고, 다중 풀에서 상호 보완적으로 정보를 검색하는 RAG 기반 메모리 모듈을 제시한다. Static 질문에 대해 Raw slice 풀이 중요하나, Dynamic/ Gotchas, Workflow에는 이벤트/노트 풀이 기여한다.

AgentRunbook-C 설계

Trajectories를 파일로 저장하는 파일 기반 메모리 관리와 Codex 코딩 에이전트를 memory 컨트롤러로 활용하는 방식으로, 워크플로우 가이드, manifests, 도구 스크립트를 추가해 검색 효율과 정확도를 향상시킨다.

실험 결과와 인사이트

Small 계층에서 AgentRunbook-C가 74.9%, Medium에서 70.1%의 정확도를 달성하였고, Codex 기반 baseline(69.9%, 68.7%)보다 우수하며 RAG 기반 대안보다 정확도-지연 시간(frontier)을 높였다. RAG 단일 베이스라인은 42.8%/38.1%, Notes 추가 시 51.0%/45.9%에 그쳤다.

관련 Figure

Infographic
다섯 가지 기억 능력의 시각적 요약과 평가 문제의 구조를 한 눈에 보여주며, 연구의 기여 포인트인 ‘환경 기반 기억의 축적’에 직결되는 핵심 도구를 제시한다.
Figure 1은 LongMemEval-V2의 메모리 능력 다섯 가지와 haystack 구성의 예시를 시각화한다.

핵심 아이디어 이해하기

출발점은 대규모 웹 에이전트의 장기 맥락에서 단순히 대화 기록을 보관하는 수준의 기억이 아니라, 환경 특유의 인터페이스, 상태 변화, 워크플로우 지식을 축적하고 재현 가능한 형태로 재활용하는 것이다. 다섯 가지 기억 능력(Static State Recall, Dynamic State Tracking, Workflow Knowledge, Environment Gotchas, Premise Awareness)을 정의하고, Trajectory haystack을 구성해 기억의 질을 평가한다. 이를 달성하기 위해 두 가지 기억 모듈 AgentRunbook-R(다중 풀 기반 RAG)과 AgentRunbook-C(코딩 에이전트 기반 파일 관리)로 서로 다른 메모리 관리 방식을 제시하고, 환경 특화 접근이 일반 프롬프트 기반 접근보다 높은 정확도-지연 시간 성능을 낳는다는 것을 실험으로 보여준다.

관련 Figure

Diagram
환경 적합성(전제 인지 및 워크플로우 이해)의 필요성을 강조하고, 기억 모듈의 목표를 구체적으로 드러낸다.
Figure 2는 Task/Question와 Inexperienced/Experienced Colleague 간의 차이를 보여주는 예시 화면 구성이다.

방법론

전체 접근 방식: LME-V2는 컨텍스트 수집(context gathering) 문제로 정의되며, Insert(h)로 트래젝토리를 기억에 누적하고, Query(q)로 메모리 컨텍스트 ci를 얻은 뒤, 고정된 reader R으로 응답을 생성한다. ŷi = R(qi, Trunc(ci)) 형태로 정답을 도출한다.

관련 Figure

Chart
데이터 구성의 다양성과 다양한 문제 형식이 메모리 평가에 어떤 영향을 미치는지 시각화한다.
Figure 2(또는 2)의 분포 차트로 소스 도메인, 문제 형식, 포맷의 분포를 보여준다.

Diagram
R과 C 두 메모리 모듈의 구성과 동작 흐름을 명확히 보여주며, 기억 컨트롤러의 설계 의도를 뒷받침한다.
Figure 5는 AgentRunbook의 메모리 모듈 구조를 도식화한다.

Diagram
Codex 기반 direct QA 파이프라인의 구성과 memory_harness의 역할을 시각화한다.
Sandbox 및 Codex oracle direct-QA의 작동 방식을 보여주는 도식이다.

주요 결과

메인 벤치마크(전 체계): LME-V2-Small과 LME-V2-Medium에서 AgentRunbook-C가 가장 높은 정확도(각각 74.9%, 70.1%)를 달성했다. RAG 단일 baseline은 42.8%/38.1%, RAG+notes는 51.0%/45.9%, AgentRunbook-R은 58.6%/57.0%를 달성했다. Codex 기반은 69.9%/68.7%로 나타났다. Pilot studies에서 frontier LLM은 트래젝토리 없이 질문에 답하기 어렵고, oracle 트래젝토리 접근 시 Slice+notes 확장으로 정확도가 크게 올라가지만 전체 히스토리의 대용량으로 인한 제약이 있다.

관련 Figure

Chart
히스토리 규모가 크고 다중 계층으로 확장될 때의 메모리 관리의 중요 포인트를 제시한다.
Average Haystack Cost 차트로 Trajectories/States/Tokens의 평균 규모를 보여준다.

Chart
파이롯트 연구에서 트래젝토리 없이 질문에 답하기 어려움과, oracle 접근 시 증거 슬라이싱/메모 구성의 중요성을 확인한다.
Pilot Studies의 정확도 비교 그래프로 frontier LLM의 한계를 보인다.

Chart
Codex 대비 AgentRunbook-C의 도구 호출 패턴 및 분석을 통해 메모리 컨트롤러의 효율성을 파악한다.
Mean command executions per query의 명령 분류와 사용 패턴을 보여주는 도표이다.

기술 상세

3가지 기억 풀(Raw state slice pool, state transition event pool, procedure note pool)과 2개의 memory 디자인(AgentRunbook-R, AgentRunbook-C)을 통해 기억을 구성하고, Insert/Query API를 통해 점진적으로 컨텍스트를 확장한다. AgentRunbook-R은 각 풀에 대해 Dense retrieval으로 상호 보완적인 정보를 가져와 ci를 구성하고, AgentRunbook-C은 Trajectory를 파일로 저장하고 sandbox에서 코딩 에이전트를 통해 증거를 발췌해 memory_module_output.json에 저장한다. 실험은 Small/Medium 두 계층에서 진행되었고, 트랜잭션과 제약으로 200K 토큰으로 ci를 트렁케이션한다. Reader는 Qwen3.5-9B를 사용하며, RAG의 메모리 컨트롤러로 Qwen3-8B-Embedding을 사용한다.

실무 활용

LME-V2는 에이전트의 환경 특유의 경험을 재사용 가능한 기억으로 전환시켜 신뢰성과 어댑티브성을 높이는 데 중점을 둔다. 메모리 모듈의 설계가 실제 에이전트의 성능에 직접적인 영향을 미친다.

대규모 웹 에이전트의 장기 맥락 관리 및 검증
환경 특화 워크플로우 지식의 재사용과 증거 추출
메모리 컨트롤러로 coding agent의 활용 가능성 평가
메모리-연산 비용 절감과 지연 시간 관리 전략 수립

코드 공개 여부: 공개

코드 저장소 보기

키워드

long-term memoryweb environmentsmemory benchmarkAgentRunbook-RAgentRunbook-Ctrajectory analysisquestion answeringlatency

LongMemEval-V2: 서버 환경에서의 장기 기억 평가를 위한 벤치마크

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드