핵심 요약
사용자 맞춤형 AI 어시스턴트가 발전함에 따라 과거 대화에서 중요한 정보를 추출해 기억하는 능력이 필수적이다. 하지만 대화의 성격에 따라 기억해야 할 정보의 종류가 다르기 때문에, 이 논문은 다양한 상황에 맞춰 스스로 진화하며 최적의 정보를 추출하는 프롬프트 최적화 기법을 제시한다.
왜 중요한가
사용자 맞춤형 AI 어시스턴트가 발전함에 따라 과거 대화에서 중요한 정보를 추출해 기억하는 능력이 필수적이다. 하지만 대화의 성격에 따라 기억해야 할 정보의 종류가 다르기 때문에, 이 논문은 다양한 상황에 맞춰 스스로 진화하며 최적의 정보를 추출하는 프롬프트 최적화 기법을 제시한다.
핵심 기여
BEHEMOTH 벤치마크 구축
개인화, 문제 해결, 에이전트 작업 등 18개 데이터셋을 통합하여 이질적인 작업 환경에서 메모리 추출 성능을 체계적으로 평가할 수 있는 최초의 벤치마크를 제안했다.
CluE(Cluster-based Evolution) 프레임워크 개발
다양한 작업 분포에서 발생하는 피드백 신호의 희석 문제를 해결하기 위해 대화 시나리오별로 클러스터링하고, 각 클러스터의 특성에 맞춰 추출 프롬프트를 정교화하는 자가 진화 시스템을 설계했다.
이질적 데이터 분포에서의 일반화 성능 입증
기존의 단일 작업용 프롬프트 최적화 기법들이 이질적인 작업 환경에서 성능이 저하되는 한계를 극복하고, CluE가 모든 작업 카테고리에서 일관된 성능 향상을 보임을 실험으로 증명했다.
관련 Figure

Personalization, Problem-Solving, Agentic 세 가지 카테고리에 속한 18개의 구체적인 데이터셋 목록을 보여준다. 이질적인 작업 환경을 구축하기 위해 얼마나 폭넓은 데이터가 사용되었는지 확인할 수 있다.
BEHEMOTH 벤치마크의 데이터셋 구성도
핵심 아이디어 이해하기
기존의 LLM 메모리 시스템은 사용자의 이름이나 선호도 같은 '개인 정보'를 기억하거나, 특정 문제의 '해결 전략'을 기억하는 등 고정된 규칙에 의존했다. 하지만 실제 AI 어시스턴트는 일상 대화부터 복잡한 코딩 디버깅까지 매우 다양한 상황을 마주하며, 각 상황마다 추출해야 할 핵심 정보의 성격이 다르다. 기존의 프롬프트 자동 최적화 방식은 모든 데이터를 하나로 뭉뚱그려 학습하기 때문에, 서로 다른 성격의 데이터가 주는 피드백이 충돌하여 성능이 정체되는 한계가 있다.
이 논문은 이를 해결하기 위해 '클러스터링' 개념을 도입했다. 먼저 수집된 대화 로그들을 그 성격(예: 절차적 지식 추출, 암시적 선호도 파악 등)에 따라 비슷한 그룹으로 묶는다. 그 다음 각 그룹 내에서 무엇이 성공적이었고 무엇이 부족했는지를 독립적으로 분석한다. 이는 마치 학생들을 수준별이나 과목별로 나누어 맞춤형 피드백을 주는 것과 유사한 원리다.
마지막으로 이렇게 분석된 개별 그룹의 통찰을 다시 하나로 통합하여, 어떤 상황에서도 유연하게 대처할 수 있는 '범용 메모리 추출 지침'을 완성한다. 이 과정을 통해 모델은 특정 데이터에 과적합되지 않으면서도 다양한 도메인에서 높은 정확도로 정보를 추출할 수 있게 된다.
관련 Figure

기술 디버깅, 수학 문제, 개인 선호도 등 서로 다른 성격의 대화에서 추출 모델(LLMe)이 통찰, 단계, 사실 등을 추출하고 이를 생성 모델(LLMg)이 활용하는 구조를 설명한다. 작업의 다양성 때문에 단일한 추출 규칙으로는 대응하기 어렵다는 본문의 핵심 문제 의식을 시각화한다.
이질적인 메모리 추출 작업의 흐름을 보여주는 다이어그램
방법론
전체 시스템은 Summarization, Clustering, Cluster-based Analysis, Cross-cluster Proposal의 4단계 루프로 구성된다. 먼저 Summarizer가 각 대화 로그를 읽고 '어떤 정보가 필요한지'와 '추출 시 무엇이 어려운지'를 요약한다. 이후 Cluster Manager가 이 요약본을 바탕으로 유사한 추출 시나리오를 가진 예시들을 최대 7개의 클러스터로 그룹화한다.
각 클러스터에 대해 Cluster Analyzer는 성공 패턴과 실패 패턴을 독립적으로 조사한다. 예를 들어 '수학 문제 해결' 클러스터에서는 단계별 논리 전개가 잘 추출되었는지 확인하고, '개인화' 클러스터에서는 사용자의 감정이나 선호도가 잘 반영되었는지 분석한다. 이때 각 분석 결과는 다른 클러스터의 피드백과 섞이지 않도록 격리되어 수행된다.
마지막으로 Proposer는 모든 클러스터의 분석 보고서를 입력받아 하나의 통합된 시스템 프롬프트를 생성한다. 이 과정에서 공통적으로 적용되는 일반 원칙과 특정 시나리오에 특화된 지침을 구조화된 메모리 분류 체계(Taxonomy)로 정리한다. 결과적으로 생성된 프롬프트는 단순한 텍스트 나열이 아니라, 상황별 대응 로직이 포함된 고도로 구조화된 지침서 형태를 띠게 된다.
주요 결과
BEHEMOTH 벤치마크 실험 결과, CluE는 기본 프롬프트 대비 전체적으로 9.04%의 상대적 성능 향상을 기록했다. 특히 개인화(+12.34%), 문제 해결(+8.39%), 에이전트 작업(+7.22%) 등 모든 카테고리에서 고르게 성능이 개선되었다. 이는 특정 분야에서만 강점을 보이고 다른 분야에서는 성능이 하락하던 기존의 GEPA나 MemEvolve와 대조적인 결과다.
학습에 사용되지 않은 외부 데이터셋(LongMemEval, GPQA-Diamond 등)을 활용한 Zero-shot 평가에서도 CluE는 가장 높은 성능을 유지하며 강력한 일반화 능력을 입증했다. 또한 Qwen3-32B뿐만 아니라 Gemini-3-Flash를 추출 모델로 사용했을 때도 일관되게 타 프레임워크를 압도하는 효율성을 보여주었다.
기술 상세
CluE 아키텍처는 이질적인 작업 분포(Heterogeneous Task Distribution) 하에서 발생하는 경사도 충돌(Gradient Conflict)과 유사한 현상을 프롬프트 수준에서 해결한다. 기존 방식이 배치 전체의 평균적인 피드백을 수용하여 세부적인 통찰이 희석되는 반면, CluE는 시나리오 기반의 로컬 분석을 수행한 뒤 이를 전역적으로 합성한다.
최종 진화된 프롬프트는 'Factual Data', 'User Preferences', 'Procedural Knowledge', 'Logical Reasoning', 'Stylistic Requirements'의 5가지 분류 체계를 갖추도록 설계되었다. 각 섹션은 정의(Definition)와 구체적인 가이드라인(Guidelines)을 포함하며, 특히 모호한 엔티티에 대한 명확화 작업이나 다회차 대화에서의 패턴 추상화와 같은 고수준의 추출 전략을 명시한다. 이는 단순한 Few-shot 예시 추가보다 모델의 지시 이행 능력을 극대화하는 구조적 최적화에 집중한 결과다.
관련 Figure

CluE는 구조화된 메모리 분류 체계와 일반 지침을 생성하는 반면, GEPA는 도메인 특화 내용에 치우치고 MemEvolve는 분류 체계 없이 페널티 조항에 의존함을 보여준다. CluE의 프롬프트가 왜 더 높은 일반화 성능을 갖는지 시각적으로 증명한다.
CluE, GEPA, MemEvolve가 생성한 최종 프롬프트의 구조적 비교
한계점
BEHEMOTH가 18개의 데이터셋을 포함하고 있으나, 실제 환경에서의 더 길고 복잡한 상호작용 이력을 완벽히 반영하기에는 한계가 있다. 또한 현재 연구는 메모리 수명 주기의 첫 단계인 '추출'에 집중하고 있으며, 저장, 검색 및 관리 전반에 걸친 전체 라이프사이클 최적화는 향후 과제로 남아있다.
실무 활용
다양한 도메인의 고객 응대를 수행하는 멀티모달 AI 에이전트나 개인 비서 서비스에서 사용자 대화 맥락을 정확히 기억하고 활용하는 데 즉시 적용 가능하다.
- 기술 지원과 감성 대화를 동시에 수행하는 고객 서비스 챗봇의 장기 기억 관리
- 복잡한 코딩 및 수학 문제 풀이 과정을 단계별로 요약하여 저장하는 학습 보조 에이전트
- 사용자의 다양한 취향과 과거 이력을 바탕으로 맞춤형 식당이나 상품을 추천하는 개인 비서
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.