핵심 요약
사용자가 도구 사용에 필요한 정보를 누락했을 때, 과거 행동 패턴에서 숨겨진 선호도를 추론하여 자동으로 보완하는 기술입니다. 전체 대화 이력을 모두 입력하는 대신 핵심 선호도만 추출하여 관리함으로써 연산 비용을 98% 이상 절감하면서도 정확한 개인화 서비스를 가능하게 합니다.
왜 중요한가
사용자가 도구 사용에 필요한 정보를 누락했을 때, 과거 행동 패턴에서 숨겨진 선호도를 추론하여 자동으로 보완하는 기술입니다. 전체 대화 이력을 모두 입력하는 대신 핵심 선호도만 추출하여 관리함으로써 연산 비용을 98% 이상 절감하면서도 정확한 개인화 서비스를 가능하게 합니다.
핵심 기여
MPT 벤치마크 구축
265개의 멀티 세션 대화로 구성된 데이터셋을 통해 Preference Recall, Induction, Transfer라는 세 가지 핵심 개인화 과제를 정의하고 평가 환경을 마련했다.
PREFINE 방법론 제안
사용자의 잠재적 선호도를 가설로 취급하고, generate-verify-refine 루프를 통해 세션이 반복될수록 선호도 제약 조건을 정교화하는 테스트 타임 메모리 증강 기법을 개발했다.
토큰 효율성 극대화
전체 대화 이력을 사용하는 방식 대비 단 1.24%의 토큰만 사용하면서도, 단순 재사용을 넘어선 고차원적인 선호도 추론 성능을 입증했다.
핵심 아이디어 이해하기
LLM 에이전트가 API를 호출할 때 사용자가 '가장 싼 비행기표 예약해줘'라고 말하지 않아도 과거에 항상 저가 항공을 이용했다면 이를 반영해야 한다. 기존에는 단순히 과거의 비슷한 행동을 검색(Retrieval)해오는 방식을 썼으나, 이는 도구의 종류가 바뀌거나 상황이 달라지면 적용하기 어렵다는 한계가 있다.
이 논문은 사용자의 행동 뒤에 숨겨진 '잠재적 선호도(Latent Preference)'를 하나의 추상적인 제약 조건으로 모델링한다. 예를 들어 '저렴한 식당 선택'과 '무료 관광지 선택'이라는 개별 행동에서 '예산 중심적 선택'이라는 공통된 상위 선호도를 추출하는 원리이다.
이렇게 추출된 선호도는 고정된 데이터가 아니라 새로운 증거가 발견될 때마다 수정되는 '가설'로 관리된다. 이를 통해 에이전트는 처음 보는 도구를 사용할 때도 사용자의 성향을 예측하여 부족한 정보를 스스로 채울 수 있게 된다.
방법론
PREFINE은 사용자의 선호도를 점진적으로 정교화하는 generate-verify-refine 루프를 핵심으로 한다. 각 세션이 끝날 때마다 Generator는 현재 대화와 API 호출 내역을 바탕으로 사용자의 선호도 가설을 생성한다.
Verifier는 생성된 가설이 네 가지 조건(Evidence Support, Abstraction Quality, Actionability, Temporal Consistency)을 만족하는지 검증한다. [가설과 과거 이력을 입력으로] → [일관성 및 추상화 수준을 검사하여] → [통과 또는 거절 판정 및 피드백을 출력] → [이 값은 가설의 신뢰도를 결정]하는 과정을 거친다.
검증을 통과하지 못한 가설은 Refiner로 전달되어 피드백을 바탕으로 수정된다. 최종적으로 확정된 선호도는 텍스트 형태의 제약 조건으로 메모리에 저장되며, 다음 세션의 API 호출 시 프롬프트에 주입되어 LLM이 부족한 인자를 추론하는 가이드라인 역할을 수행한다.
주요 결과
실험 결과, PREFINE은 Preference Recall(단순 재사용)뿐만 아니라 Preference Induction(교차 세션 증거 통합) 및 Transfer(새로운 도메인 적용)에서 기존 베이스라인을 크게 상회했다. 특히 전체 이력을 모두 사용하는 Base Prompting 대비 토큰 사용량을 1.24% 수준으로 줄이면서도 더 높은 정확도를 기록했다.
메모리 효율성 측면에서 PREFINE은 세션이 누적되어도 메모리 크기가 약 20~25개 토큰 수준으로 일정하게 유지되는 특성을 보였다. 이는 대화가 길어질수록 비용이 선형적으로 증가하는 기존 방식들과 대조되는 강력한 장점이다.
기술 상세
PREFINE의 메모리는 스키마에 종속되지 않는(Schema-Agnostic) 추상적 텍스트 형태로 저장된다. 이는 API의 인자 명칭이나 구조가 바뀌더라도 선호도 정보가 유효하게 작동할 수 있게 한다. 연구팀은 이를 검증하기 위해 학습 시 보지 못한 새로운 도메인의 API를 사용하는 Dynamic Schema 환경에서도 성능이 유지됨을 확인했다.
가설 검증 단계에서 사용되는 네 가지 지표는 선호도가 단순히 특정 슬롯 값을 복사하는 수준을 넘어, 여러 도메인에 걸쳐 적용 가능한 행동 제약 조건으로서의 가치를 지니는지 엄격하게 평가하도록 설계되었다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.