FileGram: 파일 시스템 행동 추적에 기반한 에이전트 개인화 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 AI 에이전트는 대화 내용에만 의존하여 사용자의 작업 스타일을 파악했으나, 이 논문은 실제 파일 조작 기록인 행동 추적을 활용하는 새로운 패러다임을 제시합니다. 이를 통해 사용자의 고유한 파일 정리 습관이나 작업 절차를 정확히 학습하여 더 정교한 개인 맞춤형 협업이 가능해집니다.

왜 중요한가

핵심 기여

FileGramEngine: 페르소나 기반 데이터 생성 엔진

사용자의 역할, 언어, 작업 스타일 등 19가지 속성을 조합하여 20개의 가상 페르소나를 생성하고, 이를 바탕으로 640개의 실제적인 파일 시스템 행동 궤적 데이터를 시뮬레이션한다.

FileGramBench: 메모리 중심 개인화 벤치마크

파일 시스템 작업에 기반한 최초의 벤치마크로, 프로필 재구성, 행동 추적 분리, 페르소나 변화 감지, 멀티모달 접지 등 4가지 트랙과 4,600개의 질의응답 쌍을 제공한다.

FileGramOS: 상향식 메모리 아키텍처

대화 요약 대신 원자적 행동과 파일 내용의 변화(Content Delta)를 직접 인코딩하여 절차적, 의미적, 에피소드 채널로 관리하는 상향식 구조를 통해 개인화 성능을 극대화한다.

핵심 아이디어 이해하기

기존의 에이전트 메모리 시스템은 사용자와의 대화 기록을 텍스트로 요약하여 저장하는 방식을 사용한다. 하지만 이는 사용자가 실제로 파일을 어떻게 수정하고 어디에 저장하는지와 같은 구체적인 '행동 패턴' 정보를 손실시킨다는 한계가 있다. 마치 요리사가 레시피 설명만 듣고 실제 칼질 습관이나 재료 손질 순서를 모르는 것과 같다.

이 논문은 사용자의 모든 파일 조작을 '원자적 행동' 단위로 쪼개어 분석한다. 예를 들어 파일을 읽고(Read), 쓰고(Write), 옮기는(Move) 행위 자체를 데이터화하고, 수정 전후의 차이점인 Content Delta를 추출한다. 이를 통해 사용자가 '꼼꼼하게 문서를 수정하는지' 혹은 '파일을 날짜별로 정리하는지'와 같은 고유한 행동 지문을 생성한다.

결과적으로 에이전트는 단순한 대화 상대가 아니라 사용자의 작업 방식을 그대로 복제하거나 보조할 수 있는 동료로 진화한다. 실험 결과, 기존의 요약 기반 방식이 48~50%의 정확도에 머문 반면, 행동 추적을 직접 활용하는 방식은 59.6%의 성능을 기록하며 개인화의 새로운 기준을 제시했다.

방법론

FileGramOS는 세 단계의 파이프라인으로 구성된다. 첫 번째 단계인 Per-Trajectory Encoding에서는 원시 행동 시퀀스와 파일 내용 변화를 입력으로 받아 Engram이라는 최소 메모리 단위를 생성한다. 이때 Procedural Extraction을 통해 읽기/쓰기 비율 등 17차원의 행동 지문을 추출하고, Semantic Parsing으로 파일의 의미적 내용을 분석하며, Action Merge로 연속된 행동을 논리적 에피소드로 구분한다.

두 번째 단계인 Cross-Engram Consolidation에서는 생성된 Engram들을 세 가지 채널로 통합한다. Procedural Channel은 여러 세션의 행동 지문을 통계적으로 합산하여 안정적인 행동 특성을 파악한다. Semantic Channel은 텍스트 데이터를 청크 단위로 나누고 Embedding하여 유사한 내용을 그룹화한다. Episodic Channel은 시간적 순서를 유지하며 Z-score 정규화를 통해 평소와 다른 행동(Behavioral Drift)을 감지한다.

마지막 단계인 Query-Adaptive Retrieval은 사용자의 질문이 들어오면 키워드를 추출하여 관련 채널에서 정보를 가져온다. 예를 들어 '파일 정리 습관'에 대한 질문이면 Procedural Channel에서 구조적 습관을, '특정 프로젝트 내용'이면 Semantic Channel에서 스타일 정보를 가져와 최종 답변을 생성한다.

주요 결과

FileGramBench에서 실시한 실험 결과, 제안된 FileGramOS는 평균 59.6%의 정확도를 기록하여 기존 SOTA 모델인 EverMemOS(49.9%)를 크게 앞질렀다. 특히 절차적(Procedural) 이해 능력에서 60.1%를 기록하며 기존 모델들이 30~40%대에 머문 것과 대조적인 성과를 보였다.

Ablation Study 결과, 절차적 채널(Procedural Channel)을 제거했을 때 성능이 11.1%p 하락하여 가장 핵심적인 요소임이 증명됐다. 이는 사용자의 개인화를 위해서는 단순한 텍스트 정보보다 행동의 통계적 특성이 더 중요하다는 것을 시사한다.

멀티모달 환경에서의 실험에서는 모든 기존 모델의 성능이 한 자릿수대로 급락하는 현상이 발견됐다. 이는 시뮬레이션된 깨끗한 로그와 달리 실제 화면 녹화 영상에서 행동을 추출하는 것이 매우 어려운 과제(Sim-to-Real Gap)임을 보여주며, 향후 연구 방향을 제시했다.

기술 상세

FileGramOS는 파일 시스템 이벤트를 12가지 원자적 행동(file_read, file_write, dir_create 등)으로 정의하여 처리한다. 각 행동 궤적은 17차원의 고정 길이 벡터인 Procedural Fingerprint로 압축되며, 여기에는 검색 비율(search_ratio), 디렉토리 깊이(max_dir_depth), 수정 강도(avg_lines_changed) 등이 포함된다.

에피소드 채널에서는 행동 궤적 간의 유클리드 거리를 계산하여 최대 3개의 클러스터로 그룹화한다. 이상 행동 감지를 위해 Z-score 정규화 식 z = (f - μ) / (σ + ε)을 사용하며, 임계값 τ=1.5를 초과하는 세션은 LLM 기반의 Anomaly Judge에게 전달되어 단순한 작업 변동인지 실제 페르소나의 변화인지를 판별한다.

데이터 생성 시에는 Claude Haiku 4.5를 사용하여 현실적인 워크플로우를 시뮬레이션했으며, 평가 시에는 Gemini 2.5-Flash를 백본으로 사용하여 메모리 설계의 독립적인 성능을 측정했다. 모든 처리는 로컬에서 수행되도록 설계되어 프라이버시 보호를 고려했다.

한계점

모든 궤적이 단일 LLM(Claude Haiku 4.5)에서 생성되어 실제 다중 사용자 환경의 스타일 다양성을 완벽히 포착하지 못했을 수 있다. 또한 코드 개발, 실시간 협업, 시스템 관리 작업은 현재 작업 풀에서 제외되어 있다.

키워드

File-System(파일 시스템)Behavioral-Traces(행동 추적)Agent-Personalization(에이전트 개인화)Memory-Architecture(메모리 아키텍처)Benchmark(벤치마크)