핵심 요약
기존의 AI 사용자 시뮬레이션은 단편적인 상황이나 가공된 데이터에 의존하여 실제 인간의 복잡한 의사결정 과정을 충분히 반영하지 못했다. 이 논문은 실제 플랫폼의 3개월치 행동 로그를 통합한 OmniBehavior를 통해 LLM이 가진 '긍정적 평균인 편향'과 같은 구조적 한계를 밝혀내어 더 정교한 AI 에이전트 개발 방향을 제시한다.
왜 중요한가
기존의 AI 사용자 시뮬레이션은 단편적인 상황이나 가공된 데이터에 의존하여 실제 인간의 복잡한 의사결정 과정을 충분히 반영하지 못했다. 이 논문은 실제 플랫폼의 3개월치 행동 로그를 통합한 OmniBehavior를 통해 LLM이 가진 '긍정적 평균인 편향'과 같은 구조적 한계를 밝혀내어 더 정교한 AI 에이전트 개발 방향을 제시한다.
핵심 기여
OmniBehavior 벤치마크 구축
Kuaishou 플랫폼의 실제 사용자 200명의 3개월간 활동 로그를 기반으로, 5개 시나리오와 22개 행동 유형을 포함하는 최초의 통합 사용자 시뮬레이션 벤치마크를 제안한다.
행동 인과 사슬의 장기적 특성 규명
사용자 의사결정의 80% 이상이 여러 시나리오에 걸쳐 발생하며, 60% 이상의 결정이 3일 이전의 단서에 영향을 받는다는 장기적 인과 구조를 데이터로 증명했다.
LLM 시뮬레이터의 구조적 편향 발견
최신 LLM들이 실제 인간보다 과도하게 활동적이고(Hyper-activity), 개성이 사라지며(Homogenization), 지나치게 긍정적이고 예의 바른(Utopian bias) '긍정적 평균인'으로 수렴하는 경향이 있음을 확인했다.
핵심 아이디어 이해하기
사용자 시뮬레이션은 특정 입력(콘텐츠)에 대해 사용자가 보일 반응(클릭, 구매 등)을 예측하는 작업이다. 기존 방식은 특정 시점의 데이터(Embedding)만을 활용해 독립적인 사건으로 처리했으나, 실제 인간의 행동은 과거의 수많은 경험이 누적된 결과이다. 예를 들어, 오늘 운동화를 구매하는 결정은 며칠 전 본 리뷰 영상과 어제 수행한 검색 기록이 복합적으로 작용하여 발생한다.
이 논문은 이러한 행동의 연속성을 '장기적 인과 사슬'로 정의한다. Transformer 기반의 LLM이 긴 문맥(Context Window)을 처리할 수 있게 되었음에도 불구하고, 실제 데이터를 넣어보면 단순히 문맥이 길어진다고 해서 시뮬레이션 정확도가 선형적으로 증가하지 않는다. 이는 모델이 수만 개의 토큰 속에 숨겨진 미묘한 인과 관계를 추론하는 데 여전히 어려움을 겪고 있음을 의미한다.
결과적으로 LLM은 각 개인의 독특한 취향이나 부정적인 반응을 학습하기보다, 훈련 데이터에서 가장 빈번하게 나타나는 '보편적이고 친절한 사용자'의 모습으로 답변을 생성하는 경향을 보인다. 이는 딥러닝 모델이 손실 함수(Loss Function)를 최소화하는 과정에서 확률이 낮은 특이값(Long-tail)보다는 평균적인 분포로 수렴하려는 성질과 연결된다.
관련 Figure

단일 시나리오 데이터는 사용자의 단편적인 모습만 보여주지만, 다중 시나리오 데이터를 통합하면 사용자의 성향을 훨씬 입체적이고 정확하게 파악할 수 있음을 보여준다.
단일 시나리오와 다중 시나리오 데이터를 기반으로 재구성된 사용자 프로필의 차이를 비교한 그림이다.
방법론
OmniBehavior는 데이터 수집, 처리, 벤치마크 구축의 3단계 파이프라인으로 구성된다. Kuaishou 플랫폼에서 비디오 브라우징, 라이브 스트리밍, 이커머스, 광고, 검색 등 5개 주요 시나리오의 로그를 수집하고, 3개월간의 사용자 활동을 타임스탬프 순으로 정렬하여 통합된 행동 궤적을 생성한다.
데이터 정제 과정에서는 99.9 백분위수 시청 시간을 기준으로 우발적 터치나 유휴 재생을 제거하는 Behavior-Level Cleaning을 수행한다. 또한 OCR 및 ASR 텍스트의 노이즈를 제거하기 위해 Qwen2.5-72B-Instruct 모델을 활용한 Text-Level Cleaning을 적용하여 의미적 밀도를 높인다.
사용자 샘플링은 인구통계학적 특성, 활동 수준, 관심사 분포, 시나리오 선호도의 4가지 축을 기반으로 K-Means 클러스터링을 수행한다. [각 사용자의 특성 벡터 입력 → 클러스터 중심점 계산 → 가장 가까운 사용자 선택] 과정을 통해 200명의 대표 사용자를 추출하여 시뮬레이션의 다양성과 효율성을 동시에 확보한다.
관련 Figure

실제 세계 데이터 수집부터 원시 데이터 처리, 최종 벤치마크 구성까지의 3단계 과정을 시각화한다. 5개 시나리오와 22개 행동 유형이 어떻게 통합되어 장기적 궤적을 형성하는지 설명한다.
OmniBehavior 벤치마크 구축의 전체 과정을 보여주는 개요도이다.
주요 결과
Claude-4.5-Opus가 종합 점수 44.55점으로 가장 높은 성능을 기록했으나, 실제 인간의 행동을 완벽히 모사하기에는 여전히 큰 격차가 존재한다. 특히 '좋아요'나 '공유'와 같은 이진 행동 예측의 F1 스코어는 대부분의 모델에서 40%를 넘지 못했다.
문맥 창(Context Window) 확장 실험에서는 16K에서 128K까지 입력을 늘려도 성능이 일관되게 향상되지 않았으며, 오히려 특정 구간에서는 성능이 정체되거나 하락하는 현상이 관찰됐다. 이는 현재의 LLM이 초장기 문맥 내에서 유의미한 행동 단서를 찾아내는 추론 능력이 부족함을 시사한다.
메모리 관리 전략 비교 결과, 단순 요약(Summary) 방식이 RAG나 Truncation보다 평균 14.9% 높은 성능 향상을 보였다. RAG는 의미적 유사성에만 의존하여 행동의 시간적 순서와 인과 관계를 무시하는 경향이 있는 반면, 요약 방식은 전체적인 흐름을 보존하는 데 유리한 것으로 나타났다.
관련 Figure

실제 사용자의 관심사는 부드럽고 복합적으로 변화하는 반면, 합성 데이터 기반 사용자는 특정 시점에 급격히 변하는 기계적이고 경직된 패턴을 보임을 입증한다.
실제 사용자와 합성 데이터 사용자의 관심사 변화 추이를 비교한 그래프이다.

요약(Summary) 방식이 라이브 스트리밍 등 장기적 맥락이 중요한 시나리오에서 가장 우수한 성능을 보임을 나타낸다. RAG는 특정 시나리오에서 오히려 성능을 저하시킬 수 있음을 보여준다.
다양한 메모리 관리 전략(Truncation, RAG, Summary)에 따른 시나리오별 성능 비교 차트이다.
기술 상세
OmniBehavior는 사용자의 프로필, 과거 행동 시퀀스, 현재 시나리오 컨텍스트를 입력으로 받아 미래 행동을 예측하는 User-conditioned Prediction Task를 정의한다. 모델은 이진 행동(클릭 등), 연속적 행동(시청 시간), 텍스트 행동(상담 대화)의 세 가지 유형을 동시에 처리해야 한다.
연구팀은 LLM 시뮬레이터의 세 가지 주요 편향을 정량화했다. 첫째, Hyper-activity 편향은 모델이 실제 인간보다 긍정적 행동 확률을 40-60% 과대평가하는 현상이다. 둘째, Utopian 편향은 정렬(Alignment) 기술로 인해 모델이 실제 사용자의 거친 언어나 불만을 제대로 모사하지 못하고 지나치게 정중한 태도를 유지하는 것이다. 셋째, Persona Homogenization은 서로 다른 사용자들의 행동 벡터가 유사한 분포로 겹치는 현상으로, 개별 사용자의 고유성이 상실됨을 의미한다.
이러한 편향은 모델이 사전 학습 과정에서 대중적인 데이터 분포에 압도되었기 때문이며, 이를 해결하기 위해 단순한 프롬프트 엔지니어링을 넘어선 구조적인 메모리 메커니즘과 개인화 학습 전략이 필요함을 강조한다.
한계점
데이터 감사 절차로 인해 전체 데이터와 평가 코드가 즉시 공개되지 않았으며, 200명의 사용자 샘플이 전체 플랫폼 사용자를 완벽히 대변하기에는 규모 면에서 한계가 있을 수 있다.
실무 활용
실제 산업 현장에서 사용자 반응을 예측하거나 추천 시스템을 평가하기 위한 고충실도 시뮬레이터 개발의 기초 자료로 활용될 수 있다.
- 이커머스 플랫폼의 새로운 추천 알고리즘 도입 전 사용자 이탈률(Churn) 시뮬레이션
- 라이브 커머스 방송의 실시간 댓글 및 구매 반응 예측 모델 훈련
- 고객 서비스 에이전트의 대응 품질 개선을 위한 가상 고객 페르소나 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.