핵심 요약
대부분의 추천 벤치마크는 모델이 사용자의 행동을 얼마나 잘 모방하는지를 평가합니다. 그러나 금융 자문(Financial Advisory)에서는 시장 변동성(Market Volatility) 하에서 관찰된 행동이 노이즈가 많거나 근시안적일 수 있으며, 사용자의 장기적인 목표와 충돌할 수도 있습니다. 따라서 사용자가 선택한 것을 유일한 정답(Ground Truth)으로 취급하는 것은 행동 모방(Behavioral Imitation)과 의사결정 품질(Decision Quality)을 혼동하게 만듭니다. 우리는 행동 일치(Behavior Matching)를 넘어 대형 언어 모델(LLM)을 평가하는 주식 추천을 위한 대화형 및 시계열적 벤치마크인 Conv-FinRe를 소개합니다. 온보딩 인터뷰(Onboarding Interview), 단계별 시장 상황(Market Context), 자문 대화(Advisory Dialogues)가 주어지면 모델은 고정된 투자 기간에 대해 순위를 생성해야 합니다. 결정적으로, Conv-FinRe는 투자자별 위험 선호도(Risk Preferences)에 기반한 규범적 효용(Normative Utility)과 기술적 행동(Descriptive Behavior)을 구분하는 다각적 참조(Multi-view References)를 제공하여, LLM이 합리적인 분석(Rational Analysis)을 따르는지, 사용자의 노이즈를 모방하는지, 아니면 시장 모멘텀(Market Momentum)에 의해 구동되는지를 진단할 수 있게 합니다. 우리는 실제 시장 데이터와 인간의 의사결정 궤적을 바탕으로 벤치마크를 구축하고, 통제된 자문 대화를 구현하며, 일련의 최신 LLM들을 평가합니다. 결과는 합리적인 의사결정 품질과 행동 정렬(Behavioral Alignment) 사이의 지속적인 긴장을 드러냅니다. 효용 기반 순위에서 우수한 성능을 보이는 모델은 종종 사용자의 선택과 일치하지 않는 반면, 행동적으로 정렬된 모델은 단기 노이즈에 과적합(Overfit)될 수 있습니다. 데이터셋은 허깅페이스(Hugging Face)에 공개되었으며 코드베이스는 깃허브(GitHub)에서 사용할 수 있습니다.
핵심 기여
행동 모방과 의사결정 품질의 분리
단순한 행동 복제 대신 실제 투자 수익과 위험 선호도를 반영한 효용 지표를 도입하여 추천의 질을 평가했습니다.
Conv-FinRe 벤치마크 구축
실제 시장 데이터와 인간의 투자 궤적을 결합하고 온보딩 인터뷰부터 시계열적 시장 변화까지 포함하는 대화형 데이터셋을 제공했습니다.
다각적 참조 체계 설계
기술적 행동과 규범적 효용을 구분하여 LLM의 의사결정 편향과 합리성을 정밀하게 진단할 수 있는 구조를 설계했습니다.
방법론
Conv-FinRe는 투자자의 위험 성향을 파악하는 온보딩 인터뷰, 시간에 따른 시장 데이터, 투자자와 AI 간의 대화 기록을 입력으로 사용합니다. 모델은 특정 투자 기간 동안의 주식 순위를 예측하며, 평가는 사용자의 실제 선택과 위험 조정 수익률 기반의 효용이라는 두 가지 독립적인 축으로 수행됩니다.
주요 결과
합리적 의사결정 점수가 높은 모델은 사용자 행동 모방 점수가 낮게 나타나는 경향이 확인되었습니다. 반대로 사용자 행동에 높은 정렬도를 보이는 모델은 시장의 단기 변동성에 과적합되어 장기적인 투자 효용이 떨어지는 상충 관계가 관찰되었습니다.
시사점
금융 도메인에서 LLM을 활용할 때 사용자의 과거 데이터를 학습시키는 것이 오히려 비합리적인 투자 패턴을 복제할 위험이 존재합니다. 실무자들은 단순한 행동 복제보다는 투자자의 근본적인 위험 선호도와 시장 논리를 결합한 보상 모델 설계에 집중해야 합니다.
키워드
섹션별 상세
행동 모방과 의사결정 품질의 분리
Conv-FinRe 벤치마크 구축
다각적 참조 체계 설계
AI 요약 · 북마크 · 개인 피드 설정 — 무료