GlassBallAI: 불확실성 하에서의 LLM 예측 행동 연구를 위한 데이터셋

핵심 요약

대형 언어 모델(LLM)의 예측 결과는 비결정적이며 사후에 그 추론 과정을 재현하기 어렵다는 문제가 있다. GlassBallAI는 이러한 문제를 해결하기 위해 Gemini 2.5 Pro를 활용하여 30개 주요 종목에 대한 약 1,100개의 주가 예측 데이터를 생성하고 그 시점의 내부 상태를 박제했다. 이 데이터셋은 단순한 가격 예측을 넘어 모델의 신뢰도 점수, 감성 신호, 그리고 인용구가 포함된 자연어 추론 근거를 포함한다. 결과적으로 금융 시장이라는 불확실한 도메인에서 LLM이 어떻게 서사를 구축하고 신뢰도를 보정하는지 연구하기 위한 기초 자료를 제공한다.

배경

Hugging Face datasets 라이브러리 사용법, JSON 데이터 구조 및 시계열 데이터 분석 이해, LLM 프롬프트 엔지니어링 및 RAG(검색 증강 생성) 기본 개념

대상 독자

LLM의 추론 메커니즘, 신뢰도 교정, 또는 금융 도메인에서의 AI 행동을 연구하는 데이터 과학자 및 AI 연구자

의미 / 영향

이 데이터셋은 LLM을 단순한 정보 요약 도구가 아닌 복잡한 의사결정 보조 도구로 활용할 때 발생할 수 있는 신뢰성 문제를 체계적으로 연구할 수 있게 합니다. 특히 금융과 같이 변동성이 큰 분야에서 모델의 내부 판단 근거를 시계열로 추적함으로써 AI의 판단 프로세스에 대한 투명성을 높이는 데 기여할 것입니다.

섹션별 상세

GlassBallAI는 2026년 1월 9일부터 2월 16일까지 Gemini 2.5 Pro 모델을 통해 생성된 약 1,100개의 주식 시장 예측 데이터를 포함한다. 반도체, 기술, 소프트웨어, 바이오테크 등 다양한 섹터의 대형주 30개를 대상으로 하며, 각 자산에 대해 하루 최대 30개의 예측을 고정된 간격으로 수행했다.

데이터셋의 핵심은 모델의 내부 결정 상태를 동결(Freeze)하여 보존하는 것이다. 각 레코드에는 수치적 가격 추정치뿐만 아니라 모델이 직접 표현한 신뢰도 수준(0~1), 감성 점수(0~1), 그리고 강세(Bull)와 약세(Bear) 케이스를 분리한 상세한 자연어 추론 근거가 포함되어 있어 사후 행동 분석이 가능하다.

Hugging Face 데이터셋 뷰어에서 GlassBallAI 데이터셋의 스키마와 샘플 데이터를 보여주는 스크린샷 — Screenshot데이터셋의 내부 구조인 _id, ticker, full_prompt, input_context 등 주요 필드와 실제 JSON 형태의 예측 데이터(AAPL, MSFT 등)를 시각적으로 보여줍니다. 특히 모델이 생성한 Bear/Bull 케이스 분석과 신뢰도 점수가 포함된 prediction 객체의 구성을 확인할 수 있어 데이터 활용 방식을 이해하는 데 도움을 줍니다.

프롬프트 설계는 비교 가능성과 일관성을 최우선으로 한다. 모든 사실적 주장에 대해 명시적인 인용을 요구하는 '근거 기반화(Grounding)'와 모델의 내부 지식을 활용하는 '역사적 합성(Historical Synthesis)' 섹션을 분리했다. 이를 통해 모델이 외부 증거와 내부 편향을 어떻게 조합하여 결론에 도달하는지 추적할 수 있다.

법적 및 데이터 라이선스 준수를 위해 실제 실현된 종가(Closing Price)나 뉴스 본문 전체는 포함하지 않는다. 대신 'Actuals' 필드를 null로 비워두고 연구자가 자신의 API 키를 사용하여 실제 데이터를 결합할 수 있는 헬퍼 스크립트(hydrate_data.py)를 제공하여 연구 재현성을 확보했다.

이 데이터셋은 LLM의 신뢰도 교정(Calibration), 환각 및 서사 분석, 프롬프트 민감도 연구 등 다양한 연구 과제를 지원한다. 특히 모델이 제시한 확신도와 실제 결과 사이의 상관관계를 분석하거나, 그럴듯하지만 근거 없는 추론을 생성하는 패턴을 파악하는 데 유용하게 활용될 수 있다.

실무 Takeaway

LLM의 예측 성능 자체보다 불확실한 상황에서 모델이 신뢰도와 감성을 어떻게 수치화하고 근거를 구축하는지 분석하는 행동 연구에 집중해야 한다.
데이터셋에 포함된 'Historical Synthesis' 섹션을 분석하여 모델이 학습 데이터에서 습득한 시장 주기나 촉매제 감쇠와 같은 내부 휴리스틱을 파악할 수 있다.
실제 시장 데이터와 결합(Hydration)하는 과정을 통해 모델의 주관적 확신도가 실제 정확도와 얼마나 일치하는지 정량적으로 평가하는 연구가 가능하다.

언급된 리소스

DemoGlassBallAI 공식 웹사이트

GitHubHugging Face GlassBallAI 데이터셋 페이지

핵심 요약

배경

Hugging Face datasets 라이브러리 사용법, JSON 데이터 구조 및 시계열 데이터 분석 이해, LLM 프롬프트 엔지니어링 및 RAG(검색 증강 생성) 기본 개념

대상 독자

LLM의 추론 메커니즘, 신뢰도 교정, 또는 금융 도메인에서의 AI 행동을 연구하는 데이터 과학자 및 AI 연구자

의미 / 영향

섹션별 상세

실무 Takeaway

LLM의 예측 성능 자체보다 불확실한 상황에서 모델이 신뢰도와 감성을 어떻게 수치화하고 근거를 구축하는지 분석하는 행동 연구에 집중해야 한다.
데이터셋에 포함된 'Historical Synthesis' 섹션을 분석하여 모델이 학습 데이터에서 습득한 시장 주기나 촉매제 감쇠와 같은 내부 휴리스틱을 파악할 수 있다.
실제 시장 데이터와 결합(Hydration)하는 과정을 통해 모델의 주관적 확신도가 실제 정확도와 얼마나 일치하는지 정량적으로 평가하는 연구가 가능하다.

언급된 리소스

DemoGlassBallAI 공식 웹사이트

GitHubHugging Face GlassBallAI 데이터셋 페이지

GlassBallAI: 불확실성 하에서의 LLM 예측 행동 연구를 위한 데이터셋

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

GlassBallAI: 불확실성 하에서의 LLM 예측 행동 연구를 위한 데이터셋

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글