Hugging FaceAI/ML

LLM의 과학적 추론 능력을 측정하는 새로운 벤치마크: Eleusis 게임

Hugging Face가 공개한 Eleusis 벤치마크는 카드 게임을 통해 LLM의 가설 설정, 실험 설계, 메타 인지 능력을 평가하며 모델별 '과학자 성향'을 분석한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM의 성능은 단순한 추론 능력뿐만 아니라 자신의 지식을 정확히 평가하는 '메타 인지'에 의해 결정되며, 모델마다 과잉 확신이나 과도한 신중함과 같은 고유한 성향이 존재한다.

배경

기존의 AI 벤치마크들은 고정된 증거를 바탕으로 정답을 맞히는 방식에 치중되어 있어, 실제 과학 연구의 핵심인 반복적인 가설 검증 과정을 평가하기 어렵다.

대상 독자

AI 모델의 추론 성능과 에이전트 설계에 관심 있는 개발자 및 연구자

의미 / 영향

이 벤치마크는 LLM 평가의 패러다임을 정적인 질의응답에서 동적인 문제 해결 과정으로 전환시킨다. 개발자들은 모델의 추론 능력뿐만 아니라 '성향'을 파악하여, 코딩이나 의료 진단처럼 반복적 검증이 필요한 실무 분야에 가장 적합한 모델을 선택하고 튜닝할 수 있게 된다. 특히 오픈소스 모델의 강력한 추론 성능이 확인됨에 따라 고비용 상용 API의 대안으로 활용될 가능성이 커졌다.

챕터별 상세

00:00

LLM과 과학적 방법론의 한계

LLM은 과학 연구에서 가설 생성과 데이터 분석에 널리 사용되지만, 기존 벤치마크는 과학적 방법론의 핵심인 '반복적 루프'를 제대로 테스트하지 못한다. ARC-AGI나 인간의 시험 문제와 같은 방식은 고정된 정보를 바탕으로 단일 정답을 요구하는 반면, 실제 과학은 실험을 선택하고 증거를 수집하며 가설을 수정하는 과정이다. 따라서 모델이 단순히 지식을 나열하는 것이 아니라 과학적 방법론 자체를 체득하고 있는지 평가할 새로운 기준이 필요하다.

•기존 벤치마크는 고정된 증거 기반의 단일 정답 도출에 치중함
•실제 과학은 가설 설정, 실험, 결과 분석, 가설 수정의 반복적 루프임
•LLM이 과학적 방법론을 실제로 수행할 수 있는지 측정하는 것이 핵심 과제임

01:55

Eleusis: 과학적 발견을 시뮬레이션하는 카드 게임

1950년대에 고안된 Eleusis 카드 게임은 과학적 발견 과정을 완벽하게 시뮬레이션하도록 설계되었다. 딜러는 '색상이 교차해야 함'과 같은 비밀 규칙을 정하고, 플레이어는 카드를 한 장씩 내며 딜러로부터 수락 또는 거절 피드백을 받는다. 플레이어는 이 피드백을 바탕으로 규칙을 귀납적으로 추론해야 하며, 규칙을 먼저 맞히는 사람이 승리한다. 이 과정은 자연의 법칙을 찾아내기 위해 실험을 수행하는 과학자의 활동과 논리적으로 동일하다.

•딜러의 비밀 규칙은 자연 법칙, 카드 플레이는 실험, 피드백은 실험 결과에 대응함
•플레이어는 제한된 정보 속에서 귀납적 추론을 통해 가설을 세워야 함
•규칙을 틀릴 경우 페널티가 있어 신중함과 과감함 사이의 전략적 선택이 요구됨

04:09

Eleusis 벤치마크 설계 및 평가 지표

Hugging Face는 Eleusis를 LLM 평가용 1인용 게임으로 변형하여 벤치마크를 구축했다. 모델은 12장의 카드를 가지고 최대 30턴 동안 게임을 진행하며, 매 턴마다 카드 선택, 추론 요약, 잠정적 규칙, 신뢰도(0-10), 규칙 제출 여부를 출력한다. 평가는 30점 만점에서 시작하여 턴마다 1점씩 감점하고, 오답 제출 시 2점의 추가 페널티를 부여하는 방식을 채택했다. 이를 통해 모델이 단순히 규칙을 찾는 능력뿐만 아니라 언제 정답을 제출할지 결정하는 전략적 판단력까지 측정한다.

•모델은 매 턴 추론 과정과 신뢰도를 포함한 구조화된 데이터를 출력함
•시간(턴) 소모와 오답 페널티 사이의 트레이드오프를 점수화함
•26개의 다양한 난이도를 가진 규칙 세트를 설계하여 모델의 한계를 테스트함

08:35

모델별 성능 비교 및 오픈소스 모델의 약진

16개의 주요 모델을 테스트한 결과, Gemini 3 Pro와 Claude Opus 4.5가 가장 높은 점수를 기록하며 선두를 차지했다. 주목할 점은 Kimi K2 Thinking과 GLM 4.7 같은 오픈소스 모델들이 상용 모델에 필적하는 강력한 성능을 보여주었다는 것이다. 반면 DeepSeek R1은 많은 토큰을 사용하며 깊게 생각하지만, 더 간결하게 추론하는 모델들에 비해 점수가 높지 않은 효율성 문제를 보였다. 모델마다 추론에 사용하는 토큰 수와 최종 점수 사이의 상관관계가 다양하게 나타났다.

•Gemini 3 Pro와 Claude Opus 4.5가 평균 17점대로 최상위권 기록
•Kimi K2와 GLM 4.7 등 오픈소스 모델이 상용 모델 수준의 경쟁력을 입증함
•추론 토큰 효율성 면에서 모델 간 최대 5배 이상의 차이가 발생함

11:49

추론 능력과 메타 인지의 분리 분석

순수 추론 능력과 전략적 판단력을 분리하기 위해 'No-Stakes' 점수를 도입했다. 이는 오답 페널티를 무시하고 모델이 정답 규칙을 처음 떠올린 시점을 기준으로 점수를 매기는 방식이다. 분석 결과, GPT-5.2 Pro는 순수 추론 능력에서는 1위였으나 실제 게임 점수에서는 5위에 그쳤는데, 이는 정답을 알고 있음에도 확신이 부족해 제출을 너무 늦게 했기 때문이다. 반면 일부 모델은 정답을 모르면서도 성급하게 오답을 제출하여 점수를 잃는 양상을 보였다.

•No-Stakes 점수를 통해 페널티 없는 순수 귀납 추론 능력을 측정함
•추론 능력은 뛰어나지만 신뢰도 관리에 실패해 점수가 낮은 모델들이 존재함
•메타 인지(자신이 무엇을 아는지 아는 능력)가 최종 성과에 결정적 영향을 미침

14:05

과학자 성향 분석: 신중함 vs 무모함

모델들을 신중함(Caution)과 무모함(Recklessness) 지표로 분류했을 때 뚜렷한 '과학자 성향'이 나타났다. GPT-5.2는 정답률은 97%로 매우 높지만 확신이 생길 때까지 평균 4.5턴을 더 기다리는 '과잉 신중형'으로 분류되었다. 반면 Grok이나 DeepSeek R1은 빠르게 규칙을 추측하지만 오답률이 높은 '무모한 과학자' 성향을 보였다. Gemini 3와 DeepSeek V3.2는 신중함과 과감함 사이에서 가장 균형 잡힌 전략을 구사하는 것으로 나타났다.

•과잉 신중형 모델은 자원을 낭비하고, 무모한 모델은 오답으로 신뢰를 잃음
•지능(추론)과 지혜(판단 임계값)는 서로 독립적으로 조절 가능한 요소임
•에이전트 설계 시 목적에 따라 모델의 판단 임계값을 튜닝할 필요가 있음

17:03

신뢰도 보정(Calibration)의 심각한 오류

대부분의 LLM은 자신의 정답 가능성을 실제보다 훨씬 높게 평가하는 '과잉 확신' 문제를 가지고 있다. 모델이 80% 확신한다고 보고했을 때 실제 정답률은 20%에 불과한 경우가 허다했다. 유일하게 GPT-5.2만이 비교적 정확한 신뢰도 보정 수치를 보여주었다. 흥미로운 점은 모델들이 명시적인 신뢰도 점수는 높게 부르면서도, 실제 규칙 제출은 매우 신중하게 결정하는 '행동적 신중함'을 통해 자신의 과잉 확신 문제를 스스로 상쇄하고 있다는 사실이다.

•대부분의 모델이 자신의 추론 결과에 대해 심각하게 과잉 확신함
•명시적 신뢰도 수치와 실제 제출 행동 사이의 괴리가 발생함
•행동적 임계값을 높게 설정하는 것이 모델의 과잉 확신을 막는 안전장치 역할을 함

20:40

LLM과 오캄의 면도날: 복잡성의 함정

LLM은 단순하고 우아한 규칙보다 불필요하게 복잡한 가설을 세우는 경향이 있어 '오캄의 면도날' 원칙을 위배한다. 예를 들어 '카드의 숫자가 쌍으로 반복됨'이라는 간단한 규칙을 두고도, 모델은 수트의 색상이나 특정 숫자의 합산 조건을 덕지덕지 붙인 복잡한 가설을 생성한다. 이는 모델이 관찰된 데이터에 과적합(Overfitting)되어 일반화된 원리를 찾지 못하고 지엽적인 패턴에 집착하기 때문에 발생하는 현상이다.

•모델은 실제 규칙보다 훨씬 복잡하고 구체적인 가설을 선호함
•데이터에는 부합하지만 일반화 능력이 떨어지는 가설을 생성하는 경향이 있음
•최상위 모델일수록 실제 규칙의 복잡도에 근접한 가설을 제시함

실무 Takeaway

모델의 순수 지능(추론 능력)과 지혜(메타 인지 및 판단력)는 별개의 영역이며, 후자는 포스트 트레이닝이나 프롬프팅으로 튜닝 가능하다.
Kimi K2 Thinking과 같은 최신 오픈소스 모델들이 복잡한 귀납적 추론 과제에서 상용 모델인 Claude나 GPT와 대등한 수준에 도달했다.
LLM 기반 에이전트를 구축할 때 모델이 보고하는 신뢰도 수치를 그대로 믿기보다, 행동 임계값을 높게 설정하는 것이 오류를 줄이는 실질적인 방법이다.
모델이 제시하는 가설이 지나치게 복잡할 경우 오캄의 면도날 원칙을 적용하도록 유도하여 일반화 성능을 높여야 한다.

언급된 리소스

문서Eleusis Benchmark Blog Post

GitHubEleusis Benchmark GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 03.수집 2026. 03. 03.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.