핵심 요약
기존의 과학 벤치마크는 이미 출판된 연구 데이터에 의존하여 모델의 사전 지식 편향이나 정답 유출 문제에서 자유롭지 못했습니다. 이 논문은 무한한 수의 가상 과학 프로젝트를 생성하여 모델이 외부 지식 없이 오직 주어진 데이터만으로 추론하고, 정보가 부족할 때 적절히 거절할 수 있는지 평가하는 새로운 기준을 제시합니다.
왜 중요한가
기존의 과학 벤치마크는 이미 출판된 연구 데이터에 의존하여 모델의 사전 지식 편향이나 정답 유출 문제에서 자유롭지 못했습니다. 이 논문은 무한한 수의 가상 과학 프로젝트를 생성하여 모델이 외부 지식 없이 오직 주어진 데이터만으로 추론하고, 정보가 부족할 때 적절히 거절할 수 있는지 평가하는 새로운 기준을 제시합니다.
핵심 기여
절차적 과학 저장소 시뮬레이터 개발
랜덤 시드를 기반으로 디렉토리 구조, 메타데이터, 수치 데이터를 포함한 자기 완결형 과학 프로젝트 저장소를 결정론적으로 생성하는 시스템을 구축했다.
검증 가능한 QA 생성기 및 파라프레이즈 모듈
시뮬레이터의 내부 데이터 생성 프로세스에 접근하여 정답이 확실한 질문과 데이터 부족으로 답할 수 없는 질문을 자동으로 생성하고, 이를 자연어로 변환하는 파이프라인을 제안했다.
LLM의 도구 사용 효율성 분석
성능이 우수한 모델일수록 단순히 많은 토큰을 소비하기보다 코드 인터프리터 등의 도구를 전략적으로 활용하여 데이터를 분석하는 경향이 있음을 실험적으로 입증했다.
핵심 아이디어 이해하기
기존 LLM 평가는 학습 데이터에 포함되었을 법한 기성 지식을 묻는 경우가 많아, 모델이 실제로 데이터를 '이해'하는지 아니면 '기억'해내는지 구분하기 어렵다. 특히 과학 분야에서는 실험 결과가 없거나 변수가 누락되어 '답을 낼 수 없는 상황'을 인지하는 것이 매우 중요하지만, 기존 벤치마크는 정답이 있는 데이터 위주로 구성되어 모델의 과잉 확신을 부추기는 경향이 있다.
InfiniteScienceGym은 이 문제를 해결하기 위해 '세상에 존재하지 않는 과학 실험'을 실시간으로 만들어낸다. 딥러닝의 Embedding 공간에서 유사한 지식을 찾는 대신, 모델이 낯선 파일 시스템을 탐색하고 테이블 데이터를 직접 연산하도록 강제한다. 이는 모델이 가진 Parametric Knowledge와 실제 데이터 기반의 Evidence-grounded Reasoning을 분리하여 평가할 수 있게 한다.
결과적으로 모델은 단순히 다음 토큰을 예측하는 수준을 넘어, 주어진 파일들 사이의 관계를 파악하고 통계적 유의성을 계산하며 정보가 부족할 때는 '알 수 없음'을 선언해야 한다. 이는 LLM이 진정한 의미의 과학적 보조 도구로 거듭나기 위해 필요한 핵심 능력을 정밀하게 측정하는 장치가 된다.
방법론
시뮬레이터는 계층적 분류 체계에서 과학 분야를 샘플링한 후, LLM을 사용하여 프로젝트 제목, 가설, 변수 정의를 포함한 명세서를 생성한다. 이후 명세서에 정의된 독립 변수와 종속 변수의 관계를 Python 함수 형태로 정의하고, 이를 바탕으로 실제 수치 데이터를 생성하여 CSV나 JSONL 등 다양한 형식의 파일로 저장소에 배치한다.
QA 생성기는 시뮬레이터의 내부 변수 관계에 직접 접근하는 Privileged Access 방식을 취한다. [필터링 조건 입력 → 데이터 생성 로직 역추적 → 통계량 계산 → 정답 도출] 과정을 거쳐 정답을 생성하며, 만약 필터링 결과가 비어있거나 변수가 누락된 경우 'not possible'을 정답으로 설정하여 모델의 Abstention 능력을 테스트한다.
평가 시에는 GPT-5.4, Claude Opus 4.6 등 주요 모델에 Model Context Protocol(MCP)을 통해 파일 읽기 및 Python 코드 실행 도구를 제공한다. 모델이 질문을 받으면 [저장소 탐색 → 관련 파일 식별 → 분석 코드 작성 및 실행 → 최종 답변 도출]의 단계를 거치도록 설계된 에이전트 환경에서 성능을 측정한다.
관련 Figure

과학적 맥락 설정부터 프로젝트 명세, 디렉토리 구조, 개별 파일 내 변수 생성까지 이어지는 하향식(Top-down) 생성 과정을 설명한다. LLM이 생성하는 부분과 샘플링되는 부분을 구분하여 시스템의 제어 가능성을 보여준다.
InfiniteScienceGym의 데이터 저장소 생성 프로세스를 보여주는 다이어그램
주요 결과
평가 대상이 된 모든 모델 중 어느 것도 45% 이상의 정확도를 기록하지 못했다. 특히 답변 불가능한 질문을 식별하는 능력에서 오픈 소스 모델들은 매우 낮은 재현율(Recall)을 보였으며, 정보가 없음에도 불구하고 추측하여 답변하는 '과잉 확신' 문제가 심각하게 나타났다.
가장 우수한 성능을 보인 GPT-5.4는 약 44.8%의 정확도를 기록했으며, 흥미롭게도 성능이 좋은 모델일수록 질문당 사용하는 토큰 수는 적고 도구 호출(Tool Call) 횟수는 많았다. 이는 효율적인 모델이 대량의 데이터를 컨텍스트 윈도우에 직접 로드하기보다, 필요한 부분만 코드로 계산하여 처리함을 의미한다.
질문 유형별로는 단순 메타데이터 확인(70% 이상)에 비해 여러 파일을 가로지르는 통계 분석이나 조건부 데이터 추출이 포함된 질문에서 성능이 급격히 하락하는 양상을 보였다.
관련 Figure

GPT-5.4가 가장 높은 정확도를 보이지만 여전히 50% 미만임을 보여준다. 오른쪽 산점도에서는 상용 모델(GPT, Claude)이 오픈 소스 모델보다 답변 거부 능력(Precision/Recall)에서 압도적으로 우수함을 시각화한다.
모델별 전체 정확도와 답변 불가능한 질문 탐지 성능 비교 차트

단순 메타데이터 확인은 모든 모델이 잘 수행하지만, 통계적 추론이나 복잡한 디렉토리 탐색이 필요한 영역에서는 상용 모델과 오픈 소스 모델 간의 성능 격차가 크게 벌어짐을 확인할 수 있다.
질문 카테고리별 모델 성능 분포 그래프

단순히 많은 토큰을 사용하는 것이 성능 향상으로 이어지지 않으며, 오히려 도구를 많이 호출하여 데이터를 능동적으로 분석하는 모델이 더 높은 정확도를 달성함을 보여준다.
토큰 사용량 및 도구 호출 횟수와 정확도 간의 상관관계 분석
기술 상세
InfiniteScienceGym 아키텍처는 시드 기반의 결정론적 생성을 보장하여 재현성을 확보했다. 데이터 생성 시 Python의 math 및 datetime 라이브러리를 활용한 복잡한 종속 변수 함수를 LLM이 직접 작성하게 함으로써, 단순 선형 관계가 아닌 현실적인 노이즈와 비선형성이 포함된 데이터셋을 구축한다.
모델 평가에는 ReAct 프레임워크와 MCP 서버를 결합하여 사용했다. 제공된 도구에는 list_directory, read_text_file, run_python_code 등이 포함되며, 특히 run_python_code는 512MB의 메모리 제한과 60초의 시간 제한을 두어 효율적인 알고리즘 작성을 유도한다. 평가는 정답의 유형(범주형, 정수형, 연속형)에 따라 완전 일치 또는 유효 숫자를 고려한 근사치 일치 여부를 판정한다.
한계점
현재 벤치마크는 표 형식의 수치 데이터에 집중되어 있어 이미지, 비디오, 오디오 등 멀티모달 과학 데이터 분석 능력은 평가하지 못한다. 또한 절차적 생성 방식이 가진 특유의 패턴을 모델이 학습하여 악용할 가능성이 존재한다.
실무 활용
과학적 데이터 분석 에이전트의 신뢰성을 검증하고, 모델이 데이터에 근거하지 않은 답변을 내놓는 환각 현상을 억제하는 훈련 도구로 활용될 수 있다.
- AI 과학 보조 도구의 데이터 분석 및 통계 추론 능력 벤치마킹
- LLM 에이전트의 도구 사용(Tool Use) 및 코드 인터프리터 활용 전략 최적화
- 데이터 부재 상황에서 모델이 답변을 거부하도록 유도하는 정렬(Alignment) 학습 데이터 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.