핵심 요약
과학적 발견을 가속화하려면 실제 실험 전에 결과를 정확히 예측하는 능력이 필수적이지만, 현재 LLM은 이 분야에서 심각한 한계를 보입니다. 특히 자신의 예측이 맞을지 틀릴지 판단하는 self-awareness 능력이 인간 전문가에 비해 현저히 떨어져, 실제 연구 현장에 도입하기에는 아직 위험하다는 사실을 정량적으로 입증했습니다.
왜 중요한가
과학적 발견을 가속화하려면 실제 실험 전에 결과를 정확히 예측하는 능력이 필수적이지만, 현재 LLM은 이 분야에서 심각한 한계를 보입니다. 특히 자신의 예측이 맞을지 틀릴지 판단하는 self-awareness 능력이 인간 전문가에 비해 현저히 떨어져, 실제 연구 현장에 도입하기에는 아직 위험하다는 사실을 정량적으로 입증했습니다.
관련 Figure

Phase 2에서 LLM이 실험 결과를 예측하여 고비용의 물리적 실험(Phase 4) 이전에 유망한 가설을 필터링하는 역할을 수행하는 구조를 보여준다. 이 논문은 이러한 워크플로의 실현 가능성을 SciPredict 벤치마크로 검증하고자 한다.
LLM이 통합된 효율적인 과학 연구 워크플로 다이어그램이다.
핵심 기여
최초의 자연과학 실험 결과 예측 벤치마크 SciPredict 구축
물리, 화학, 생물학의 33개 세부 분야에서 2025년 3월 이후 발표된 최신 논문을 기반으로 한 405개의 실험 예측 과제를 데이터셋으로 구축했다.
LLM과 인간 전문가 간의 심각한 Calibration 격차 확인
인간 전문가는 자신의 확신도와 실제 정확도가 비례(5%~80%)하는 반면, LLM은 확신도와 관계없이 약 20%의 일정한 정확도를 보이며 자신의 한계를 인지하지 못함을 증명했다.
배경지식 제공 방식에 따른 성능 변화 분석
전문가가 큐레이션한 배경지식은 성능을 향상시키지만, 모델이 스스로 생성한 배경지식은 오히려 오답을 유도하거나 성능을 저하시키는 경향이 있음을 확인했다.
질문 형식에 따른 성능 민감도 입증
동일한 문제라도 객관식(MCQ) 형식이 주관식이나 수치 예측 형식보다 훨씬 높은 정확도를 기록하여, 기존 벤치마크가 모델의 실질적 능력을 과대평가할 수 있음을 보여주었다.
핵심 아이디어 이해하기
딥러닝 모델은 거대한 텍스트 코퍼스를 학습하여 단어 간의 통계적 관계를 파악하는 Embedding과 Attention Mechanism을 기반으로 동작한다. 이러한 원리는 기존 지식을 요약하거나 질문에 답하는 데는 탁월하지만, 한 번도 보지 못한 새로운 실험 조건에서 물리적 법칙을 적용해 결과를 도출하는 '예측 추론'에는 한계가 있다.
기존의 과학 벤치마크들은 주로 이미 알려진 사실을 묻는 지식 암기 위주였으나, SciPredict는 모델의 학습 데이터에 포함되지 않은 최신 실험 논문을 활용한다. 이는 모델이 단순히 기억된 정보를 인출하는 것이 아니라, 주어진 실험 설정(Experimental Setup)과 측정값(Measurements)을 바탕으로 논리적 추론을 수행해야 함을 의미한다.
실험 결과, LLM은 복잡한 인과 관계를 파악하기보다 텍스트 패턴에 의존하는 경향을 보였다. 특히 인간은 불확실한 상황에서 자신의 무지를 인지하고 낮은 확신도를 보이지만, LLM은 틀린 답을 내놓으면서도 높은 확신도를 유지하는 'False Certainty' 문제를 드러냈다. 이는 모델의 내부 확률 분포가 실제 정답의 논리적 개연성과 일치하지 않음을 시사한다.
방법론
SciPredict는 물리(9개 분야), 화학(10개 분야), 생물학(14개 분야)을 아우르는 405개의 과제로 구성된다. 모든 데이터는 2025년 3월 31일 이후 발표된 논문에서 추출되어 데이터 누출을 방지했다. 각 과제는 실험 설정, 측정 항목, 전문가가 큐레이션한 배경지식, 그리고 예측 질문으로 구조화된다.
평가 지표는 질문 형식에 따라 세 가지로 정의된다. 객관식(MCQ)은 정답 일치 여부를, 자유 형식(Free-form)은 LLM Judge가 전문가 루브릭에 따라 논리적 타당성을 평가하며, 수치 예측(Numerical)은 전문가가 설정한 오차 범위 [L, U] 내에 예측값이 포함되는지를 측정한다.
신뢰도 평가를 위해 모델에게 확신도(Confidence), 난이도(Difficulty), 예측 가능성(Feasibility)을 1~5점 척도로 답변하게 했다. 이를 실제 정확도와 비교하여 모델의 Calibration 성능을 측정했다. 또한, 배경지식의 유무와 출처(전문가 큐레이션 vs 모델 자가 생성)에 따른 5가지 실험 조건을 설정하여 정보 요구 사항을 분석했다.
주요 결과
SOTA LLM들의 실험 결과 예측 정확도는 14~26% 수준으로 나타났다. 이는 인간 전문가의 평균 정확도인 약 20%와 유사하거나 소폭 높은 수치이지만, 실제 연구를 가이드하기에는 여전히 매우 낮은 수준이다. 특히 화학 분야가 가장 낮은 성능을 보였다.
가장 심각한 발견은 Calibration 실패다. 인간 전문가는 자신이 '실험 없이 예측 가능하다'고 판단한 문제에서 80%의 정확도를 보였으나, LLM은 동일한 판단을 내린 문제에서도 약 20%의 정확도에 머물렀다. 모델은 자신의 예측이 틀릴 가능성을 전혀 인지하지 못하는 모습을 보였다.
오류 분석 결과, 실패의 80.1%는 사실 관계 오류(Factual Error)였으며, 87.4%는 논리적 추론 결함(Logical Reasoning Flaw)이었다. 특히 모델이 스스로 배경지식을 생성하게 했을 때(SBK), 전문가가 제공한 지식을 사용할 때보다 정확도가 오히려 하락하는 현상이 관찰되었다. 이는 모델이 잘못된 가정을 도입하거나 관련 없는 세부 사항에 집중하기 때문으로 분석되었다.
관련 Figure

(a) 전문가 배경지식(BK)이 성능을 높임을 보여주며, (b) 객관식 질문에서 모델 성능이 가장 높음을 입증한다. (c) 특히 인간(점선)과 달리 모델(실선)은 확신도와 정확도가 비례하지 않는 심각한 Calibration 문제를 드러낸다.
SciPredict의 주요 실험 결과를 4개의 차트로 나타낸 그림이다.

대부분의 모델에서 'Factual Contradiction'과 'Information Fabrication' 비율이 50%를 상회하며, 특히 'Unsupported Assumption' 오류가 가장 빈번하게 발생함을 보여준다. 이는 모델의 실패 원인이 단순 이해 부족이 아닌 논리적 추론과 사실 관계 파악 능력의 부재에 있음을 나타낸다.
모델별 오류 유형을 5개 카테고리와 16개 세부 항목으로 분류한 히트맵이다.
기술 상세
SciPredict는 모델의 파라미터 지식(Parametric Knowledge)과 문맥 추론 능력을 분리하여 평가하도록 설계되었다. 웹 검색을 차단한 제로샷 환경에서 15종의 최신 LLM(o3, GPT-5.2, Claude 4.5 등)을 평가했다.
모델의 오류를 5개의 상위 카테고리와 16개의 세부 유형으로 분류하는 계층적 오류 체계(Hierarchical Taxonomy)를 도입했다. 분석 결과, 모델 규모가 커질수록 단순 이해 오류는 줄어들지만, 'False Certainty'와 같은 고차원적인 신뢰도 문제는 여전히 해결되지 않음을 확인했다.
질문 형식 변환 실험(MCQ → Free-form)을 통해, 선택지가 주어질 때보다 직접 정답을 생성해야 할 때 정확도가 급격히 하락함을 정량화했다. 이는 모델이 실제 물리적 현상을 이해하기보다 선택지 간의 상대적 확률을 비교하는 방식에 의존하고 있음을 시사한다.
관련 Figure

상단 행의 모델 데이터는 지표 수준이 높아져도 정확도가 일정하게 유지되는 반면, 하단 행의 인간 데이터는 지표와 정확도가 뚜렷한 양의 상관관계를 보인다. 이는 모델이 자신의 예측 신뢰도를 평가하는 능력이 결여되어 있음을 시각적으로 증명한다.
모델과 인간의 자가 보고 지표(확신도, 난이도, 예측 가능성)와 실제 정확도 간의 상관관계를 비교한 산점도이다.
한계점
SciPredict는 자연과학 3대 분야에 집중하고 있어 공학이나 계산 과학 분야의 특성을 완전히 반영하지 못할 수 있다. 405개의 질문 규모가 작지는 않지만, 각 세부 분야의 모든 실험 패러다임을 포괄하기에는 한계가 있다. 또한 전문가가 선별한 배경지식 자체가 특정 방향으로의 편향을 유도할 가능성이 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.