SciPredict: LLM은 자연과학 실험의 결과를 예측할 수 있는가?

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

과학적 발견을 가속화하려면 실제 실험 전에 결과를 정확히 예측하는 능력이 필수적이지만, 현재 LLM은 이 분야에서 심각한 한계를 보입니다. 특히 자신의 예측이 맞을지 틀릴지 판단하는 self-awareness 능력이 인간 전문가에 비해 현저히 떨어져, 실제 연구 현장에 도입하기에는 아직 위험하다는 사실을 정량적으로 입증했습니다.

왜 중요한가

과학적 발견을 가속화하려면 실제 실험 전에 결과를 정확히 예측하는 능력이 필수적이지만, 현재 LLM은 이 분야에서 심각한 한계를 보입니다. 특히 자신의 예측이 맞을지 틀릴지 판단하는 self-awareness 능력이 인간 전문가에 비해 현저히 떨어져, 실제 연구 현장에 도입하기에는 아직 위험하다는 사실을 정량적으로 입증했습니다.

핵심 기여

최초의 자연과학 실험 결과 예측 벤치마크 SciPredict 구축

물리, 화학, 생물학의 33개 세부 분야에서 2025년 3월 이후 발표된 최신 논문을 기반으로 한 405개의 실험 예측 과제를 데이터셋으로 구축했다.

LLM과 인간 전문가 간의 심각한 Calibration 격차 확인

인간 전문가는 자신의 확신도와 실제 정확도가 비례(5%~80%)하는 반면, LLM은 확신도와 관계없이 약 20%의 일정한 정확도를 보이며 자신의 한계를 인지하지 못함을 증명했다.

배경지식 제공 방식에 따른 성능 변화 분석

전문가가 큐레이션한 배경지식은 성능을 향상시키지만, 모델이 스스로 생성한 배경지식은 오히려 오답을 유도하거나 성능을 저하시키는 경향이 있음을 확인했다.

질문 형식에 따른 성능 민감도 입증

동일한 문제라도 객관식(MCQ) 형식이 주관식이나 수치 예측 형식보다 훨씬 높은 정확도를 기록하여, 기존 벤치마크가 모델의 실질적 능력을 과대평가할 수 있음을 보여주었다.

핵심 아이디어 이해하기

딥러닝 모델은 거대한 텍스트 코퍼스를 학습하여 단어 간의 통계적 관계를 파악하는 Embedding과 Attention Mechanism을 기반으로 동작한다. 이러한 원리는 기존 지식을 요약하거나 질문에 답하는 데는 탁월하지만, 한 번도 보지 못한 새로운 실험 조건에서 물리적 법칙을 적용해 결과를 도출하는 '예측 추론'에는 한계가 있다.

기존의 과학 벤치마크들은 주로 이미 알려진 사실을 묻는 지식 암기 위주였으나, SciPredict는 모델의 학습 데이터에 포함되지 않은 최신 실험 논문을 활용한다. 이는 모델이 단순히 기억된 정보를 인출하는 것이 아니라, 주어진 실험 설정(Experimental Setup)과 측정값(Measurements)을 바탕으로 논리적 추론을 수행해야 함을 의미한다.

실험 결과, LLM은 복잡한 인과 관계를 파악하기보다 텍스트 패턴에 의존하는 경향을 보였다. 특히 인간은 불확실한 상황에서 자신의 무지를 인지하고 낮은 확신도를 보이지만, LLM은 틀린 답을 내놓으면서도 높은 확신도를 유지하는 'False Certainty' 문제를 드러냈다. 이는 모델의 내부 확률 분포가 실제 정답의 논리적 개연성과 일치하지 않음을 시사한다.

방법론

SciPredict는 물리(9개 분야), 화학(10개 분야), 생물학(14개 분야)을 아우르는 405개의 과제로 구성된다. 모든 데이터는 2025년 3월 31일 이후 발표된 논문에서 추출되어 데이터 누출을 방지했다. 각 과제는 실험 설정, 측정 항목, 전문가가 큐레이션한 배경지식, 그리고 예측 질문으로 구조화된다.

평가 지표는 질문 형식에 따라 세 가지로 정의된다. 객관식(MCQ)은 정답 일치 여부를, 자유 형식(Free-form)은 LLM Judge가 전문가 루브릭에 따라 논리적 타당성을 평가하며, 수치 예측(Numerical)은 전문가가 설정한 오차 범위 [L, U] 내에 예측값이 포함되는지를 측정한다.

신뢰도 평가를 위해 모델에게 확신도(Confidence), 난이도(Difficulty), 예측 가능성(Feasibility)을 1~5점 척도로 답변하게 했다. 이를 실제 정확도와 비교하여 모델의 Calibration 성능을 측정했다. 또한, 배경지식의 유무와 출처(전문가 큐레이션 vs 모델 자가 생성)에 따른 5가지 실험 조건을 설정하여 정보 요구 사항을 분석했다.

주요 결과

SOTA LLM들의 실험 결과 예측 정확도는 14~26% 수준으로 나타났다. 이는 인간 전문가의 평균 정확도인 약 20%와 유사하거나 소폭 높은 수치이지만, 실제 연구를 가이드하기에는 여전히 매우 낮은 수준이다. 특히 화학 분야가 가장 낮은 성능을 보였다.

가장 심각한 발견은 Calibration 실패다. 인간 전문가는 자신이 '실험 없이 예측 가능하다'고 판단한 문제에서 80%의 정확도를 보였으나, LLM은 동일한 판단을 내린 문제에서도 약 20%의 정확도에 머물렀다. 모델은 자신의 예측이 틀릴 가능성을 전혀 인지하지 못하는 모습을 보였다.

오류 분석 결과, 실패의 80.1%는 사실 관계 오류(Factual Error)였으며, 87.4%는 논리적 추론 결함(Logical Reasoning Flaw)이었다. 특히 모델이 스스로 배경지식을 생성하게 했을 때(SBK), 전문가가 제공한 지식을 사용할 때보다 정확도가 오히려 하락하는 현상이 관찰되었다. 이는 모델이 잘못된 가정을 도입하거나 관련 없는 세부 사항에 집중하기 때문으로 분석되었다.

기술 상세

SciPredict는 모델의 파라미터 지식(Parametric Knowledge)과 문맥 추론 능력을 분리하여 평가하도록 설계되었다. 웹 검색을 차단한 제로샷 환경에서 15종의 최신 LLM(o3, GPT-5.2, Claude 4.5 등)을 평가했다.

모델의 오류를 5개의 상위 카테고리와 16개의 세부 유형으로 분류하는 계층적 오류 체계(Hierarchical Taxonomy)를 도입했다. 분석 결과, 모델 규모가 커질수록 단순 이해 오류는 줄어들지만, 'False Certainty'와 같은 고차원적인 신뢰도 문제는 여전히 해결되지 않음을 확인했다.

질문 형식 변환 실험(MCQ → Free-form)을 통해, 선택지가 주어질 때보다 직접 정답을 생성해야 할 때 정확도가 급격히 하락함을 정량화했다. 이는 모델이 실제 물리적 현상을 이해하기보다 선택지 간의 상대적 확률을 비교하는 방식에 의존하고 있음을 시사한다.

한계점

SciPredict는 자연과학 3대 분야에 집중하고 있어 공학이나 계산 과학 분야의 특성을 완전히 반영하지 못할 수 있다. 405개의 질문 규모가 작지는 않지만, 각 세부 분야의 모든 실험 패러다임을 포괄하기에는 한계가 있다. 또한 전문가가 선별한 배경지식 자체가 특정 방향으로의 편향을 유도할 가능성이 존재한다.

키워드

LLM(대형 언어 모델)자연과학(Natural Sciences)실험 결과 예측(Experimental Outcome Prediction)벤치마크(Benchmark)캘리브레이션(Calibration)신뢰성(Reliability)