핵심 요약
현대 과학은 출판 압박과 재현성 위기로 인해 정당성을 위협받고 있으며, 특히 머신러닝과 심리학 분야에서 그 심각성이 강조된다. 저자는 이러한 위기가 현대만의 문제인지, 아니면 과학의 역사 전반에 걸쳐 존재해 온 본질적인 특성인지 질문을 던진다. 이를 증명하기 위해 통계학이 공식화되기 이전인 20세기 초 비타민 발견 과정을 사례 연구로 제시한다. 당시의 혼란스러운 데이터와 재현 불가능한 실험들 속에서도 어떻게 과학적 진실이 규명되었는지 분석하며 현대의 데이터 중심 방법론을 비판적으로 고찰한다.
배경
통계적 유의성(p-value)에 대한 기본 이해, 과학의 재현성 위기(Reproduction Crisis) 개념
대상 독자
데이터 과학자, 통계학자, 과학 철학 및 역사에 관심 있는 연구자
의미 / 영향
현대의 데이터 중심 방법론과 엄격한 통계적 유의성에 집착하는 경향이 오히려 과학적 발견의 본질을 흐릴 수 있음을 시사하며 재현성 위기를 바라보는 새로운 역사적 관점을 제공한다.
섹션별 상세
현대 과학은 출판 지상주의와 인센티브 구조로 인해 재현 불가능한 결과가 양산되는 심각한 위기에 직면해 있다. 심리학, 암 연구, 머신러닝 등 광범위한 분야에서 발표된 연구 결과의 상당수가 재현되지 않음이 밝혀지며 과학의 근본적인 정당성이 위협받는 상황이다. 이러한 현상은 정부의 과학 예산 삭감이나 대학에 대한 공격의 빌미로 사용되기도 하며, 과거에는 모든 결과가 진실이었던 황금기가 존재했을 것이라는 막연한 믿음을 낳는다.
정량적 사회과학은 상대적으로 젊은 학문으로 여겨지지만 실제로는 19세기 초 아돌프 케틀레와 같은 관료들에 의해 이미 기틀이 마련되었다. 1900년대 초에는 우드니 율이 선형 회귀를 사용하여 빈곤의 원인을 분석했으며, 1920년대에는 존 메이너드 케인즈가 사회 이해를 위한 확률론적 방법을 저술했다. 특히 1928년에 이미 교도소 재범률 예측에 머신러닝 기법이 적용되었다는 사실은 현대의 데이터 과학적 접근이 결코 새로운 것이 아님을 시사한다.
비타민의 발견은 현대적인 통계 도구와 데이터 분석 소프트웨어 없이도 인류가 자연계의 복잡한 원리를 규명할 수 있음을 보여주는 결정적인 사례이다. 당시 연구자들은 수십 년간 전 세계에서 수집된 혼란스럽고 상충하는 증거들을 조립해야 했으며, 문헌에는 수많은 잘못된 가설과 부실한 실험 프로토콜이 존재했다. 그럼에도 불구하고 명확한 통계적 가설 검정 없이도 식단과 질병의 관계에 대한 완전히 새로운 이해에 도달했다는 점은 시사하는 바가 크다.
저자는 스팀펑크 데이터 과학 에세이 시리즈를 통해 통계학의 수학적 공식화 이전 시대의 과학적 발견 과정을 추적한다. 비타민 발견 사례를 통해 재현 불가능한 혼란 자체가 과학의 핵심적인 속성일 수 있음을 논의하며, 현대의 정교한 분석 도구가 없어도 인류는 자연을 이해할 충분한 능력이 있었음을 증명하고자 한다. 이는 현대의 데이터 과학이 도구의 정교함에 매몰되어 발견의 본질적인 경로를 놓치고 있는 것은 아닌지 비판적인 시각을 제공한다.
실무 Takeaway
- 재현성 위기는 현대 과학의 고유한 결함이라기보다 과학적 탐구 과정에서 발생하는 본질적이고 역사적인 현상일 수 있다.
- 정교한 통계적 가설 검정(p-value 등)이 없던 시절에도 과학자들은 혼란스러운 데이터 속에서 비타민 발견과 같은 중대한 성과를 거두었다.
- 현대의 데이터 과학 도구와 방법론이 반드시 더 나은 과학적 발견을 보장하는 것은 아니며 데이터의 맥락을 이해하는 통찰력이 더 중요하다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료