핵심 요약
20세기 초 영양학자들은 정제된 사료를 이용한 실험을 통해 필수 영양소를 식별하고자 했다. 예일대의 멘델과 오스본은 쥐의 '정상 성장 곡선'을 베이스라인으로 설정하여 대조군 없이도 식단의 우수성을 판단하는 데이터 과학적 기법을 도입했다. 이를 통해 필수 아미노산과 비타민 A의 존재가 입증되었으며, 교차 설계(Crossover Design)와 같은 현대적 실험 설계의 기틀이 마련되었다. 이 글은 역사적 사례를 통해 데이터 과학에서 '정상' 상태를 정의하는 것이 이상 징후를 발견하는 데 얼마나 중요한지 서술한다.
배경
기본적인 통계 개념(평균, 대조군), 시계열 데이터 분석에 대한 이해
대상 독자
데이터 과학자, 실험 설계 연구자, 과학 방법론에 관심 있는 개발자
의미 / 영향
현대 데이터 과학의 뿌리가 초기 생화학 실험의 통계적 방법론에 있음을 보여준다. 특히 베이스라인 설정과 교차 설계의 중요성은 오늘날의 A/B 테스트나 모델 평가 체계에도 동일하게 적용되는 핵심 원칙이다.
섹션별 상세
이미지 분석

실험 식단의 효과를 측정하기 위한 표준 베이스라인으로 사용된 데이터이다. 이 곡선과 실험군의 성장 속도를 비교하여 식단의 영양학적 가치를 판단하는 기준이 되었다.
도널드슨이 작성한 수컷 흰쥐의 평균 정상 성장 곡선 그래프이다.

글루텐과 단백질 제거 우유 등으로 구성된 식단이 쥐의 성장을 유지하기에 불충분함을 시각적으로 증명한다. 정상 곡선(점선)과 실제 성장(실선)의 차이를 통해 식단의 결함을 드러낸다.
정제된 식단을 섭취한 쥐의 성장이 정상 곡선에 미치지 못하고 정체된 모습을 보여주는 그래프이다.

혼합 식단에서 정제 식단으로 전환했을 때 체중이 급격히 감소하는 현상을 보여준다. 단일 대상을 활용한 시계열 실험을 통해 특정 영양소의 필수성을 입증하는 방법론을 나타낸다.
식단 변경에 따른 단일 쥐의 체중 변화를 기록한 시계열 그래프이다.

18일째에 두 그룹의 식단을 교체했을 때 성장 추세가 반전되는 모습을 명확히 보여준다. 우유에 포함된 미량의 성분이 성장에 결정적인 역할을 한다는 사실을 입증하는 핵심 증거이다.
홉킨스가 수행한 우유 보충 실험의 교차 설계 결과 그래프이다.

평균값만 보여주던 원본 그래프와 달리 개별 쥐의 성장률 분포를 보여준다. 우유 섭취군과 비섭취군 사이의 데이터 중첩이 전혀 없음을 통해 실험 결과의 확실성을 강조한다.
홉킨스의 실험 데이터를 현대적인 박스 플롯으로 재구성한 시각화 자료이다.

지방이 제거된 식단에서 성장이 정체되었다가 달걀 노른자 추출물을 추가하자 다시 성장하는 과정을 나타낸다. 이 실험을 통해 비타민 A의 존재가 확인되었음을 뒷받침한다.
지방 용해 성분 추가 후 성장이 재개되는 과정을 보여주는 그래프이다.
실무 Takeaway
- 데이터 분석에서 '정상(Normal)' 상태에 대한 명확한 베이스라인이 있어야만 '이상(Abnormal)' 징후를 정확히 포착할 수 있다.
- 교차 설계(Crossover Design)는 적은 샘플 수로도 변수를 통제하고 인과 관계를 명확히 규명할 수 있는 강력한 실험 도구이다.
- 데이터 시각화 방식에 따라 데이터가 내포한 정보의 깊이와 설득력이 크게 달라질 수 있음을 인지해야 한다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료