선형 회귀의 본질: 최소 제곱법, R-제곱, p-값 이해하기 | AI Trends

StatQuest (Josh Starmer)AI/ML조회 1회

선형 회귀의 본질: 최소 제곱법, R-제곱, p-값 이해하기

선형 회귀의 기본 개념부터 최소 제곱법을 이용한 모델 적합, R-제곱과 p-값을 통한 예측 정확도 평가 방법을 단계별로 다룬다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

선형 회귀는 최소 제곱법을 통해 데이터에 가장 적합한 선을 찾으며, R-제곱과 p-값을 통해 모델의 예측 성능과 통계적 유의성을 평가한다.

배경

데이터 분석의 기초인 선형 회귀 모델의 작동 원리와 평가 지표를 설명한다.

대상 독자

데이터 분석 입문자 및 머신러닝 기초를 학습하는 개발자

의미 / 영향

선형 회귀의 수학적 원리를 이해함으로써 모델의 성능 지표를 올바르게 해석하고, 데이터 기반 의사결정의 신뢰성을 확보할 수 있다. 모델의 통계적 유의성을 검증하여 과적합이나 우연한 결과에 의존하는 것을 방지한다.

챕터별 상세

09:45

예측 정확도 정량화와 잔차

데이터 포인트와 예측 선 사이의 수직 거리인 잔차(Residual)를 계산한다. 잔차를 제곱하여 합산한 Sum of Squared Residuals(SSR)는 모델의 예측 오차를 정량화하는 지표이다. SSR이 작을수록 모델이 데이터에 더 가깝게 적합됨을 의미한다.

잔차는 실제값과 예측값의 차이를 나타내며, 모델의 성능을 평가하는 기초가 된다.

14:43

최소 제곱법을 이용한 선형 적합

최소 제곱법(Least Squares)은 SSR을 최소화하는 기울기와 y절편을 찾는 과정이다. SSR을 미분하여 0이 되는 지점을 찾음으로써 최적의 선을 도출한다. 이 방법은 데이터에 가장 잘 맞는 선을 수학적으로 결정한다.

미분을 통해 SSR 함수의 최솟값을 찾는 최적화 과정이다.

17:11

R-제곱을 통한 예측 성능 평가

R-제곱은 평균을 기준으로 예측할 때 대비 선형 회귀 모델이 얼마나 오차를 줄였는지 나타내는 지표이다. SSR(mean)과 SSR(blue line)을 비교하여 계산하며, 0에서 1 사이의 값을 가진다. 1에 가까울수록 모델이 데이터의 변동성을 잘 설명함을 의미한다.

결정 계수라고도 하며, 모델의 설명력을 나타낸다.

24:29

p-값을 이용한 통계적 유의성 평가

p-값은 무작위 데이터로도 현재와 같거나 더 나은 R-제곱 값을 얻을 확률을 의미한다. 히스토그램을 통해 무작위 데이터의 R-제곱 분포를 시뮬레이션하고, 관측된 R-제곱 이상의 값이 나올 확률을 계산하여 모델의 신뢰도를 평가한다. p-값이 낮을수록 모델의 예측 성능이 우연이 아님을 시사한다.

귀무가설이 참일 때 관측된 결과가 나올 확률을 의미한다.

언급된 리소스

문서StatQuest Store

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 18.수집 2026. 05. 18.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.