본문 바로가기
AI월드/⚙️AI BOOTCAMP_Section 2

단순선형회귀,Simple Linear Regression_Day21(3)

by khalidpark 2021. 1. 28.

kaggle의 주택 가격 데이터를 활용하여, 주택의 판매 가격을 예측한다고 하자

 

어떤 방법을 사용할 것인가?
1) 경험을 바탕으로 예측

2) 통계 정보를 활용하여 예측

  - 평균 , 중간값 활용

  - 기준모델 (Baseline Model) 과 예측모델 (Predictive Model) 활용

 

문제별 기준모델은 보통 다음을 기준으로 설정함
분류문제: 타겟의 최빈 클래스
회귀문제: 타겟의 평균값
시계열회귀문제: 이전 타임스탬프의 값

기준모델과 예측모델

이번 모델에서는 평균값을 기준으로 예측진행하고자 함


Mean Absolute Error(MAE, 평균절대오차) 는 예측 error 의 절대값 평균

 


 

회귀분석에서의 예측값잔차(residual)

예측값은 만들어진 모델이 추정하는 값이고,

잔차는 예측값과 관측값 차이

회귀선은 잔차 제곱들의 합인 RSS(residual sum of squares)를 최소화 하는 직선 

RSS는 SSE(Sum of Square Error)라고도 말하며 이 값이 회귀모델의 비용함수(Cost function)

머신러닝에서는 이렇게 비용함수를 최소화 하는 모델을 찾는 과정을 학습이라고 함

 

[RSS] = [잔차 제곱의 합] = [관측값과 예측값의 차이의 제곱의 합] = [관측값과 회귀선(ax+b)의 차이의 제곱의 합]

 

잔차제곱합을 최소화하는 방법을 최소제곱회귀 혹은 Ordinary least squares(OLS)

선형회귀는 주어져 있지 않은 점의 함수값을 보간(interpolate) 예측에 도움

기존 데이터의 범위를 넘어서는 값을 예측하기 위한 외삽(extrapolate) 제공

 

(보간은 주어진 데이터 범위 내 존재하지 않은 함수값을 예측 , 외삽은 주어진 데이터 범위를 벗어나는 함수값을 예측)

 

키워드 !!!
회귀분석 , 예측값 , 잔차 , 회귀선 , RSS , SSE , 비용함수 , 학습 , 최소제곱회귀 , OLS , 보간 , 외삽

독립변수 = 예측(Predictor)변수 = 설명(Explanatory) = 특성(feature) 

종속변수 = 반응(Response)변수 = 레이블(Label) = 타겟(Target)


 

 

출처 : www.kaggle.com/c/house-prices-advanced-regression-techniques/data

 

House Prices - Advanced Regression Techniques

Predict sales prices and practice feature engineering, RFs, and gradient boosting

www.kaggle.com

출처 : 코드스테이츠 강의

728x90

댓글