kaggle의 주택 가격 데이터를 활용하여, 주택의 판매 가격을 예측한다고 하자
어떤 방법을 사용할 것인가?
1) 경험을 바탕으로 예측
2) 통계 정보를 활용하여 예측
- 평균 , 중간값 활용
- 기준모델 (Baseline Model) 과 예측모델 (Predictive Model) 활용
문제별 기준모델은 보통 다음을 기준으로 설정함
분류문제: 타겟의 최빈 클래스
회귀문제: 타겟의 평균값
시계열회귀문제: 이전 타임스탬프의 값
기준모델과 예측모델
이번 모델에서는 평균값을 기준으로 예측진행하고자 함
Mean Absolute Error(MAE, 평균절대오차) 는 예측 error 의 절대값 평균
회귀분석에서의 예측값과 잔차(residual)
예측값은 만들어진 모델이 추정하는 값이고,
잔차는 예측값과 관측값 차이
회귀선은 잔차 제곱들의 합인 RSS(residual sum of squares)를 최소화 하는 직선
RSS는 SSE(Sum of Square Error)라고도 말하며 이 값이 회귀모델의 비용함수(Cost function)
머신러닝에서는 이렇게 비용함수를 최소화 하는 모델을 찾는 과정을 학습이라고 함
[RSS] = [잔차 제곱의 합] = [관측값과 예측값의 차이의 제곱의 합] = [관측값과 회귀선(ax+b)의 차이의 제곱의 합]
잔차제곱합을 최소화하는 방법을 최소제곱회귀 혹은 Ordinary least squares(OLS)
선형회귀는 주어져 있지 않은 점의 함수값을 보간(interpolate) 예측에 도움
기존 데이터의 범위를 넘어서는 값을 예측하기 위한 외삽(extrapolate) 제공
(보간은 주어진 데이터 범위 내 존재하지 않은 함수값을 예측 , 외삽은 주어진 데이터 범위를 벗어나는 함수값을 예측)
키워드 !!!
회귀분석 , 예측값 , 잔차 , 회귀선 , RSS , SSE , 비용함수 , 학습 , 최소제곱회귀 , OLS , 보간 , 외삽
독립변수 = 예측(Predictor)변수 = 설명(Explanatory) = 특성(feature)
종속변수 = 반응(Response)변수 = 레이블(Label) = 타겟(Target)
출처 : www.kaggle.com/c/house-prices-advanced-regression-techniques/data
출처 : 코드스테이츠 강의
'AI월드 > ⚙️AI BOOTCAMP_Section 2' 카테고리의 다른 글
Training & Test , Bias & Variance,편향,분산_Day22(3) (0) | 2021.01.29 |
---|---|
Mean Square Error,평균 제곱근 편차,잔차와오차_Day22(2) (0) | 2021.01.29 |
R Squared 계산방법 , R 스퀘어, 결정계수_Day22 (0) | 2021.01.29 |
Tabular Data, 분류와 회귀_Day21(2) (0) | 2021.01.28 |
Linear Regression Analysis,선형모델 첫시간_Day21 (0) | 2021.01.28 |
댓글