본문 바로가기
AI월드/⚙️AI BOOTCAMP_Section 2

Training & Test , Bias & Variance,편향,분산_Day22(3)

by khalidpark 2021. 1. 29.

Training & Test Data

 

주어진 데이터를 train 과 test 데이터 나눈 뒤

train 데이터를 기반으로 머신러닝 모델 학습

그 후 test 데이터를 활용하여 만든 머신러닝 모델이 맞는지 확인

 

가급적이면

오래된 데이터를 train으로 쓰고 최신 데이터를 test로 쓴다고 한다

(시계열이 중요한 데이터라면)

 

출처 : youtu.be/P2NqrFp8usY


Machine Learning Fundamentals 

Bias & Variance

 

 

위와 같은 데이터 분포를 가정하고 , 파랑색은 트레이닝 , 녹색은 테스트

 

편차(bias) , 학습모델과 실제값과의 차이

 

 

분산(variance) , 

 

머신러닝을 통해

low bias and low variance

 

 

 


분산 / 편향 트레이드오프

 

복잡한 모델을 써야하는데 , 간단한 모델을 쓰는 경우 '편향에러가 증가'

필요보다 더 과도하게 복잡한 모델을 사용한 경우 '분산에러가 증가'

 

즉, 모델의 복잡도가 단순할수록 편향에러 증가 , 분산에러 감소
모델의 복잡도가 복잡할수록 편향에러 감소 , 분산에러 증가

 

편향 (bias) 와 분산 (variance)

편향은 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차이다. 
높은 편향값은 알고리즘이 데이터의 특징과 결과물과의 적절한 관계를 놓치게 만드는 과소적합(underfitting) 문제를 발생 시킨다. 

분산은 트레이닝 셋에 내재된 작은 변동(fluctuation) 때문에 발생하는 오차이다. 
높은 분산값은 큰 노이즈까지 모델링에 포함시키는 과적합(overfitting) 문제를 발생 시킨다.

출처 : ko.wikipedia.org/wiki/%ED%8E%B8%ED%96%A5-%EB%B6%84%EC%82%B0_%ED%8A%B8%EB%A0%88%EC%9D%B4%EB%93%9C%EC%98%A4%ED%94%84

 

편향-분산 트레이드오프 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 둘러보기로 가기 검색하러 가기 함수와 노이지 데이터 함수(빨간색)가 방사상 기저 함수(radial basis functions)를 사용하여 근사(approximate)된 것이다. 노이지 데이터

ko.wikipedia.org

출처 : www.opentutorials.org/module/3653/22071

 

Bias and Variance (편향과 분산) - 한 페이지 머신러닝

편향? 분산? 머신러닝과 무슨 상관인가 지도학습(Supervised Learning)에 대해서 이야기를 할 때는 사람이 정해준 정답이 있고, 컴퓨터가 그 정답을 잘 맞추는 방향으로 훈련(training)을 시킵니다.  

www.opentutorials.org

출처 : youtu.be/EuBBz3bI-aA

 

728x90

댓글