본문 바로가기
728x90

Ridge4

Cross Validation(CV)와 lambda , Regression_Day23(5) Ridge , Lasso , Elastic-Net regression을 공부하면서 lambda와 cross validation에 대한 이야기가 계속 나오고 있다 정확하게 cross validation은 어떤 의미인지 알아보기 위해 조금더 플러스로 공부해보기로 하자 BAM!!! 아래와 같이 심장질환 관련 데이터가 주어져있고(좌측) 새로운 환자 정보가 있을때 심장질환 유무를 예측한다고 하자 이제 중요한 부분은 어떤 모델을 사용할 것인가? CV는 어떤 머신이 좋을지 비교할수있도록 도와준다 주어진 데이터를 전부 train으로 쓰고 다시 test로 쓰는 방법 => 테러블 아이디어 주어진 데이터의 75%는 train으로 쓰고 , 남은 25%는 test로 모델을 검증하는 방법 => 굿 아이디어 그럼 75%는 어떻게 .. 2021. 2. 3.
Regularization,Elastic Net,엘라스틱넷,regression_Day23(4) 3번째 regression 방법 이름은 어렵지만 훨씬 쉽다고 하니 들어보자 만약 변수의 수가 엄청 많을 때는 어떻게 해야할까? 또한 각 변수가 모델에 useful 한지 아닌지를 알지 못하는 경우가 대부분인데 이럴때는 어떻게 해줘야할까? 엘라스틱넷은 이런 상황에서 사용할수있는 방법 엘라스틱넷은 라쏘와 릿지를 합친다 (포인트는 람다1,람다2 / 서로 다른 람다값을 가진다) 람다1이 0보다 크고 , 람다2가 0이면 즉 모델은 라쏘모델 람다1이 0이고 , 람다2가 0보다 크면 즉 모델은 릿지모델 람다1이 0보다 크고 , 람다2도 0보다 크면 하이브리드 모델 => 엘라스틱 넷 출처 : youtu.be/1dKRdX9bfIo 2021. 2. 3.
Regularization,Lasso ,라쏘,regression_Day23(3) 커리큘럼 상에는 Ridge regression 만 있었지만 조금만 욕심을 더 내서 Lasso 와 Elastic Net 도 한번 알아보도록 하자 Lasso Regression은 Ridge랑 매우 매우 매우 비슷하지만 아주 아주 아주 중요한 차이점이 있다고 한다 Ridge Regression : khalidpark2029.tistory.com/77 Regularization,Ridge,릿지,regression_Day23 (왼) 기존 linear regression , 여러 데이터들이 주어져있을때 , least squared (오) 왼쪽 데이터와 달리 만약 데이터가 그 중 2개만 주어졌다 가정한 뒤 , 두 점을 지나는 곡선 (New Line) (왼) 빨강선을 train.. khalidpark2029.tisto.. 2021. 2. 3.
Regularization,Ridge,릿지,regression_Day23 (왼) 기존 linear regression , 여러 데이터들이 주어져있을때 , least squared (오) 왼쪽 데이터와 달리 만약 데이터가 그 중 2개만 주어졌다 가정한 뒤 , 두 점을 지나는 곡선 (New Line) (왼) 빨강선을 training data , 녹색선을 test data라 하고 (오) training model(빨강선)은 빨간점으로부터는 squared residual = 0 하지만 녹색점으로부터는 high variance , 즉 빨강선은 녹색점의 "Over Fit" (왼,오) 빨강선을 조금 worse 하게 만들어 , variance를 줄이고 결국 model을 fit 하게 만드는 방법 (왼) 빨강선 : the sum of the squared residuals ( 0 , 0 ) +.. 2021. 2. 1.
728x90