본문 바로가기
728x90

regression9

Gradient Boost,for Regression_Day33(3) Gradient Boost 는 와 Linear Regression 은 차이가 있으니 유의하기 (classification은 다른편 . part3) Gradient Boost는 Ada Boost와 다른 점이 있다 Gradient Boost는 먼저 타겟의 평균값을 기준으로 Tree를 만든다. Ada Boost 처럼 gradient boost 또한 tree size가 제한되어 있다 Ada boost (2) , Gradinet boost (4 , 8, etc) 이제 Gradient boost 를 활용하여 예측을 진행해보겠습니다 우선 'weight'의 평균값을 구한뒤 (71.2) 타겟값에서 예측값을 뺀 (residual) 값을 구한다 출처 : youtu.be/3CC4N4z3GJc 2021. 2. 21.
Logistic Regression,Maximum Likelihood_Day24(4) Logistic regression 그래프의 y축을 log(Odd)로 바꿔 Linear regression 그래프의 모양처럼 바꾸는 작업 우선 진행 (방법 khalidpark2029.tistory.com/90) 최적의 모델을 찾기 위해서는 잔차를 활용하여 least square를 찾아야하지만 위쪽으로 무한대 , 아래쪽으로 무한대인 상황에서 잔차를 확이나기 어려움 그래서 사용하는 방법이 Maximum Likelihood 이다 가상의 직선 위 오리지널 데이터 투영 전부 투영한 y값을 가지고 p 값을 찾아 그래프화 파랑색은 obese , 빨간색은 obese가 아닌 (즉 1-파랑색) 따라서 총 likelihood는 파랑색의 likelihood * (1-파랑색의 likelihood) 모든 수를 곱해서 나온 수가 .. 2021. 2. 4.
Cross Validation(CV)와 lambda , Regression_Day23(5) Ridge , Lasso , Elastic-Net regression을 공부하면서 lambda와 cross validation에 대한 이야기가 계속 나오고 있다 정확하게 cross validation은 어떤 의미인지 알아보기 위해 조금더 플러스로 공부해보기로 하자 BAM!!! 아래와 같이 심장질환 관련 데이터가 주어져있고(좌측) 새로운 환자 정보가 있을때 심장질환 유무를 예측한다고 하자 이제 중요한 부분은 어떤 모델을 사용할 것인가? CV는 어떤 머신이 좋을지 비교할수있도록 도와준다 주어진 데이터를 전부 train으로 쓰고 다시 test로 쓰는 방법 => 테러블 아이디어 주어진 데이터의 75%는 train으로 쓰고 , 남은 25%는 test로 모델을 검증하는 방법 => 굿 아이디어 그럼 75%는 어떻게 .. 2021. 2. 3.
Regularization,Elastic Net,엘라스틱넷,regression_Day23(4) 3번째 regression 방법 이름은 어렵지만 훨씬 쉽다고 하니 들어보자 만약 변수의 수가 엄청 많을 때는 어떻게 해야할까? 또한 각 변수가 모델에 useful 한지 아닌지를 알지 못하는 경우가 대부분인데 이럴때는 어떻게 해줘야할까? 엘라스틱넷은 이런 상황에서 사용할수있는 방법 엘라스틱넷은 라쏘와 릿지를 합친다 (포인트는 람다1,람다2 / 서로 다른 람다값을 가진다) 람다1이 0보다 크고 , 람다2가 0이면 즉 모델은 라쏘모델 람다1이 0이고 , 람다2가 0보다 크면 즉 모델은 릿지모델 람다1이 0보다 크고 , 람다2도 0보다 크면 하이브리드 모델 => 엘라스틱 넷 출처 : youtu.be/1dKRdX9bfIo 2021. 2. 3.
Regularization,Lasso ,라쏘,regression_Day23(3) 커리큘럼 상에는 Ridge regression 만 있었지만 조금만 욕심을 더 내서 Lasso 와 Elastic Net 도 한번 알아보도록 하자 Lasso Regression은 Ridge랑 매우 매우 매우 비슷하지만 아주 아주 아주 중요한 차이점이 있다고 한다 Ridge Regression : khalidpark2029.tistory.com/77 Regularization,Ridge,릿지,regression_Day23 (왼) 기존 linear regression , 여러 데이터들이 주어져있을때 , least squared (오) 왼쪽 데이터와 달리 만약 데이터가 그 중 2개만 주어졌다 가정한 뒤 , 두 점을 지나는 곡선 (New Line) (왼) 빨강선을 train.. khalidpark2029.tisto.. 2021. 2. 3.
다중 회귀 분석 vs 다항 회귀 분석_Day23(2) 다중 회귀 분석 (multiple regression) ( & Simple linear regression) 다항 회귀 분석 (polynomial regression) 다중 회귀 분석은 다중의 독립변수가 있는 형태 Simple linear regression 과 Multiple linear regression 출처 : hackernoon.com/types-of-linear-regression-w4o227s5 Types of Linear Regression | Hacker Noon Linear Regression is generally classified into two types: hackernoon.com 2021. 2. 1.
Regularization,Ridge,릿지,regression_Day23 (왼) 기존 linear regression , 여러 데이터들이 주어져있을때 , least squared (오) 왼쪽 데이터와 달리 만약 데이터가 그 중 2개만 주어졌다 가정한 뒤 , 두 점을 지나는 곡선 (New Line) (왼) 빨강선을 training data , 녹색선을 test data라 하고 (오) training model(빨강선)은 빨간점으로부터는 squared residual = 0 하지만 녹색점으로부터는 high variance , 즉 빨강선은 녹색점의 "Over Fit" (왼,오) 빨강선을 조금 worse 하게 만들어 , variance를 줄이고 결국 model을 fit 하게 만드는 방법 (왼) 빨강선 : the sum of the squared residuals ( 0 , 0 ) +.. 2021. 2. 1.
R Squared 계산방법 , R 스퀘어, 결정계수_Day22 R sqaured 실제값과 평균과의 차이 ___ 양쪽을 비교 ___ 예상값과 평균과의 차이 0 < R sqaured < 1 0에 가까울수록 예측값과 실제값의 차이가 많이 벌어져있다 1에 가까울수록 예측값과 실제값의 차이가 거의 없다 출처 : youtu.be/w2FKXOa0HGA 2021. 1. 29.
Tabular Data, 분류와 회귀_Day21(2) Tabular Data 출처 : youtu.be/ILTfP3jdVKo Comparing 'Classification' and 'Regression' 정리하면 분류(Classification) : 예측하는 값이 categorical한 값 ( binary classification , multi calss classfication) 회귀(Regression) : 예측하는 값이 Continuous한 값 출처 : youtu.be/G_0W912qmGc 출처 : blog.naver.com/kbsu147/222204061461 Supervised Learning과 Unsupervised Learning 머신러닝은 크게 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learnin.. 2021. 1. 28.
728x90