본문 바로가기
728x90

AI월드/⚙️AI BOOTCAMP_Section 145

Section 1 종합 회고 SECTION 1 리뷰 01 - Data preprocess , EDA , Data visualization 02 - Statistics 03 - Linear Algebra 04 - Project (게임 데이터 분석 기반 기획안 작성) 01 - KEYWORD git github - Repository , Fork , Clone , Commit , Pull Request pandas - concat , merge , pandas 조금더 능숙하게 다루기 (1) Tidy data - melt (wide->tidy) , pivot table (tidy->melt) data frame EDA Feature engineering 문자타입 type casting - Float , int , string Data Vi.. 2021. 1. 26.
피드백)게임데이터분석 및 기획안 작성 프로젝트_Day20 프로젝트1 게임데이터 분석 및 기획안 작성 관련 발표와 슬라이드에 대한 피드백 장르별 누적 매출 그래프가 직관적이지 않은 것 같은데, 통계를 잘 모르는 사람도 쉽게 이해할 수 있는 그래프로 대체한다면 더 좋을 것 같습니다 아쉬운 점을 한가지 고르자면 [분석2] 파트의 시각화가 눈에 잘 들어오지 않습니다. 장르를 몇개만 혹은 나누어서 시각화를 하고 그에 따른 간략한 설명이 들어간다면 이미 퍼펙트한 발표 영상이 더 퍼펙트해지지 않을까 하는 생각이 듭니다. 그래프로 시각화 하는 연습이 많이 부족했다 우선 좌우 변수에 어떤 value를 지정해야 하는지, 그에 따라 어떤 모양의 그래프를 그려야할지에 대한 방향이 잡히지 않았다. 그러다 보니 seaborn 갤러리와 plotly 갤러리를 쭉 보면서 고르고, 거기에 맞.. 2021. 1. 26.
프로젝트)게임데이터분석 및 기획안 작성_Day16~19 이번 1주일은 주어진 데이터를 분석하고 , 데이터에 기반한 기획안을 작성하는 프로젝트 주간. 게임 데이터 팀에 합류했다는 가정하에 주어진 데이터를 분석하여 다음 분기에 어떤 게임을 설계하면 좋을지에 대한 기획안을 작성하는 프로젝트이며 가장 중요한 핵심은 주어진 데이터를 최대한 객관적으로 분석하여 인사이트를 뽑아낸 뒤, 그 인사이트를 기반으로 의사결정을 하는 것. 그리고 그 과정을 최대한 쉽게 설명하는 것에 있다 또한 피해야 할 것으로는 보여주기 위한 의미없는 데이터 분석 ( 학교 과제가 아니다) 지나친 기술적 설명 ( 청중은 비개발자이다) 주어진 데이터는 [ 이름, 플랫폼, 출시연도, 장르, 제작회사, 북미매출액, 유럽매출액, 일본매출액, 기타지역매출액 ] (매출액=출시일기준 누적매출액) 어떤 인사이트들.. 2021. 1. 19.
student.t.distribution/스튜던트t검정_Day6(4) 여기에서 문제는 모집단의 표준편차(시그마)를 알수없다 그래서 대안으로 사용하는게 샘플의 표준편차(s) DF (Degree of Freedom)의 값이 커질수록 표준정규분포 그래프와 점점 더 유사하게 맞춰진다 신뢰도 95% 기준에서 1) 모집단의 표준편차(시그마)를 안다면 왼쪽 식을 통해 신뢰구간파악 가능 2) 모집단의 표준편차(시그마)를 모른다면 샘플의 표준편차(s)를 사용하여 95%신뢰추정구간을 추정 샘플의 수가 커질수록 (DF가 커질수록) t검정 0.025 값은 1.96 근사치로 간다 출처 : youtu.be/Uv6nGIgZMVw 2021. 1. 17.
A/B 테스트의 기본개념_Day6(3) 100명의 유저가 있다 이커머스를 운영중이고, 50%세일이벤트를 진행하려고 한다 유저에게 해당 프로모션에 대한 알림을 보내는 것이 더 높은 참여를 이끌어 낼것이라는 가정을 증명하기 위해 A : 50명, B : 50명 으로 두고 방법1) A , B 두 그룹의 크기는 같아야 한다 방법2) 총 100명을 A와 B 그룹으로 나누는 베스트 방법은 랜덤으로 구분 출처 : https://youtu.be/8uDxV5Dl7Ok 2021. 1. 17.
Multivariate Test,다변수테스트,A/B테스트와 비교_Day7(6) Goals A/B Test : Identify the best experience , isolate variables and learn influence Multivariate Test : Learn the influce of "all" elements and the best predicted winner Benefits A/B Test : Versatile and Strategic - good for 95% of tests , isolate variables, test with less traffic, get answers quickly Multivariate Test : Avoid multiple sequential a/b tests, see interaction of elements Negative.. 2021. 1. 17.
콜모고로프-스미르노브 검정_Day7(5) 1. 개요 주어진 어떤 표본분포가 이론적으로 기대되는 분포(이항분포, 정규분포)와 일치하는지의 여부를 검정하는 방법 2. 계산방식 누적관측분포와 누적이론적 분포와의 가장 큰 차이(절대값에서)부터 콜모고로프 스미르노프 값 Z 가 계산 3. 결과 해석 Z 값이 작을수록 영가설(주어진 자료의 분포는 검정하고자하는 분포를 따른다) 라는 가설을 기각하지 못하게 된다. 출처 : lucifer246.tistory.com/entry/%EC%A0%81%ED%95%A9%EB%8F%84-%EA%B2%80%EC%A0%95-kolmogorov-Smirnov-%EA%B2%80%EC%A0%95 적합도 검정 / kolmogorov Smirnov 검정 kolmogorov Smirnov 검정 (단일표본) 1. 개요 주어진 어떤 표본분포.. 2021. 1. 17.
Empirical Analysis. 경험적 분석(실증적 분석)_Day7(4) Empirical research is research using empirical evidence. It is also a way of gaining knowledge by means of direct and indirect observation or experience. Empiricism values some research more than other kinds. Empirical evidence (the record of one's direct observations or experiences) can be analyzed quantitatively or qualitatively. Quantifying the evidence or making sense of it in qualitative fo.. 2021. 1. 17.
1sample vs 2sample chisquare 코드_Day7(3) [1 sample chisquare] 목적 : 주어진 데이터가 균등 한 분포를 나타내고 있는지 확인 Expected => sum / 데이터 수 import numpy as np data = np.array([10, 11, 10, 12, 10, 11]) exp = np.sum(data) / 6 # [10.6, 10.6, 10.6, 10.6, 10.6, 10.6] chi = np.sum(np.power(data - exp, 2) / exp) # chisquare statistics = 0.3125 print(chi) print( 1 - stats.chi2.cdf(chi, df = 6 - 1)) # pvalue : 0.9974013615235537 from scipy.stats import chisquare .. 2021. 1. 17.
신뢰구간의 개념 한번더_Day8(3) 출처 : youtu.be/ae_WojQhNvs 2021. 1. 17.
선형대수와 매트릭스의 시작.기본개념_Day13(4) [ 선형변환. Linear Transformation ] 변환은 함수 f(x)라고 생각해도 된다 input 벡터가 함수 f(x)를 통해 output 벡터로 바뀌는것 ( 변환되는것) 행렬의 열들은 좌표값을 나타낸다 행렬과 벡터의 곱셈은 단지 이것을 계산하는 방법 출처 : https://youtu.be/kYB8IZa5AuE 2021. 1. 16.
클러스터, scree plot, k-means, ML_Day14(2) [ Scree plot] PCA를 시각화하는 방법 잠깐 PCA 복습 PCA (Principal Component analysis) , 주성분분석이란? 정의 : 여러 개의 반응변수로 얻어진 다변량 데이터에 대해, 분산-공분산 구조를 선형결합식으로 설명하고자 함 목적 : 차원축소 / 주성분을 통한 데이터 해석 출처 : m.blog.naver.com/hsj2864/220613527515 R - 주성분분석 주성분분석(PCA : Principal component analysis)에 대해서 정리해보겠다. 내용이 방대하다보니 요약설... blog.naver.com [ Machine Learning ] 머신러닝 - 지도학습 - 분류 , 회귀 - 비지도학습 - 클러스터링 , 차원축소 , 연관규칙학습 - 강화학습 [ C.. 2021. 1. 15.
HCA(하이어리컬, 클러스터)_Day14 출처 : youtu.be/EUQY3hL38cw 2021. 1. 15.
PCA의원리_Day13(3) PCA Principal Component Analysis 고차원의 데이터를 저차원의 데이터로 환원시키는 기법 데이터의 분산(variance)을 최대한 보존하면서 서로 직교하는 새 기저(축)를 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법 출처 : ratsgo.github.io/machine%20learning/2017/04/24/PCA/ 주성분분석(Principal Component Analysis) · ratsgo's blog 이번 글에서는 차원축소(dimensionality reduction)와 변수추출(feature extraction) 기법으로 널리 쓰이고 있는 주성분분석(Principal Component Analysis)에 대해 살펴보도록 하겠습니다. 이번 .. 2021. 1. 14.
벡터변환,고유벡터,고유값_Day13(2) (1) Vector transformation T(u+v)=T(u)+T(v) T(cu)=cT(u) 벡터변환은 매스릭스와 벡터의 곱으로 표현할수있다 고유벡터와 고유값 행렬 A는 n*n 정방행렬(square matrix) 이라는 점 Ax = λx를 만족하는 모든 상수 λ(고유값) 와 0이 아닌 모든 벡터 x (1개 ~ 최대 n 개)를 찾는 것(고유벡터) 벡터변환을 통해 벡터가 변화한다 하지만 그 변환(transformation)에 영향을 받지 않는 벡터를 고유벡터라 한다 방향은 변하지 않지만 크기는 변할수 있다 그 변화하는 크기값 (특정 스칼라 값)을 고유값이라 한다 * 고유벡터와 고유값은 항상 쌍을 이루고 있다 * 출처 : rfriend.tistory.com/181 [선형대수] 고유값(eigenvalue).. 2021. 1. 14.
eigenvector,eigenvalue,고윳값,고유벡터_Day13 Warm Up 고유벡터(아이겐벡터) : 선형 변환이 일어난 후에도 방향이 변하지 않는, 영벡터가 아닌 벡터 고윳값(아이겐벨류) : 고유 벡터의 길이가 변하는 배수 (A−λI)*v=0 이 성립하기 위해서는 A−λI = 0 또는 v = 0 괄호안에 있는 식으로부터 얻는 행렬은 역행렬을 가지지 않아야만 x=0 라는 ‘trivial solution’을 얻게되는 결과를 피할 수 있다. 따라서, 가 nontrivial solution을 가지기 위한 필요충분 조건은 det(A−λI)=0 출처 : angeloyeo.github.io/2019/07/17/eigen_vector.html 고윳값과 고유벡터 - 공돌이의 수학정리노트 angeloyeo.github.io 고유기저 출처 : youtu.be/PFDu9oVAE-g 2021. 1. 14.
공분산,상관계수,span,basis,rank_Day12(3) [지난주 복습] Variance (분산) 분산은 데이터가 얼마나 퍼져있는지 측정하는 방법 모집단의 분산 σ2 는 모집단의 PARAMETER (aspect, property, attribute, etc)이며, 샘플의 분산 s2 는 샘플의 STATISTIC (estimated attribute)입니다. 샘플 분산 s2 는 모집단 분산 σ2의 추정치 Standard Deviation (표준편차) 표준편차는 분산의 값에 (√)를 씌운 것 Covariance (공분산) 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것 Correlation coefficent (상관계수) 분산에서 스케일을 조정하기 위해 표준편차를 사용했던 것처럼, 공분산의 스케일을 조정하는 방법. 공분산을 .. 2021. 1. 13.
선형대수학을 위한 벡터 복습_Day12(2) 출처 : https://blog.naver.com/ssooj/220900799653[기하와 벡터] 기벡 개념총정리, 공식 총정리기하와 벡터 공식 정리해 둔 파일을 모두 모아두었습니다. 기존 포스팅들은 사진저장이 따로 안되니, 컴퓨...blog.naver.com 2021. 1. 13.
Linear Algebra2_Day12 Warm Up 단위벡터 (unit vector)basis vector수치를 벡터로 표현할 때, 우리는 암묵적으로 특정 기저 벡터들을 선택한 상태선형결합 (linear combination) : av + bw (a와 b는 스칼라)span : 선형결합으로 갈수있는 모든 셋 (확장공간?)(2차벡터에서 span 은 면, 선, 점(0)이 될수있다)선형종속 : 벡터값이 변해도 span의 종류?가 변하지 않는 경우 선형독립 출처 : https://youtu.be/k7RM-ot2NWY Covariance & Correlation공분산 & 상관분석 공분산Cov (X,Y) = E(( X - Mx) (Y - My))X와 Y값이 서로 positive 관계일때1) X > Mx : + + => +2) X > Mx : - - =>.. 2021. 1. 12.
선형대수 Linear Algebra_Day11 WARM UP 출처 : youtu.be/fNk_zzaMoSs Matrix Calculation - Matrix multiplication (행렬곱) - Determinant (행렬식) : 행렬을 대표하는 값으로 n x n (n은 2 이상)의 정방행렬 A에 대해 다음과 같이 정의 스칼라와 벡터 스칼라와 벡터는 선형 대수를 구성하는 기본 단위 스칼라는 크기 (속력,이동거리..) 벡터는 방향성이 있는 값 (속도,변위..) 벡터 n 차원의 벡터는 컴포넌트라 불리는 n개의 원소를 가지는 순서를 갖는 모음 (컴포넌트는 스칼라로 간주 되지 않는다) 벡터의 크기는 모든 원소의 제곱을 더한 후 루트를 씌운 값 (피타고라스의 정리를 생각하자) 벡터의 내적은 각 구성요소를 곱한 뒤 합한 값 매트릭스 매트릭스란? 행과 열을 .. 2021. 1. 12.
728x90