221. 데이터 탐색 기초
1) 데이터 탐색 개요
탐색적 데이터 분석 (EDA) 의 4가지 특징
저항성 , 잔차 해석 , 자료 재표현 , 현시성
개별변수 탐색 방법
범주형데이터(질적데이터) - 명목척도와 순위척도
수치형데이터(양적데이터) - 등간척도와 비율척도
다차원 데이터 탐색 방법
범주형-범주형 : 시각화 바플롯
수치형-수치형 : 산점도,기울기,피어슨상관계수
범주형-수치형 : 그룹화, 시각화 박스플롯
2) 상관관계 분석
변수 사이의 상관관계 종류 : 양의 상관관계 , 음의 상관관계 , 상관관계 없음
상관관계 표현방법
산점도
공분산 (양값 , 음값)
상관관계 분석 종류
변수의 종류에 따라
변수의 속성에 따라
수치적데이터 -> 피어슨 상관계수
순서적데이터 -> 스피어만 순위 상관분석
명목적데이터 -> 카이제곱 검정(교차분석)
3) 기초통계량 추출 및 이해
중심경향성의 통계
평균
중위수(중위값) : 오름차순 정렬 후 중앙 위치 데이터값
최빈값
산포도의 통계량
범위 : (최대값 - 최솟값)
분산 : 편차의 제곱의 합 / 모분산,표본분산
표준편차 : 분산의 양의 제곱근 / 모표준편차 , 표본표준편차
변동계수(CV) : 표준편차를 표본평균으로 나눈 값 / 값이 클수록 상대적 차이 큼
사분위 수 범위 (IQR) : 자료들의 중간 50%에 포함되는 자료의 산포도 / IQR = Q3-Q1
데이터의 분포를 나타내는 통계량
왜도 (치우친정도)
왼쪽편포 : 오른쪽으로 치우져있다 / 평균 < 중위수 < 최빈값
오른쪽편포 : 왼쪽으로 치우쳐있다 / 최빈값 < 중위수 < 평균
첨도 (뾰족한정도) / 첨도>0 : 뾰족 , 첨도<0 : 평평
4) 시각적 데이터 탐색
히스토그램
막대형그래프(바플롯)
박스플롯
산점도
222. 고급 데이터 탐색
1) 시공간 데이터 탐색
시공간 데이터 탐색 절차
주소를 행정구역으로 전환
주소를 좌표계로 전환
행정구역 및 좌표계를 지도에 표시
(코로플레스 지도, 카토그램, 버블 플롯맵)
2) 다변량 데이터 탐색
다변량 데이터 탐색 도구
산점도 행렬
별그림
3)비정형 데이터 탐색
비정형데이터 (텍스트, 이미지)
반정형데이터 (XML , JSON , HTML
'코딩월드 > 📘빅데이터분석기사' 카테고리의 다른 글
빅분기 3-01. 분석 모형 설계 (0) | 2021.04.09 |
---|---|
빅분기 2-03. 통계기법 이해 (0) | 2021.04.07 |
빅분기 2-01. 데이터 전처리 (0) | 2021.04.02 |
빅분기 1-03. 데이터 수집 및 저장 계획 (0) | 2021.03.30 |
빅분기 1-02. 데이터 분석 계획 (0) | 2021.03.26 |
댓글