본문 바로가기
코딩월드/📘빅데이터분석기사

빅분기 2-02. 데이터 탐색

by khalidpark 2021. 4. 3.

221. 데이터 탐색 기초

 

1) 데이터 탐색 개요

탐색적 데이터 분석 (EDA) 의 4가지 특징

저항성 , 잔차 해석 , 자료 재표현 , 현시성

 

개별변수 탐색 방법

범주형데이터(질적데이터) - 명목척도와 순위척도

수치형데이터(양적데이터) - 등간척도와 비율척도

 

다차원 데이터 탐색 방법

범주형-범주형 : 시각화 바플롯

수치형-수치형 : 산점도,기울기,피어슨상관계수

범주형-수치형 : 그룹화, 시각화 박스플롯

 

2) 상관관계 분석

변수 사이의 상관관계 종류 : 양의 상관관계 , 음의 상관관계 , 상관관계 없음

 

상관관계 표현방법

산점도

공분산 (양값 , 음값)

 

상관관계 분석 종류

변수의 종류에 따라

변수의 속성에 따라

  수치적데이터 -> 피어슨 상관계수

  순서적데이터 -> 스피어만 순위 상관분석

  명목적데이터 -> 카이제곱 검정(교차분석)

 

3) 기초통계량 추출 및 이해

중심경향성의 통계

평균

중위수(중위값) : 오름차순 정렬 후 중앙 위치 데이터값

최빈값

 

산포도의 통계량

범위 : (최대값 - 최솟값)

분산 : 편차의 제곱의 합 / 모분산,표본분산

표준편차 : 분산의 양의 제곱근 / 모표준편차 , 표본표준편차

변동계수(CV) : 표준편차를 표본평균으로 나눈 값 / 값이 클수록 상대적 차이 큼

사분위 수 범위 (IQR) : 자료들의 중간 50%에 포함되는 자료의 산포도 / IQR = Q3-Q1

 

데이터의 분포를 나타내는 통계량

왜도 (치우친정도)

  왼쪽편포 : 오른쪽으로 치우져있다 / 평균 < 중위수 < 최빈값

  오른쪽편포 : 왼쪽으로 치우쳐있다 / 최빈값 < 중위수 < 평균

첨도 (뾰족한정도) / 첨도>0 : 뾰족 , 첨도<0 : 평평

 

4) 시각적 데이터 탐색

히스토그램

막대형그래프(바플롯)

박스플롯

산점도

 

 

222. 고급 데이터 탐색

 

1) 시공간 데이터 탐색

시공간 데이터 탐색 절차

주소를 행정구역으로 전환

주소를 좌표계로 전환

행정구역 및 좌표계를 지도에 표시

(코로플레스 지도, 카토그램, 버블 플롯맵)

 

2) 다변량 데이터 탐색

다변량 데이터 탐색 도구

산점도 행렬

별그림

 

3)비정형 데이터 탐색

비정형데이터 (텍스트, 이미지)

반정형데이터 (XML , JSON , HTML

 

728x90

댓글