본문 바로가기
코딩월드/📘빅데이터분석기사

빅분기 2-01. 데이터 전처리

by khalidpark 2021. 4. 2.

211. 데이터 정제

 

데이터 정제 절차

데이터 오류 원인 분석

-결측값 , 노이즈 , 이상값

데이터 정제 대상 선정

데이터 정제 방법 결정

-삭제, 대체, 예측값 삽입

 

데이터 일관성 유지 정제 기법

변환

파싱

보강

 

데이터 정제기술

ETL

맵리듀스

스파크/스톰

CEP

피그

플럼

 

데이터세분화방법

계층적 방법 = 응집분석법 , 분할분석법

비계층적 방법 = 인공신경망 모델, K-평균 군집화

 

데이터 결측값 처리

결측값 종류

완전 무작위 결측 , 무작위 결측 , 비 무작위 결측

 

데이터 결측값 처리절차

결측값 식별 , 결측값 부호화 , 결측값 대체

 

데이터 결측값 처리방법

단순 대치법

  1)완전 분석법

  2)평균 대치법 (비 조건부 평균 대치법 , 조건부 평균 대치법)

  3) 단순 확률 대치법 (핫덱대체, 콜드덱대체, 혼합방법)

다중 대치법

  1) 대치

  2) 분석

  3) 결합

 

데이터 이상값 처리

원인

데이터 입력 오류

측정 오류

실험 오류

고의적인 이상값

표본추출 에러

 

데이터 이상값 검출방법

개별 데이터 관찰

통곗값 (ESD , 기하평균활용 , 사분위 수 이용 , 표준화 점수 활용 , 딕슨의 Q 검정 , 그럽스 T-검정 , 카이제곱 검정)

시각화 (확률밀도함수 , 히스토그램 , 시계열 차트)

머신러닝 기법

마할라노비스 거리 활용

LOF

IForest

 

데이터 이상값 처리

삭제

대체법

변환 - 로그 변환

박스플롯해석 통한 이상값 제거

분류하여 처리

 

212. 분석 변수 처리

 

변수(Feature)

변수 유형

인과관계 - 독립변수 , 종속변수

변수속성 - 범주형 (명목형 , 순서형) / 수치형 (이산형 , 연속형)

 

변수선택

변수선택기법

필터기법

래퍼기법 (RFE , SFS , 유전알고리즘 , 단변량 선택 , mRMR)

임베디드 기법 (라쏘 , 릿지 , 엘라스틱 넷 , SelectFrom Model)

 

차원축소

기법

주성분 분석(PCA)

특이값 분해

요인분석

독립성분분석

다차원 척도법

 

파생변수 생성

단위 변환

표현형식 변환

요약 통계량 변환

변수 결합

 

변수 변환

단순기능변환 (로그, 제곱 세제곱 루트 변환)

비닝

정규화

표준화

 

불균형 데이터 처리

언더샘플링 (랜덤언더샘플링, ENN, 토멕링크방법, CNN, OSS)

오버샘플링 (랜덤오버샘플링, SMOTE, Borderline-SMOTE, ADASYN)

임곗값 이동

앙상블기법

 

728x90

댓글