211. 데이터 정제
데이터 정제 절차
데이터 오류 원인 분석
-결측값 , 노이즈 , 이상값
데이터 정제 대상 선정
데이터 정제 방법 결정
-삭제, 대체, 예측값 삽입
데이터 일관성 유지 정제 기법
변환
파싱
보강
데이터 정제기술
ETL
맵리듀스
스파크/스톰
CEP
피그
플럼
데이터세분화방법
계층적 방법 = 응집분석법 , 분할분석법
비계층적 방법 = 인공신경망 모델, K-평균 군집화
데이터 결측값 처리
결측값 종류
완전 무작위 결측 , 무작위 결측 , 비 무작위 결측
데이터 결측값 처리절차
결측값 식별 , 결측값 부호화 , 결측값 대체
데이터 결측값 처리방법
단순 대치법
1)완전 분석법
2)평균 대치법 (비 조건부 평균 대치법 , 조건부 평균 대치법)
3) 단순 확률 대치법 (핫덱대체, 콜드덱대체, 혼합방법)
다중 대치법
1) 대치
2) 분석
3) 결합
데이터 이상값 처리
원인
데이터 입력 오류
측정 오류
실험 오류
고의적인 이상값
표본추출 에러
데이터 이상값 검출방법
개별 데이터 관찰
통곗값 (ESD , 기하평균활용 , 사분위 수 이용 , 표준화 점수 활용 , 딕슨의 Q 검정 , 그럽스 T-검정 , 카이제곱 검정)
시각화 (확률밀도함수 , 히스토그램 , 시계열 차트)
머신러닝 기법
마할라노비스 거리 활용
LOF
IForest
데이터 이상값 처리
삭제
대체법
변환 - 로그 변환
박스플롯해석 통한 이상값 제거
분류하여 처리
212. 분석 변수 처리
변수(Feature)
변수 유형
인과관계 - 독립변수 , 종속변수
변수속성 - 범주형 (명목형 , 순서형) / 수치형 (이산형 , 연속형)
변수선택
변수선택기법
필터기법
래퍼기법 (RFE , SFS , 유전알고리즘 , 단변량 선택 , mRMR)
임베디드 기법 (라쏘 , 릿지 , 엘라스틱 넷 , SelectFrom Model)
차원축소
기법
주성분 분석(PCA)
특이값 분해
요인분석
독립성분분석
다차원 척도법
파생변수 생성
단위 변환
표현형식 변환
요약 통계량 변환
변수 결합
변수 변환
단순기능변환 (로그, 제곱 세제곱 루트 변환)
비닝
정규화
표준화
불균형 데이터 처리
언더샘플링 (랜덤언더샘플링, ENN, 토멕링크방법, CNN, OSS)
오버샘플링 (랜덤오버샘플링, SMOTE, Borderline-SMOTE, ADASYN)
임곗값 이동
앙상블기법
'코딩월드 > 📘빅데이터분석기사' 카테고리의 다른 글
빅분기 2-03. 통계기법 이해 (0) | 2021.04.07 |
---|---|
빅분기 2-02. 데이터 탐색 (0) | 2021.04.03 |
빅분기 1-03. 데이터 수집 및 저장 계획 (0) | 2021.03.30 |
빅분기 1-02. 데이터 분석 계획 (0) | 2021.03.26 |
빅분기 1-01. 빅데이터의 이해 (0) | 2021.03.26 |
댓글