131. 데이터 수집 및 전환
데이터 수집 프로세스
수집데이터도출 -> 목록 작성 -> 데이터 소유기관 파악 및 협의 -> 데이터 유형 분류 및 확인 -> 수집 기술 선정 -> 수집 계획서 작성 -> 수집 주기 결정 -> 데이터 수집 실행
수집데이터대상
내부데이터 (서비스, 네트워크, 마케팅)
외부데이터 (소셜, 네트워크, 공공)
정형데이터 수집 방식
ETL : Extract Transform Load
FTP : File trnasfer Protocol
API
DBToDB
Rsync (Remote Sync)
Sqoob 관계형 데이터베이스와 하둡 간 전송기술
비정형데이터 수집 방식
크롤링
RSS
Open API
스크래파이 : 파이썬 기반
아파치 카프카 : 대용량 실시간 로그 처리
반정형데이터 수집 방식
센싱
스트리밍
플럼 : 이벤트와 에이전트
스크라이브
척와
데이터 유형
수집데이터
- 구조관점 : 정형 , 반정형 , 비정형
- 시간관점 : 실시간 , 비실시간
- 저장형태 : 파일 데이터, 데이터베이스 데이터, 콘텐츠 데이터, 스트림 데이터
데이터속성
범주형 (명목형, 순서형)
수치형 (이산형, 연속형)
데이터변환
데이터 저장 전처리 절차
데이터 수집 -> 데이터 저장관리 -> 데이터 분석 -> 서비스 제공 및 이용
데이터 변환기술
평활화
집계
일반화
정규화 (최소최대정규화 , Z-스코어 정규화, 소수스케일링)
속성생성
데이터 비식별화
처리기법
가명처리 - 휴리스틱 익명화, K-익명화, 암호화, 교환방법
총계처리 - 기본 , 부분집계 , 라운딩, 데이터 재배열
데이터값 삭제 - 속성값 삭제, 속성값 부분 삭제, 데이터 행 삭제
범주화 - 기본, 랜덤 올림 방법, 범위 방법, 세분 정보 제한 방법, 제어 올림 방법
데이터 마스킹 - 임의 잡음 추가 방법 , 공백과 대체 방법
데이터 품질 검증
132. 데이터 적재 및 저장
데이터 적재 아키텍처 수립
서버 노드 아키텍처
데이터 아키텍처
네트워크 아키텍처
기반 소프트웨어
데이터 적재 도구
플루언티드, 플럼, 스크라이브, 로그스태시
데이터 저장
빅데이터 저장기술 분류
분산 파일 시스템, 데이터베이스 클러스터, NoSQL, 병렬 DBMS, 네트워크 구성 저장 시스템, 클라우드 파일 저장 시스템
빅데이터 저장기술 -NoSQL
'코딩월드 > 📘빅데이터분석기사' 카테고리의 다른 글
빅분기 2-02. 데이터 탐색 (0) | 2021.04.03 |
---|---|
빅분기 2-01. 데이터 전처리 (0) | 2021.04.02 |
빅분기 1-02. 데이터 분석 계획 (0) | 2021.03.26 |
빅분기 1-01. 빅데이터의 이해 (0) | 2021.03.26 |
빅분기 필기 목차 (0) | 2021.03.26 |
댓글