본문 바로가기
코딩월드/📘빅데이터분석기사

빅분기 1-01. 빅데이터의 이해

by khalidpark 2021. 3. 26.

111. 빅데이터 개요 및 활용

빅데이터 특징

빅데이터 개념 : 빅데이터는 막대한 양의 정형 및 비정형 데이터

DIKW 피라미드 : Data / Information / Knowledge / Wisdom

 

빅데이터 특징

3V : Volume / Variety / Velocity

5V : 3V + Veracity / Value

7V : 5V + Validity / Volatility

 

빅데이터 유형

정형 , 반정형 , 비정형

 

빅데이터 가치

경제적 자산 / 불확실성 제거 / 리스크 감소 / 스마트한 경쟁력 / 타 분야 융합

 

빅데이터 가치산정 어려운 이유

데이터 활용 방식의 다양화 / 새로운 가치 창출 / 분석기술의 급속한 발전

 

빅데이터 위기 요인

사생활 침해 / 책임 원칙 훼손 / 데이터 오용

 

빅데이터 통제 방안

알고리즘에 대한 접근 허용 / 책임의 강조 / 결과 기반의 책임 적용

 

빅데이터 조직 및 인력

업무 프로세스 : 도입 / 구축 / 운영

 

조직 설계 절차 (예시)

경영 전략 및 사업 전략 수립 / 전체 조직 구조 설계 / 핵심 업무 프로세스 검토 / 팀 조직 구조 설계 / 핵심 인력 선발 / 역할과 책임 할당 / 성과 측정 기준 수립 / 역량 교육 및 훈련

 

빅데이터 조직 구조유형

집중구조 / 기능구조 / 분산구조

 

데이터 사이언티스트의 요구역량

소프트 스킬 : 분석의 통찰력 / 여러 분야의 협력 능력 / 설득력 있는 전달력

하드 스킬 : 빅데이터 관련 이론적 지식 / 분석기술의 숙련도

 

조직성과 평가 절차

목표설정 / 모니터링 / 목표조정 / 평가실시 / 결과피드백


112. 빅데이터 기술 및 제도

 

빅데이터 플랫폼

수집->저장->처리->분석->시각화

 

빅데이터 플랫폼 구성요소

데이터 수집 : ETL / 크롤러 / EAI

데이터 저장 : RDBMS , NoSQL

데이터 분석 : SNS분석 , 예측 분석

데이터 활용 : 히스토그램 , 인포그래픽

 

빅데이터 플랫폼 데이터 형식

HTML / XML / CSV / JSON

 

빅데이터 구축 소프트웨어

R , Oozie , Flume , Hbase , Sqoob

분산컴퓨팅 환경 소프트웨어 구성요소

맵리듀스 , 얀 , 아파치 스파크 , 하둡 분산 파일 시스템 , 아파치 하둡

 

하둡 에코 시스템

하둡 에코 시스템의 수집 , 저장 , 처리 기술

비정형 데이터 수집 : 척화 / 플럼 / 스크라이브

정형 데이터 수집 : 스쿱 , 히호

분산 데이터 저장 : HDFS

분산 데이터 처리 : 맵리듀스

분산 데이터 베이스 : HBase

 

하둡 에코 시스템의 데이터 가공 , 분석 , 관리 기술

데이터 가공 : 피그 , 하이브

데이터 마이팅 : 머하웃

실시간 SQL 질의 : 임팔라

워크플로우 관리 : 우지

분산 코디네이션 : 주키퍼

 

빅데이터와 인공지능

인공지능의 개념

인공지능 > 기계학습 > 딥러닝

 

개인정보보호의 필요성

 

개인정보 비식별화 절차

사전검토 -> 비식별 조치 -> 적정성 평가 -> 사후관리

 

개인정보 비식별 조치 방법

가명처리

총계처리

데이터삭제

데이터범주화

데이터마스킹

 

728x90

댓글