111. 빅데이터 개요 및 활용
빅데이터 특징
빅데이터 개념 : 빅데이터는 막대한 양의 정형 및 비정형 데이터
DIKW 피라미드 : Data / Information / Knowledge / Wisdom
빅데이터 특징
3V : Volume / Variety / Velocity
5V : 3V + Veracity / Value
7V : 5V + Validity / Volatility
빅데이터 유형
정형 , 반정형 , 비정형
빅데이터 가치
경제적 자산 / 불확실성 제거 / 리스크 감소 / 스마트한 경쟁력 / 타 분야 융합
빅데이터 가치산정 어려운 이유
데이터 활용 방식의 다양화 / 새로운 가치 창출 / 분석기술의 급속한 발전
빅데이터 위기 요인
사생활 침해 / 책임 원칙 훼손 / 데이터 오용
빅데이터 통제 방안
알고리즘에 대한 접근 허용 / 책임의 강조 / 결과 기반의 책임 적용
빅데이터 조직 및 인력
업무 프로세스 : 도입 / 구축 / 운영
조직 설계 절차 (예시)
경영 전략 및 사업 전략 수립 / 전체 조직 구조 설계 / 핵심 업무 프로세스 검토 / 팀 조직 구조 설계 / 핵심 인력 선발 / 역할과 책임 할당 / 성과 측정 기준 수립 / 역량 교육 및 훈련
빅데이터 조직 구조유형
집중구조 / 기능구조 / 분산구조
데이터 사이언티스트의 요구역량
소프트 스킬 : 분석의 통찰력 / 여러 분야의 협력 능력 / 설득력 있는 전달력
하드 스킬 : 빅데이터 관련 이론적 지식 / 분석기술의 숙련도
조직성과 평가 절차
목표설정 / 모니터링 / 목표조정 / 평가실시 / 결과피드백
112. 빅데이터 기술 및 제도
빅데이터 플랫폼
수집->저장->처리->분석->시각화
빅데이터 플랫폼 구성요소
데이터 수집 : ETL / 크롤러 / EAI
데이터 저장 : RDBMS , NoSQL
데이터 분석 : SNS분석 , 예측 분석
데이터 활용 : 히스토그램 , 인포그래픽
빅데이터 플랫폼 데이터 형식
HTML / XML / CSV / JSON
빅데이터 구축 소프트웨어
R , Oozie , Flume , Hbase , Sqoob
분산컴퓨팅 환경 소프트웨어 구성요소
맵리듀스 , 얀 , 아파치 스파크 , 하둡 분산 파일 시스템 , 아파치 하둡
하둡 에코 시스템
하둡 에코 시스템의 수집 , 저장 , 처리 기술
비정형 데이터 수집 : 척화 / 플럼 / 스크라이브
정형 데이터 수집 : 스쿱 , 히호
분산 데이터 저장 : HDFS
분산 데이터 처리 : 맵리듀스
분산 데이터 베이스 : HBase
하둡 에코 시스템의 데이터 가공 , 분석 , 관리 기술
데이터 가공 : 피그 , 하이브
데이터 마이팅 : 머하웃
실시간 SQL 질의 : 임팔라
워크플로우 관리 : 우지
분산 코디네이션 : 주키퍼
빅데이터와 인공지능
인공지능의 개념
인공지능 > 기계학습 > 딥러닝
개인정보보호의 필요성
개인정보 비식별화 절차
사전검토 -> 비식별 조치 -> 적정성 평가 -> 사후관리
개인정보 비식별 조치 방법
가명처리
총계처리
데이터삭제
데이터범주화
데이터마스킹
'코딩월드 > 📘빅데이터분석기사' 카테고리의 다른 글
빅분기 2-02. 데이터 탐색 (0) | 2021.04.03 |
---|---|
빅분기 2-01. 데이터 전처리 (0) | 2021.04.02 |
빅분기 1-03. 데이터 수집 및 저장 계획 (0) | 2021.03.30 |
빅분기 1-02. 데이터 분석 계획 (0) | 2021.03.26 |
빅분기 필기 목차 (0) | 2021.03.26 |
댓글