본문 바로가기
728x90

코딩월드/📘빅데이터분석기사12

빅분기 실기 공부방법, 시험후기, 결과 공부방법 필기보다 더 막막한 상태로 시작했다 2회이지만 사실상 1회나 다름없기 때문에, 어떤 방식으로 시험이 출제될지 명확하지 않았다. 단서는 주최측에서 공지사항에 올려준 샘플문제뿐이였다. 우선 카페를 검색해서 빅데이터분석기사 실기를 준비하는 오픈카톡방에 들어갔고, 총 3 유형을 어떻게 준비하면 좋을지 전략을 세웠다. 단답형은 사실상 실기가 아닌 필기문제이다. 주관식을 컴퓨터에 직접 기입하는 실기(?)라지만 사실상 암기내용을 물어보는 필기문제였다. 각 문제마다 배점이 높지않고, 부분점수가 없을 가능성이 높기 때문에 시험 1주일전부터 키워드 등을 중심으로 단어를 외우려 노력했다. 1유형이 사실 2유형보다 더 난이도가 높은 문제라 생각했다. 2유형은 부분점수라도 있기에 과정이 어느정도 인정될거라 생각했고, .. 2021. 7. 18.
빅분기 실기 준비 (pandas , sklearn를 외워야한다?) 2회이지만 코로나로 취소되었기때문에 실질적으로 처음인 빅분기 실기시험 빅분기 유형별 예시문제를 참고해보면 가장 황당! 한것이 모델링을 구축하는데 코드가 주어지지 않는다. 즉, 랜덤포르스트 리그레서를 사용하고 싶다면 해당 코드를 외워서 쳐야한다. from sklearn.ensemble import RandomForestRegressor 정말 말도 안되는 접근방법과 풀이라고 생각하지만 그래도 로마에 가면 로마의 법을 따라야 하기 때문에 추후에는 이부분이 꼭 개선되기를 바라면서 우선 시험을 준비해본다. 다른 무엇보다도 pandas와 sklearn 관련 코드를 일정수준 외우고 시험을 봐야만 하기때문에 전반적으로 정리해보자 (1) pandas pandas 10minutes https://github.com/kha.. 2021. 6. 9.
빅분기 필기 공부방법, 시험후기, 결과 공부방법 1차 시험이라서 족보가 없다. 즉 계산식이 많이 나올지 암기형이 나올지 이해를 묻는 질문이 나올지 알 수 없다. 보통 가장 처음에 보는 시험은 극단적일 가능성이 높다고 생각했다. 난이도가 매우 쉽거나 , 난이도가 너무 어렵거나 빅데이터 분야는 국가에서도 디지털 뉴딜의 일환으로 신경 쓰는 분야이기 때문에 첫 시험부터 너무 어렵게 내지 않을 거라 굳게 믿고 시험을 준비하였다. 암기보다는 흐름 하나하나 단어의 키워드를 외우기 보다는 전반적인 흐름을 이해하기 위해 책을 슥슥 보면서 빠르게 익숙해지는 방법으로 공부했다. 2번째로 반복할 때는 키워드만 적어보면서 흐름을 이해하기 위해 노력했다. 이해보다는 문제 빅데이터를 분석하는 수많은 방법론들이 나오는데 그 방법들의 원리를 이해하는 건 애초에 포기했다 (.. 2021. 4. 19.
빅분기 3-02. 분석 기법 적용 321. 분석기법 * 회귀 분석 단순회귀 - 최소제곱법 , 결정계수 다중회귀 다항회귀 곡선회귀 로지스틱회귀 비선형회귀 * 로지스틱 회귀분석 * 의사결정나무 * 인공신경망 * 서포트 벡터 머신 - 하드마진SVM , 소프트마진SVM * 연관성 분석 - 지지도 , 신뢰도 , 향상도 * 군집분석 - 계층적 군집 , k평균군집 , 혼합분포군집 , SOM 322. 고급분석기법 * 범주형자료분석 - 분할표 분석 , 교차분석(카이제곱분석) , 피셔의 정확검정 * 다변량 분석 - 상관분석 (피어슨상관계수 , 스피어만 상관계수) , 다차원 척도법 , 주성분분석 * 시계열 분석 * 베이지안기법 * 딥러닝분석 * 비정형데이터분석 * 앙상블분석 * 비모수통계 2021. 4. 12.
빅분기 3-01. 분석 모형 설계 311. 분석 절차 수립 통계기반 분석 모형 - 기술통계 - 상관분석 (단순상관분석, 다중상관분석, 변수간의 상관분석) - 회귀분석 (단순회귀, 다중회귀, 다항회귀, 곡선회귀, 로지스틱회귀, 비선형회귀) - 분산분석 (ANOVA) - 주성분분석 (PCA) - 판별분석 데이터마이닝기반 분석 모형 - 분류모델 (통계적기법, 트리기반기법, 최적화기법, 기계학습) - 예측모델 (회귀분석, 의사결정나무, 시계열분석, 인공신경망) - 군집화모델 (계층적 방법, 비 계층적 방법) - 연관규칙모델 머신러닝기반 분석 모형 - 지도학습 (로지스틱회귀, 인공신경망 분석, 의사결정나무, 서포트벡터머신, 랜덤포레스트, 감성분석) - 비지도학습 - 강화학습 변수에 따른 분석 모형 311. 분석 환경 구축 분석 도구 선정 - R .. 2021. 4. 9.
빅분기 2-03. 통계기법 이해 231. 기술통계 데이터요약 평균 (표본평균, 모평균, 가중평균) 중위수 (특이값영향X) 최빈값 범위 분산 (표본분산, 모분산) 표준편차 (표본의 표준펀차, 모집단의 표준편차) 평균의 표준 오차 : 표본 평균의 표본 추출 분포에 대한 표준 편차 분포 -첨도 : 첨도>0 뾰족, 첨도0 우측으로 긴 꼬리(왼쪽으로치우침) , 왜도 2021. 4. 7.
빅분기 2-02. 데이터 탐색 221. 데이터 탐색 기초 1) 데이터 탐색 개요 탐색적 데이터 분석 (EDA) 의 4가지 특징 저항성 , 잔차 해석 , 자료 재표현 , 현시성 개별변수 탐색 방법 범주형데이터(질적데이터) - 명목척도와 순위척도 수치형데이터(양적데이터) - 등간척도와 비율척도 다차원 데이터 탐색 방법 범주형-범주형 : 시각화 바플롯 수치형-수치형 : 산점도,기울기,피어슨상관계수 범주형-수치형 : 그룹화, 시각화 박스플롯 2) 상관관계 분석 변수 사이의 상관관계 종류 : 양의 상관관계 , 음의 상관관계 , 상관관계 없음 상관관계 표현방법 산점도 공분산 (양값 , 음값) 상관관계 분석 종류 변수의 종류에 따라 변수의 속성에 따라 수치적데이터 -> 피어슨 상관계수 순서적데이터 -> 스피어만 순위 상관분석 명목적데이터 -> 카.. 2021. 4. 3.
빅분기 2-01. 데이터 전처리 211. 데이터 정제 데이터 정제 절차 데이터 오류 원인 분석 -결측값 , 노이즈 , 이상값 데이터 정제 대상 선정 데이터 정제 방법 결정 -삭제, 대체, 예측값 삽입 데이터 일관성 유지 정제 기법 변환 파싱 보강 데이터 정제기술 ETL 맵리듀스 스파크/스톰 CEP 피그 플럼 데이터세분화방법 계층적 방법 = 응집분석법 , 분할분석법 비계층적 방법 = 인공신경망 모델, K-평균 군집화 데이터 결측값 처리 결측값 종류 완전 무작위 결측 , 무작위 결측 , 비 무작위 결측 데이터 결측값 처리절차 결측값 식별 , 결측값 부호화 , 결측값 대체 데이터 결측값 처리방법 단순 대치법 1)완전 분석법 2)평균 대치법 (비 조건부 평균 대치법 , 조건부 평균 대치법) 3) 단순 확률 대치법 (핫덱대체, 콜드덱대체, 혼합.. 2021. 4. 2.
빅분기 1-03. 데이터 수집 및 저장 계획 131. 데이터 수집 및 전환 데이터 수집 프로세스 수집데이터도출 -> 목록 작성 -> 데이터 소유기관 파악 및 협의 -> 데이터 유형 분류 및 확인 -> 수집 기술 선정 -> 수집 계획서 작성 -> 수집 주기 결정 -> 데이터 수집 실행 수집데이터대상 내부데이터 (서비스, 네트워크, 마케팅) 외부데이터 (소셜, 네트워크, 공공) 정형데이터 수집 방식 ETL : Extract Transform Load FTP : File trnasfer Protocol API DBToDB Rsync (Remote Sync) Sqoob 관계형 데이터베이스와 하둡 간 전송기술 비정형데이터 수집 방식 크롤링 RSS Open API 스크래파이 : 파이썬 기반 아파치 카프카 : 대용량 실시간 로그 처리 반정형데이터 수집 방식 센.. 2021. 3. 30.
빅분기 1-02. 데이터 분석 계획 121. 분석 방안 수립 분석 로드맵 설정 분석 로드맵 단계 데이터 분석체계 도입 데이터 분석 유효성 검증 데이터 분석 확산 및 고도화 분석 문제 정의 하향식 접근방식 문제탐색 , 문제 정의 , 해결방안 탐색 , 타당성검토 , 선택 상향식 접근방식 특징 비지도 학습 방법 사용 , 프로토타이핑 접근방법 대상별 분석 기획 유형 분석의 대상 (Known) + 분석의 방법 (Known) = 최적화 (Optimization) 분석의 대상 (Known) + 분석의 방법 (Unknown) = 솔루션 (Solution) 분석의 대상 (Unknown) + 분석의 방법 (Known) = 통찰 (Insight) 분석의 대상 (Unknown) + 분석의 방법 (Unknown) = 발견 (Discovery) 데이터 분석과제 추.. 2021. 3. 26.
빅분기 1-01. 빅데이터의 이해 111. 빅데이터 개요 및 활용 빅데이터 특징 빅데이터 개념 : 빅데이터는 막대한 양의 정형 및 비정형 데이터 DIKW 피라미드 : Data / Information / Knowledge / Wisdom 빅데이터 특징 3V : Volume / Variety / Velocity 5V : 3V + Veracity / Value 7V : 5V + Validity / Volatility 빅데이터 유형 정형 , 반정형 , 비정형 빅데이터 가치 경제적 자산 / 불확실성 제거 / 리스크 감소 / 스마트한 경쟁력 / 타 분야 융합 빅데이터 가치산정 어려운 이유 데이터 활용 방식의 다양화 / 새로운 가치 창출 / 분석기술의 급속한 발전 빅데이터 위기 요인 사생활 침해 / 책임 원칙 훼손 / 데이터 오용 빅데이터 통제 방.. 2021. 3. 26.
빅분기 필기 목차 1. 빅데이터 분석 기획 01. 빅데이터의 이해 111. 빅데이터 개요 및 활용 112. 빅데이터 기술 및 제도 02. 데이터 분석 계획 121. 분석 방안 수립 122. 분석 작업 계획 03. 데이터 수집 및 저장 계획 131. 데이터 수집 및 전환 132. 데이터 적재 및 저장 2. 빅데이터 탐색 01. 데이터 전처리 211. 데이터 정제 212. 분석 변수 처리 02. 데이터 탐색 221. 데이터 탐색 기초 222. 고급 데이터 탐색 03. 통계기법 이해 231. 기술통계 232. 추론통계 3. 빅데이터 모델링 01. 분석 모형 설계 311. 분석 절차 수립 312. 분석 환경 구축 02. 분석기법 적용 321. 분석기법 322. 고급 분석기법 4. 빅데이터 결과 해석 01. 분석 모형 평가 및 개.. 2021. 3. 26.
728x90