기술통계(Descriptive)와 추리통계(Inferential)
1) 기술통계치
수집한 데이터를 요약 묘사 설명하는 통계 기법
예) count, mean, standard dev, min, barplot, violin plot, 등등
2) 추리통계치
수집한 데이터를 바탕으로 추론 예측하는 통계 기법
수집한 데이터를 기반으로 어떠한 것을 추론하고 예측하는데 사용하는 기법
- 샘플링
1) Simple random sampling
2) Systematic sampling
3) Straitified random sampling
4) Cluster sampling
출처 : drhongdatanote.tistory.com/25
3) Student T Test
- 서로 다른 두 집단의 차이 분석에 사용 (주어진 데이터의 평균에 대해서 가설검정)
- 조건
1) 자료는 모두 동일 간격을 가진 연속형 수치여야 한다
2) 두 집단은 서로 독립적이여야 한다
3) 자료의 수치는 정규성을 가져야 한다
4) 두 집단 각각에서 추정된 분산은 동일해야 한다
나만의 정리
수많은 모집단 중에서 일부를 뽑아(sampling) 계산한 평균값과 내가 예상한 특정값과의 차이를 비교
(이 과정에서 정규화를 통해 평균은 0, 표준편차는 1인 데이터에 맞추고 나서 비교한다)
one sample test : 샘플링의 평균값과 예상한 특정값을 비교
예) 동전을 10,000번 던졌을때 앞면이 나올 확률은 50% 일 것이다
two sample test : A 샘플링의 평균값과 B 샘플링의 평균값을 비교
예) 한국 남자의 20대 키와 일본 남자의 20대의 키는 같을 것이다
3-1) One sample test
1개의 표본(sample)값들의 평균이 특정값과 동일한지 비교
1)) 귀무가설(Null Hypothesis)를 설정
H0 : μ=x¯
μ = 모집단의 평균
x¯= 표본의 평균
2)) 대안가설(Alternative hypothesis)를 설정
H1 : μ≠x¯
3)) 신뢰도를 설정(Confidence level)
신뢰구간 안에 포함될 확률 (보통 95% , 99%를 사용)
4)) P-Value를 확인 후 가설에 대한 결론 도출
P-value 는, 주어진 가설에 대해서 "얼마나 근거가 있는지"에 대한 값을 0과 1사이의 값으로 scale한 지표 이며
p-value가 낮다는 것은, 귀무가설(Null Hypothesis)이 틀렸을 확률이 높다.
* T-test with spicy 라이브러리 *
docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html
P-Value
P-value <0.01 : 귀무가설이 옳을 확률이 1%이하다 즉,틀렸다 (reject) (99%기준)
P-value <0.05 : 귀무가설이 옳을 확률이 5%이하다 즉,틀렸다 (reject) (95%기준)
0.05 < P-value < 0.1 : 귀무가설이 옳을 확률이 5%에서 10%사이다. 애매하다
실험을 다시한다, 데이터를 다시 뽑는다, 샘플링을 다시정의한다,
기존의 경험(인사이트)를 바탕으로 가설의 결론을 내린다
P-value > 0.1 : 귀무가설이 옳을 확률이 10% 이상이다. 즉,틀리지 않았다 (Fail to reject)
3-2) Two sample test
2개의 표본(sample)값들의 평균이 서로 동일한지 비교
1)) 귀무가설(Null Hypothesis)를 설정
H0 : x¯1 = x¯2
x¯1= 표본1의 평균
x¯2= 표본2의 평균
2)) 대안가설(Alternative hypothesis)를 설정
H1 : x¯1 ≠ x¯2
3)) 신뢰도를 설정(Confidence level)
신뢰구간 안에 포함될 확률 (보통 95% , 99%를 사용)
4)) P-Value를 확인 후 가설에 대한 결론 도출
One step | Two step |
M = 2 tail | M > 1 tail |
M != 2 tail | M < 1 tail |
'AI월드 > ⚙️AI BOOTCAMP_Section 1' 카테고리의 다른 글
Hypothesis Test,자유도,one tail,two tail,chi square _2_Day7 (0) | 2021.01.06 |
---|---|
Data Slice , loc , iloc (0) | 2021.01.05 |
Hypothesis Test,귀무,대안,T-test_Day6 (0) | 2021.01.05 |
판다스 데이터프레임에서 1줄만 잘랐을때 series가 왜 될까? (0) | 2021.01.04 |
Data Manipulation_Day3(5)_pipe & chaining (0) | 2021.01.04 |
댓글