본문 바로가기
AI월드/⚙️AI BOOTCAMP_Section 1

Hypothesis Test,One sample,Two sample_Day6(2)

by khalidpark 2021. 1. 5.

기술통계(Descriptive)와 추리통계(Inferential)

 

https://sciencestruck.com/descriptive-vs-inferential-statistics

1) 기술통계치

수집한 데이터를 요약 묘사 설명하는 통계 기법

예) count, mean, standard dev, min, barplot, violin plot, 등등

 

2) 추리통계치

수집한 데이터를 바탕으로 추론 예측하는 통계 기법

수집한 데이터를 기반으로 어떠한 것을 추론하고 예측하는데 사용하는 기법

 

- 샘플링

1) Simple random sampling

2) Systematic sampling

3) Straitified random sampling

4) Cluster sampling

https://rfriend.tistory.com/58

 

출처 : drhongdatanote.tistory.com/25

 

[개념 통계 06] 기술 통계와 추리 통계란 무엇인가?

안녕하세요. 홍박사입니다. 통계는 데이터를 다루는 목적에 따라 크게 두 가지로 구분할 수 있습니다. 하나는 기술 통계 (Descriptive Statistics) 그리고 다른 하나는 추리 통계 (Inferential statistics)로

drhongdatanote.tistory.com

3) Student T Test

- 서로 다른 두 집단의 차이 분석에 사용 (주어진 데이터의 평균에 대해서 가설검정)

- 조건

1) 자료는 모두 동일 간격을 가진 연속형 수치여야 한다

2) 두 집단은 서로 독립적이여야 한다

3) 자료의 수치는 정규성을 가져야 한다

4) 두 집단 각각에서 추정된 분산은 동일해야 한다

 


나만의 정리

수많은 모집단 중에서 일부를 뽑아(sampling) 계산한 평균값과 내가 예상한 특정값과의 차이를 비교

(이 과정에서 정규화를 통해 평균은 0, 표준편차는 1인 데이터에 맞추고 나서 비교한다)

 

one sample test : 샘플링의 평균값과 예상한 특정값을 비교

예) 동전을 10,000번 던졌을때 앞면이 나올 확률은 50% 일 것이다

 

two sample test : A 샘플링의 평균값과 B 샘플링의 평균값을 비교

예) 한국 남자의 20대 키와 일본 남자의 20대의 키는 같을 것이다


 

3-1) One sample test

1개의 표본(sample)값들의 평균이 특정값과 동일한지 비교

 

1)) 귀무가설(Null Hypothesis)를 설정

H0 : μ=x¯

μ = 모집단의 평균

x¯= 표본의 평균

 

2)) 대안가설(Alternative hypothesis)를 설정

H1 : μx¯

 

3)) 신뢰도를 설정(Confidence level)

신뢰구간 안에 포함될 확률 (보통 95% , 99%를 사용)

 

4)) P-Value를 확인 후 가설에 대한 결론 도출

P-value 는, 주어진 가설에 대해서 "얼마나 근거가 있는지"에 대한 값을 0과 1사이의 값으로 scale한 지표 이며

p-value가 낮다는 것은, 귀무가설(Null Hypothesis)이 틀렸을 확률이 높다.

 

 


* T-test with spicy 라이브러리 *

docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html

 

scipy.stats.ttest_1samp — SciPy v1.6.0 Reference Guide

Expected value in null hypothesis. If array_like, then it must have the same shape as a excluding the axis dimension.

docs.scipy.org


P-Value

 

P-value <0.01 : 귀무가설이 옳을 확률이 1%이하다 즉,틀렸다 (reject) (99%기준)

P-value <0.05 : 귀무가설이 옳을 확률이 5%이하다 즉,틀렸다 (reject) (95%기준)

0.05 < P-value < 0.1 : 귀무가설이 옳을 확률이 5%에서 10%사이다. 애매하다

실험을 다시한다, 데이터를 다시 뽑는다, 샘플링을 다시정의한다,

기존의 경험(인사이트)를 바탕으로 가설의 결론을 내린다

P-value > 0.1 : 귀무가설이 옳을 확률이 10% 이상이다. 즉,틀리지 않았다 (Fail to reject)


3-2) Two sample test

 

2개의 표본(sample)값들의 평균이 서로 동일한지 비교

 

1)) 귀무가설(Null Hypothesis)를 설정

H0 : x¯1 = x¯2

x¯1= 표본1의 평균

x¯2= 표본2의 평균

 

2)) 대안가설(Alternative hypothesis)를 설정

H1 : x¯1 x¯2

 

3)) 신뢰도를 설정(Confidence level)

신뢰구간 안에 포함될 확률 (보통 95% , 99%를 사용)

 

4)) P-Value를 확인 후 가설에 대한 결론 도출

 

 

 


 

One step Two step
M  =   2 tail M >   1 tail
M !=   2 tail M <   1 tail
728x90

댓글