추리통계의 핵심은 통계적 가설 검정이며, 이를 이해하기 위해서는 표집이론에 대한 이해가 필수이다.
표집분포의 이해
I. 표집(sampling)
통계학에서 표집이란 모집단으로부터 표본을 추출하는 과정이다.
전체 모집단을 모두 측정, 분석한다는 것은 현실적으로 가능하지 않기 때문에 표본을 추출하고 그에 기반하여
모집단에 대한 추리, 추론을 하려는 것이다.
II. 모집단의 분포
모집단분포란 연구대상이 되는 전체의 속성을 나타내는 분포이다.
모집단의 분포가 정규분포를 따른다면, 모수인 μ와 σ²(또는 σ)에 의하여 다음과 같이 그려진다.
III. 표본의 분포
모집단은 기본적으로 매우 크다고 가정하기 때문에 모집단의 속성을 파악하기는 쉽지 않다.
모집단의 속성을 알기 위하여, 모집단을 대표하는 표본을 추출하여 표본의 속성으로 모집단의 속성을 추리(추론)한다.
모집단의 속성은 그리스 문자를 이용해 표기하고 모수(parameter)라고 하며,
표본의 속성은 알파벳을 이용해 표기하며 통계치(statistic) 또는 추정치(estimate, estimator)라고 한다.
표본을 잘 추출하면, 표본의 분포는 모집단의 분포와 대체로 비슷한 형태, 비슷하나 평균, 비슷한 표준편차를 가지게 된다. 더불어 표본크기를 키워 나가면 표본의 분포는 모집단의 분포에 점점 더 가까워진다.
IV. 표집분포(sampling distribution)
모집단분포와 표본분포는 실제적으로 얻어질 수도 있는 분포인데 비해 표집분포(sampling distribution)는
가상적 분포이며, 추리통계를 위한 매우 중요한 요소로 이론적 분포(theoretical distribution)라 한다.
이론적으로 같은 모집단에서 크기가 n인 표본을 무한히 복원추출하고, 추출할 때마다 어떤 통계치를 계산하였을 때,
그 무한개의 표본의 통계치(또는 추정치)로 그린 분포
하나의 모집단에서 여러 샘플을 뽑을 수 있고 각각의 샘플링에서 평균을 내어, 샘플들의 분포를 만들 수 있다.
이런 분포를 ‘샘플링 분포’라고 한다. 이 샘플링 과정을 무한히 하면 우리가 평소에 보는 그래프처럼 자연스러운 분포를 만들 수 있다.
이때 주의할 게 3가지가 있다.
- 샘플 분포는 ‘표본 분포’를 말하며 샘플링 분포(표집 분포)와는 다르다는 것이다. 표본 분포는 모집단에서 추출한 한 샘플의 분포를 말하는 것이고, 표집 분포는 여러 개 샘플들을 뽑아, 각 샘플의 평균에 대한 분포를 그린 것을 말한다.
- 표집 분포에서 각각의 포인트는 ‘값이 아니라 평균’이라는 것이다.
- 표집 분포의 표준편차는 표집 분포의 표준 오차(Standard Error)라고 한다.
♧ 표집분포의 특징
1. 표집 분포를 무한히 반복하면, 무조건 정규 분포가 나온다
2. 표준편차가 모집단의 표준편차보다 적다
표준편차는 값이 ‘평균으로부터 떨어져 있는 정도’를 말한다. 표집 분포는 샘플들 각각의 평균을 분포로 만든 것이기 때문에 표집 분포의 표준오차는 모집단의 표준편차보다 적다.
♧ 표집오차(sampling error)
표본이 모집단을 완전하게 대표할 수 없어서 발생하는, 모집단과 표본의 차이를 표집과정에서 발생하는 오류라 하여 표집오차라고 한다. 표집이 있는 곳에 표집오차가 있다.
♧ 표준오차(standard error)
표집분포의 변동성, 추정치들의 분산도를 추정하기 위해 구한 추정치들의 표준편차
표준오차는 특정한 표본 평균의 값이 오차 내에 있을 가능성에 대한 아이디어를 제공한다.
예를 들어, 큰 표준오차는 표본들의 평균들이 매우 크게 퍼져 있음을 나타내고,
작은 표준오차는 표본 평균들이 모집단의 평균치에 매우 근접해 있음을 나타낸다.
즉, 이 표준오차가 얼마나 크냐 작으냐에 따라서 내가 선택한 검정방법의 통계치가 우연인지,
아니면 확률적으로 거의 일어날 수 없는 유의한 결과인지를 판단할 수 있게 된다.
표준편차는 일반적으로 SD(Standard Deviation)라고 하지만, 표집 분포의 표준편차는 모집단과 구별하기 위해 SE(Standard Error)라고 부른다.
샘플 분포의 표준오차는 표준편차/루트N이다. 루트N은 몇 번 샘플링 했는지를 의미한다. 분모가 커질수록 표준오차는 작아진다. 표준편차는 평균에서 떨어져있는 정도를 말하므로 샘플링 횟수가 많아질 수록 오차는 작아진다.
표준편차 표준오차 표집오차 ?? 용어들이 너무 비슷하고 개념을 잘 모르겠다..
leeriderr님이 잘 정리를 해주셨다.
표준편차는 표준이 되는 편차, 즉 편차(=평균과의 차이, deviation)의 기대값(expectation)이라는 의미이며
sample인 경우에는 편차(=평균과의 차이)를 제곱(square)하고 합계(sum)해서
편차제곱합(sum of square)을 구하고 이를 자유도(df, degree of freedom)로
나누어 분산(variance)을 구한 다음 제곱근(square root)을 취한 값이다.
이는 편차제곱합(sum of square)을 자유도(df), N-1로 나누는 것이 모분산(=모집단 분산)의
불편추정량(unbiased estimator)이라는 것이 알려져 있기 때문인데
표본(sample)으로 부터 분산을 구하는 이유는 주어진 표본에 대한 분산을 구하기 위함이 아니라
이를 통해 모집단에서의 분산, 즉 모분산을 추정하기 위한 것이다.
만일, 표본(sample) 자체에 대한 분산을 구하기 위해서는 편차제곱합을 관찰치의 개수로 나누면 되는데
표본(sample)에 대한 분산을 구하는 것은 무의미(meaningless)하다.
왜냐하면 다시 sampling을 하면 다른 관찰치들이 포함될 것이므로 분산이 변할 것이기 때문이다.
즉, 표본은 단지 모집단에 대한 추론(reasoning)을 위한 것이다.
가설검정의 대상은 모집단(population)이며 표본(sample)은 가설검정의 대상이 아닌데
표본에 대해서는 직접 계산하면 정확한 값을 알 수 있기 때문에 표본을 이용해 추론한다.
표준편차(standard deviation)를 구할 때 분산(variance)을 먼저 구하는 이유는,
편차(=평균과의 차이)에는 (-)값이 있기 때문에 편차를 합계하면 0이 되기 때문이다.
분산은 편차제곱의 기대값이므로 단위(unit)가 제곱이며 따라서, 어떤 변수의 흩어진 정도를 파악하기 위해서는 기본적으로는 같은 단위인 표준편차를 사용한다.
주어진 데이터가 모집단(population)이면 분산을 구할 때 편차제곱합(sum of square)을
자유도, N-1로 나누지 않고 N으로 나누어 분산을 구하는데 시간(time) 개념까지 생각해 보면
기본적으로 데이터는 모집단이 아닌 표본(sample)이며, 따라서 통계 software에서는 기본적으로 모든 데이터를
표본(sample)으로 처리한다.
예를들어 100개의 sample을 추출하는 경우에 표준편차는, 표본평균과의 차이(=편차, deviation)를 제곱하고 합계해서 편차제곱합(sum of square)을 구하고 자유도인 100 - 1 = 99로 나누어서 분산(variance)을 구한 다음 제곱근을 취하면 된다. 참고로, 분산이 편차제곱에 대한 기대값이듯이 표준편차는 편차(deviation)에 대한 기대값(expected value)이기는 하지만 표본으로부터 구한 표준편차는 모표준편차에 대한 불편추정치(unbiased estimate)는 아니다.
표본(sample)을 추출해서 구한 표본평균(sample mean)은 실제 모집단에서의 평균, 즉 모평균(population mean)과는 차이가 있을 것이므로 모평균으로부터의 편차(deviation)를 생각할 필요가 있는데, 편차를 생각하는 합리적인 방법은 모평균(population mean)과의 차이들이 이루는 분포(distribution)를 생각하는 것이다. 이는 sampling distribution의 개념입니다.
어떤 표본(sample)을 추출한 다음 구한 평균(=표본평균)은, fixed된 한 개의 값을 가지는 모평균(population mean)과는 당연히 차이가 있을 것이므로 '1개의 fixed된 값을 가지는 모평균과의 차이들'이 이루는 분포(=또는, 표본평균들이 이루는 분포)를 생각해야 하는 데 이러한 차이들이 이루는 분포(=또는 표본평균들이 이루는 분포)의 표준편차를 표준오차(standard error, s.e.)라고 부른다. 즉, sampling distribution의 표준편차(standard deviation)를 표준오차(standard error)라고 부른다. 참고로, 모평균과의 차이가 이루는 분포의 평균은 0이고 표본평균들이 이루는 분포의 평균은 모집단 평균인데 어떻게 생각하든 같다.
표준오차(=오차의 기대값)라는 이름에서 알 수 있듯이 이는 모평균(population mean)에 대한 예측을 하는 관점(perspective)에서의 오차, 즉 편차인데 표준편차와 마찬가지로 오차에 대한 기대값이라는 의미다.
모평균 뿐만아니라 모분산(=모집단분산)이나 모비율(=모집단비율)을 추정하는 경우에도 표본(sample)으로 부터 구하는 분산(variance)이나 비율(proportion)이 실제 모집단에서의 분산이나 비율과는 차이가 있을 것이므로 편차, 즉 분포를 생각해야 하는 데 '모집단분산과의 차이들(=또는 표본분산들)'과 '모비율과의 차이들(=또는 표본비율들)'이 이루는 분포(distribution)의 표준편차도 표준오차(standard error)이다.
이와같이 표준편차와 표준오차는 차이가 있는데 표준편차는 단순히, 어떤 주어진 표본(sample) 또는 어떤 주어진 모집단(population)으로 부터 구한 편차(=평균과의 차이)의 기대값이며 표준오차는 sampling distribution의 표준편차다.
가설검정을 할 때는 어떤 분포를 생각해야 하는데 가설검정(hypothesis test)을 하는 분포가 sampling distribution이다. 표본(sample)은 한 번만 추출해서 모집단에 대한 추론(inference)을 하지만 추출된 표본으로부터 구한 통계량(statistic)은 sampling distribution위의 어떤 point에 위치하게 되므로 가설검정을 할 수 있다.
앞서 알아본 것과같이 분포(distribution), 즉 sampling distribution이 어떤 분포인지 알고 검정통계량(test statistic)이 sampling distribution위에서 어떤 point에 위치하는 지를 알면 확률(=면적)을 구할 수 있으므로 가설검정을 할 수 있다. 참고로, 앞서 알아본 것과같이 검정통계량이 sampling distribution의 바깥부분에 위치하면 귀무가설이 True일 가능성이 낮으므로 귀무가설을 기각하는데, 가설검정을 하는 sampling distribution은 귀무가설이 true인 경우의 분포이다.
😁
출처:
심미경님
김수영(2019). 사회과학통계의 기본. 서울: 학지사.
성태제(2015). 현대 기초통계학. 서울: 학지사.
오만숙(2017). 베이지안 통계추론. 서울: 자유아카데미.
https://roseline124.github.io/data-analytics/2019/03/27/DA-R-statistics2.html
https://blog.naver.com/leerider/100207807760
'Data Scientist' 카테고리의 다른 글
통계기초(상관관계 ,공분산) (0) | 2020.03.08 |
---|---|
통계기초(평균의 검정) (0) | 2020.03.06 |
통계기초(자료의 중심과 퍼짐) (0) | 2020.03.03 |
통계기초(모집단, 변수, 측정,무선표집과 무선할당) (0) | 2020.03.02 |
통계기초(빈도주의와 베이지안) (0) | 2020.03.01 |