본문 바로가기

Data Scientist

통계기초(자료의 중심과 퍼짐)

반응형

집중 경향성(central tendency)

  • 자료의 중심이 어디에 있는지, 자료가 어떤 값들을 중심으로 모이는지
  • 중심경향 측정치

 

I. 평균(mean)

일반적으로 산술평균을 말하며 모든 점수(n개의 수)의 합을 사례의 수(n)로 나눈 값

산술평균

 

  • 극단적인 점수의 영향을 받고, 등간성을 지닌 척도(등간척도, 비율척도)를 이용해 측정한 변수에만 적용될 수 있음
  • 수학적으로 다루기 매우 용이하며 간단한 식으로 표현 가능, 표집이 안정적
  • 집중경향성에 대한 가장 유용한 측정값이며, 거의 모든 추론 통계가 평균에 기초함
  • 변수 X의 모든 값에 상수(c)를 더하여 새롭게 만들어진 변수 (X+c)의 평균은 x̅+c
  • 변수 X의 모든 값에 상수(c)를 곱하여 새롭게 만들어진 변수 (X*c)의 평균은 x̅*c
  • X-x̅ (편차)의 합은 0

 

기하 평균 n개의 양수 값을 모두 곱한 것의 n제곱근이다. 예를 들어 2와 8의 기하평균은 4이다. 

집합 {a1, a2, …, an}의 기하 평균은 다음과 같다.

기하평균

어떤 숫자들의 기하 평균은 그 숫자들의 산술평균보다 언제나 작거나 같으며, 특히 모든 숫자가 같을 경우에 두 평균이 같아진다.

좌: 기하평균 우: 산술평균

 

곱셈으로 계산하는 값에서의 평균을 계산하고자 할 때 산술 평균이 아닌 기하 평균을 사용한다.

예를 들어 어떤 값이 처음에 1000이고, 첫 해에 10% 증가하고, 그 다음 해에 20% 증가하고, 그 다음 해에 15% 감소했다고 할 때 결과 값은 처음의 값 1000에 1.1, 1.2, 0.85의 기하평균을 세 번 곱한 값이 된다.

 

 

두 수 x,y(x, y >0) 의 산술평균은 a1, 기하평균은 g1이라 하면

a1 = (x+y)/2  

g1 = (xy)½

이 후 a1과 g1을 x와 y의 자리에 넣어 연산을 반복하면 an과 gn이라는 수열을 얻게 된다. 

이 두 수열은 같은 값으로 수렴하며, 이 수렴 값을 x와 y의 산술기하평균이라 한다. 

 

II. 중앙값(median)

자료의 점수들을 가장 작은 값부터 가장 큰 값까지 나열했을 때 중간에 위치하는 값

ex) 1,2,3,4,5 -> 중앙값 = 3

ex) 1,2,3,4,5,6 -> 중앙값 = 3.5

표본의 크기(n)가 홀수라면, (n+1)/2번째에 위치하는 점수 

표본의 크기가 짝수라면, n/2번째 수와 (n/2)번째 수와 (n/2)+1번째 수의 평균점수

  • 평균에 비해 극단적인 값들에 의한 영향을 덜 받기 때문에 편포된 분포나 개방형 분포에 유용

III. 최빈값(mode)

자료의 분포에서 가장 자주 나타나는 값

ex) 1,2,2,3,3,3,4,5 -> 최빈값 = 3

ex) 1,2,3,4,5 -> 최빈값 = 1,2,3,4,5

  • 최빈값은 2개 이상일 수 있다
    • 단봉분포
    • 양봉분포
  • 구하기는 쉬우나 값이 안정적이지 못할 수 있음
  • 질적자료에 적절한 측정치

자료의 퍼짐 

분산도, 변동성(variability) : 자료의 퍼짐의 정도, 자료가 서로 모여 있는지 또는 흩어져 있는지의 정도 

 

IV. 범위(range)와 사분범위(interquartile range, IQR)

 ♧ 범위

  • 최대값 - 최소값
  • 이해와 계산이 쉬움
  • 극단치의 영향이 

사분범위

  • 전체 점수를 네 덩어리로 나누고 중간 50%를 계산하는 방법(중간에 50% 데이터들이 흩어진 정도를 의미) 
  • 사분위수를 이용해 계산. 사분위수란 수집된 자료를 크기순으로 배열한 후 4등분한 값을 말하며 25%, 50%, 75%가 되는 점의 값을 각각 제1사분위수(Q₁), 제2사분위수(Q₂), 제3사분위수(Q)라 함
  • IQR = Q₃ - Q₁ (Q₁은 데이터의 중앙값 아래에서의 중앙값을 의미, Q₃은 데이터의 중앙값 위에서의 중앙값을 의미)
  • 극단적인 값에 민감하지 않기 떄문에 편포된 자료개방형 분포에 적절
  • 사분범위가 길면 흩어진 분포, 짧으면 밀집된 분포 => IQR이 클수록 표준편차 값이 커지는 것처럼 데이터가 많이 흩어져있을 가능성이 높음 

출처: 위키백과

V. 분산과 표준편차

 ♧ 편차(deviation)

  • 각각의 점수(관측값)가 평균(또는 중앙값)으로부터 떨어져 있는 거리 
  • 편차는 양수일수도 있고 음수일 수 있으며, 이는 평균보다 크거나 작음을 나타낸다. 값의 크기는 관측값이 평균으로부터 얼마나 떨어져 있는가를 나타낸다. 편차는 오류 또는 잔차라고 할 수 있다. 모집단 평균에서의 편차는 오류이며, 표집 평균에서의 편차는 잔차이다.

 ♧ 편차의 합(sum of deviation) 

  • 편차의 값들을 하나의 값으로 요약
  • 모든 변수의 편차의 합은 언제나 0

 ♧ 절대 편차의 합(sum of absolute deviation)

  • 편차 대신 편차의 절대값을 이용하면 모든 절대 편차의 합을 구해도 0이 아니다
  • 표본크기가 커지면 이 값 또한 같이 커진다

 ♧ 절대평균 편차(mean absolute deviation)

  • 임의의 자료(Xi)가 자료의 중심(X bar)으로부터 평균적으로 떨어져있는 거리(해석상의 장점)
  • 절대값 계산 과정이 귀찮음

 ♧ 분산(variance)

모집단과 표본의 분산

 

좌: 모집단의 분산, 우: 표본의 분산

  • 절대값 대신 제곱을 이용
  • 편차의 제곱합을 모집단 또는 표본의 크기로 나누어 준 것
  • 원자료의 단위와 달라져(제곱 단위) 해석이 어려움 

 ♧ 표준편차(Standard deviation)

좌: 모집단의 표준편차, 우: 표본의 표준편차(x 바는 모집단 평균의 추정치)

  • 분산에 제곱근을 취해 원자료의 단위와 단위를 맞춤
  • 해석은 절대평균편차의 해석을 빌려옴
  • 수학적으로 취급이 용이하고, 표집이 안정적
  • 그 분포에 속한 각 점수의 영향을 받기 떄문에 어떤 범위의 점수든 변화가 생기면 표준편차에 반영되는 민감한 특성을 가짐 

* 분산과 표준편차는 자료 전체의 변동성을 보여주는 지표가 아님, 자료 전체의 변동성을 표본크기(N 또는 n-1)로 나누어 주었기 때문에 자료 하나당 평균적인 변동성을 보여주는 지표

 

 

** 왜 n-1로 나누어 주는걸까? <자유도(degree of freedom) : 변수의 편향을 없애보자> 

 자유도는 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 의미 

 

즉, 정보를 줄 수 있는 독립적인 표본자료의 수가 n-1개라는 뜻인데 왜그럴까 예를 들어보자.

 

A나라에 국민이 3명이 있는데, 그들의 키가 다음과 같다고 가정하자

B: 173cm / C: 180cm / D: 165cm  이들의 평균(A나라의 평균 키)은 반올림해서 173cm이다. 

 

그럼 이제 A나라의 국민 수가 10명이라고 가정하자. 하지만 여러가지 여건 상 3명의 자료 밖에 구하지 못했다. 

가: 169cm / 나: 180cm / 다: ? 

 

우리는 A나라의 국민 평균키가 173cm라는 것을 알고 있기 때문에 가, 나, 다의 평균은 173cm가 되어야 한다.

이 때 다의 키는 가와 나가 정해져있기 때문에 170cm가 되어야만 한다. 

이렇게 다와 같은 경우를 자유도가 없는 수라고 한다. 

앞선 가와 나와 같이 자유도를 가진 수에 의해 이미 값이 정해진, 선택권이 없는 수이기 때문이다. 

다시 말해 '자유로운 수', '독립적인 수'가 n-1개이기 때문에 n에서 자유롭지 않은 수 하나를 뺀 n-1로 나누어야 한다.


분포의 모양

VI. 왜도(skewness)

  • 분포가 자료의 중심에 대하여 서로 대칭적이지 않은 정도
  • 분포가 기울어진 방향과 정도
  • 왜도가 0이면 정규분포, 양수이면 정적편포(꼬리가 오른쪽에 있으며 봉우리는 왼쪽에 치우쳐 있음)
  • 음수이면 부적편포(꼬리가 왼쪽에 있으며 봉우리는 오른쪽에 치우쳐 있음)

최빈수(mode)를 중심으로 평균(mean)과 중위수(median)가 왼쪽에 있으면 왼쪽 편포 (skewed to the left)라고 하고

오른쪽에 있으면 오른쪽 편포(skewed to the right)라고 한다.

최빈수를 중심으로 생각하면 반대로 읽게 되므로 주의가 필요하다.

편포의 정도를 왜도(skewness)라고 한다.

왜도의 정의는 E(X-μ)3/(σ2)3/2 이며, 분포의 대칭정도를 말하고, 다음 식으로 추정한다.

 

                              ∑(Xi - x)3

      skewness = ------------------- , (여기서 x는 Xi의 평균치)

                             {∑(Xi-x)2}3/2

 

이를 보다 단순화한 것이 Karl Pearson의 첨도계수(skewness coefficients)이다. 즉,

      Pearson's first skewness coefficient , defined by

  • 3 (mean - mode) / standard deviation,

     as well as Pearson's second skewness coefficient, defined by

  • 3 (mean - median) / standard deviation.

   왼쪽 편포의 경우는 왜도 값이 - 값으로 나오고, 정규분포는 0이 되며, 오른쪽 편포는 + 값이 나온다.

왜도 <0  / 왜도 = 0  / 왜도 >0

 

VII. 첨도(kurtosis)

  • 분포가 뾰족한 정도
  • 첨도가 0이면 정규분포, 양수면 봉우리가 뾰족한 급첨(leptokurtic), 음수면 봉우리가 낮은 평성(platykurtic)

첨도는 E(X-μ)4/(σ2)2로 정의되며 정규분포의 첨도값은 3을 가지므로 SAS를 비롯한 많은 사용자들은 첨도의 정의에서 3을 뺀 0을 기준으로 하고 있다. 첨도는 다음 식으로 추정한다.

                                    ∑(Xi - x)4

            Kurtosis = ------------------    ㅡ 3  (여기서 x는 Xi의 평균)

                                   {∑(Xi-x)2}2

 

 

😁

 

 

출처:

출처: 심미경님

김수영(2019). 사회과학통계의 기본. 서울: 학지사.

성태제(2015). 현대 기초통계학. 서울: 학지사.

오만숙(2017). 베이지안 통계추론. 서울: 자유아카데미.

 

https://blog.naver.com/jhkang8420/221565825889

 

순식간에 배우는 자유도 개념 (n-1 ? n-2 ?)

#자유도 #n-1 #n-2 #n-k #자유도개념 #df #degreesoffreedom​지금까지도 조회수 견인차를 해주고 있는 회...

blog.naver.com

http://webbuild1.knu.ac.kr/~bskim/normality.htm

 

왜도, 첨도, 정규

 경북대학교  왜도(Skewness), 첨도 (Kurtosis), 정규성(Normality)  김병수 교수 연구실 1.  왜도(skewness)    자료의 분포는 줄기-잎 그림, 상자그림, 히스토그램 등으로 나타낼 수 있다. 생물집단의 양적 변이는 대체로 정규분포를 나타낸다. 정규분포는 좌우 대칭이며 가운데가 높고 양쪽으로 가면서 낮아져 종 모양을 띤다. 한편 정규분포에서 벗어나 왼쪽 혹은 오른쪽으로 쏠린 경우가 있다.  이렇게 한쪽으로 치우친 경우 편

webbuild1.knu.ac.kr

 

반응형