본문 바로가기

Data Scientist

통계기초(모집단, 변수, 측정,무선표집과 무선할당)

반응형

♧ 빈도주의

  • 기술 통계(descriptive statistics)
    • 자료의 상태를 있는 그대로 설명하고 기술하는 방식의 통계
    • 그래프나 표를 이용해 자료를 요약해 보여주는 것
    • 표와 그래프, 자료의 중심과 퍼짐 등
  • 추리 통계(inferential statistics)
    • 모집단의 모수를 추정하고, 이 추정치를 이용모집단의 속성에 대해 추론하는 통계
    • 집단 중심: 평균 검정(z 검정, t 검정 등), 분산분석 등
    • 변수 중심: 상관관계, 회귀분석 등 

I. 모집단과 표본 

  • 모집단, 전집(population): 연구자가 관심을 두고 있는 전체 집단
  • 모수(parameter): 모집단의 속성을 보여주는 값
  • 표본(sample): 연구를 위하여 선택된 모집단의 일부분
  • 통계치(statistic): 또는 추정치(estimate): 표본의 속성을 보여주는 값 
  • 표집(sampling): 모집단으로부터 표본을 추출하는 과정
  • 일반화(generalization): 표본을 통해 분석한 결과를 모집단으로 확장하여 서술하는 것

* 표본이 모집단을 잘 대표(representation)할 수 있도록 표집해야 한다. 

  • 추정: 표본의 자료를 이용하여 관심있는 모수의 가장 그럴듯한 값을 구하는 과정
  • 추정치: 추정의 과정을 통해 나온 값
  • 표본크기(sample size): 연구 대상자의 수 (number of subjects)
  • 표본의 수(number of sample)

 

II. 변수의 정의와 종류 

변수(variable): 변화하는 값을 가진 특성인 변량(variate)에 값을 부여한 것, 변하는 수 

cf. 상수(constant)

 

1. 변수의 연속성에 따른 분류

  1. 연속성 변수(continuous)
    • 실선상에서 정의가 되는 변수, 특정 사건의 발생확률이 0이 되는 변수
    • 특정한 값보다는 일정한 범위로 정의됨 (ex. 키가 175cm -> 175.0000? / 174.5와 175.5 사이에서 정의되는 값)
  2. 이산형 변수(discrete)
    • 특정한 값을 취할 수 있는 종류의 변수
    • 이분형 변수, 빈도 변수, 리커트(Likert) 척도 등

2. 수량적인 의미를 가지고 있는지에 따른 분류

  1. 질적변수(qualitative variable), 범주형 변수(categorical variable): 분류를 위해 용어로 정의 (ex. 성별, 인종, 정치성향, 혼인 상태 등) 
  2. 양적변수(quantitative variable): 양의 크기를 나타내기 위하여 수량으로 표시되는 변수 (ex. 체중, 키, 사람 수 등)

3. 모형 안에서 인과관계, 역할에 따른 분류

  1. 독립변수(Independent variable), 예측변수(predictor), 설명변수
    • 다른변수에 영향을 주는 변수
    • 연구자가 조작하는 변수
    • 조작할 수 없는 분류 변수(성별), 특성 변수(나이)도 포함 
  2. 종속변수(Dependent variable), 준거변수, 반응변수, 결과변수(outcome variable)
    • 다른 변수(독립변수)에 의하여 영향을 받는 변수
    • 독립변수의 효과를 알기 위해 관찰되는 변수
    • 일반적으로 연구자가 관심을 갖고 있는 가장 중요한 변수
  3. 혼입변수(confounding variable)
    • 종속변수에 잠재적으로 영향을 줄 수 있는 변수 중 실험 또는 연구에서 제대로 고려되지 못하고 간과된 변수
    • 연구모형에서 배제, 통제(control)되어야 함

 

III. 측정의 개념과 규칙

  1. 측정(measurement): 사물, 사건, 사람의 속성을 구분하기 위하여 정해진 규칙에 따라 이름이나 숫자를 부여하는 과정을 말한다
  2. 척도(scale): 측정의 도구, 검사 도구, 자

* 측정하려는 속성에 따라 측정도구(척도)도 달라져야 한다

 

척도의 조건 

1. 논리적 관련성

진술문들간에 서로 관련 되어있는 것 처럼 보일 때

 

2. 경험적 관련성

진술문을 어떤 실험집단에서 실시한 뒤 

진술문에 대한 반응이 어느정도로 일관성을 갖는지

 

제공하는 정보의 특징에 따른 분류 

  1. 명명(명목)척도(nominal scale): 사물을 구분하기 위해 이름을 부여하는 척도 (ex. 성별, 인종, 거주지역)
  2. 서열척도(ordinal scale): 사물의 순서를 나타내기 위해 사용되는 척도로 척도 단위 사이에 등간성은 존재하지 않음(ex. 중간고사 점수 기준 등수: 1등과 2등, 20등과 21등의 점수 차이가 같을까? / 리커트 척도)
  3. 등간척도(interval scale): 척도의 동일한 간격에는 동일한 단위를 부여하므로 등간성을 지니며 임의영점임의단위를 가진다                                                                                                                                       * 임의영점: 등간척도인 변수에서 0의 값을 갖는다는 것은 아무것도 없다(nothing)는 것을 의미하는 것이 아니라, 사람들이 정한 특정한 수준을 0이라고 합의하여 사용하는 것이다 -> 등간척도 점수는 곱셈과 나눗셈은 무의미하며 덧셈법칙만 적용 (ex. 온도, 시험 점수)
  4. 비율척도(ratio scale): 등간척도가 가지는 등간성을 가지고 있으며 절대영점을 가지고 있기 때문에 곱셈법칙까지 적용된다.                                                                                                                                           * 절대영점: 아무것도 없는 상태(nothing)를 0이라고 말함 (ex. 길이, 무게)
종류 제공하는 정보의 특징 사칙연산 기술통계 추리통계 영점
명명척도 범주로 분류   도수, 비율, 최빈치 등 비모수적 통계방법  
서열척도 범주 사이의 순위   +중앙치, 사분편차 등  
등간척도 점수 차이가 어디에서도 같은 양적의미 + , - +평균, 표준편차 모수적 통계방법 임의영점
비율척도 비율 +, -, *, / 절대영점

 

IV. 무선표집과 무선할당

연구의 타당도(Validity): 수행한 연구가 연구자의 의도대로 잘 되었는지의 정도 

  • 외적타당도
    • 표본을 바탕으로 하여 수행한 연구를 모집단으로 일반화할 수 있는지의 정도 
    • 표본이 모집단을 잘 대표한다면 연구는 외적타당도를 확보함 
  • 무선표집(random sampling)
    • 모집단에서 표본 추출할 때 모집단을 구성하는 모든 연구대상의 추출 확률이 동일
    • 모집단 내의 모든 피험자들은 표집될 확률이 동일한 조건하에서 표집 
  • 내적타당도
    • 연구자가 의도한 독립변수가 연구자의 종속변수에 진정으로 영향을 주었는지 정도
    • 연구자가 조작한 독립변수가 연구자가 관심 있는 종속변수에 정말 영향을 주고, 다른 혼입변수들은 모두 잘 통제되었다면 연구가 내적타당도를 가지고 있다고 표현함
    • 독립변수와 종속변수의 인과관계가 담보될 때 내적타당도 확보
    • 독립변수를 뺀 나머지 조건들은 서로 비슷한 상태여야 함
  • 무선 할당(random assignment)
    • 피험자들을 실험하의 모든 처치 집단에 무작위로 배치함으로써 종속변인에 영향을 미칠 수 있는 모든 실험 외적 변인들이 적어도 확률적으로는 모든 집단에 균등하게 분포될 것으로 가정할 수 있게 됨

 

 

😁

출처: 심미경님

김수영(2019). 사회과학통계의 기본. 서울: 학지사.

성태제(2015). 현대 기초통계학. 서울: 학지사.

오만숙(2017). 베이지안 통계추론. 서울: 자유아카데미.

 

반응형