반응형
♧ 빈도주의
- 기술 통계(descriptive statistics)
- 자료의 상태를 있는 그대로 설명하고 기술하는 방식의 통계
- 그래프나 표를 이용해 자료를 요약해 보여주는 것
- 표와 그래프, 자료의 중심과 퍼짐 등
- 추리 통계(inferential statistics)
- 모집단의 모수를 추정하고, 이 추정치를 이용해 모집단의 속성에 대해 추론하는 통계
- 집단 중심: 평균 검정(z 검정, t 검정 등), 분산분석 등
- 변수 중심: 상관관계, 회귀분석 등
I. 모집단과 표본
- 모집단, 전집(population): 연구자가 관심을 두고 있는 전체 집단
- 모수(parameter): 모집단의 속성을 보여주는 값
- 표본(sample): 연구를 위하여 선택된 모집단의 일부분
- 통계치(statistic): 또는 추정치(estimate): 표본의 속성을 보여주는 값
- 표집(sampling): 모집단으로부터 표본을 추출하는 과정
- 일반화(generalization): 표본을 통해 분석한 결과를 모집단으로 확장하여 서술하는 것
* 표본이 모집단을 잘 대표(representation)할 수 있도록 표집해야 한다.
- 추정: 표본의 자료를 이용하여 관심있는 모수의 가장 그럴듯한 값을 구하는 과정
- 추정치: 추정의 과정을 통해 나온 값
- 표본크기(sample size): 연구 대상자의 수 (number of subjects)
- 표본의 수(number of sample)
II. 변수의 정의와 종류
변수(variable): 변화하는 값을 가진 특성인 변량(variate)에 값을 부여한 것, 변하는 수
cf. 상수(constant)
1. 변수의 연속성에 따른 분류
- 연속성 변수(continuous)
- 실선상에서 정의가 되는 변수, 특정 사건의 발생확률이 0이 되는 변수
- 특정한 값보다는 일정한 범위로 정의됨 (ex. 키가 175cm -> 175.0000? / 174.5와 175.5 사이에서 정의되는 값)
- 이산형 변수(discrete)
- 특정한 값을 취할 수 있는 종류의 변수
- 이분형 변수, 빈도 변수, 리커트(Likert) 척도 등
2. 수량적인 의미를 가지고 있는지에 따른 분류
- 질적변수(qualitative variable), 범주형 변수(categorical variable): 분류를 위해 용어로 정의 (ex. 성별, 인종, 정치성향, 혼인 상태 등)
- 양적변수(quantitative variable): 양의 크기를 나타내기 위하여 수량으로 표시되는 변수 (ex. 체중, 키, 사람 수 등)
3. 모형 안에서 인과관계, 역할에 따른 분류
- 독립변수(Independent variable), 예측변수(predictor), 설명변수
- 다른변수에 영향을 주는 변수
- 연구자가 조작하는 변수
- 조작할 수 없는 분류 변수(성별), 특성 변수(나이)도 포함
- 종속변수(Dependent variable), 준거변수, 반응변수, 결과변수(outcome variable)
- 다른 변수(독립변수)에 의하여 영향을 받는 변수
- 독립변수의 효과를 알기 위해 관찰되는 변수
- 일반적으로 연구자가 관심을 갖고 있는 가장 중요한 변수
- 혼입변수(confounding variable)
- 종속변수에 잠재적으로 영향을 줄 수 있는 변수 중 실험 또는 연구에서 제대로 고려되지 못하고 간과된 변수
- 연구모형에서 배제, 통제(control)되어야 함
III. 측정의 개념과 규칙
- 측정(measurement): 사물, 사건, 사람의 속성을 구분하기 위하여 정해진 규칙에 따라 이름이나 숫자를 부여하는 과정을 말한다
- 척도(scale): 측정의 도구, 검사 도구, 자
* 측정하려는 속성에 따라 측정도구(척도)도 달라져야 한다
척도의 조건
1. 논리적 관련성
진술문들간에 서로 관련 되어있는 것 처럼 보일 때
2. 경험적 관련성
진술문을 어떤 실험집단에서 실시한 뒤
진술문에 대한 반응이 어느정도로 일관성을 갖는지
제공하는 정보의 특징에 따른 분류
- 명명(명목)척도(nominal scale): 사물을 구분하기 위해 이름을 부여하는 척도 (ex. 성별, 인종, 거주지역)
- 서열척도(ordinal scale): 사물의 순서를 나타내기 위해 사용되는 척도로 척도 단위 사이에 등간성은 존재하지 않음(ex. 중간고사 점수 기준 등수: 1등과 2등, 20등과 21등의 점수 차이가 같을까? / 리커트 척도)
- 등간척도(interval scale): 척도의 동일한 간격에는 동일한 단위를 부여하므로 등간성을 지니며 임의영점과 임의단위를 가진다 * 임의영점: 등간척도인 변수에서 0의 값을 갖는다는 것은 아무것도 없다(nothing)는 것을 의미하는 것이 아니라, 사람들이 정한 특정한 수준을 0이라고 합의하여 사용하는 것이다 -> 등간척도 점수는 곱셈과 나눗셈은 무의미하며 덧셈법칙만 적용 (ex. 온도, 시험 점수)
- 비율척도(ratio scale): 등간척도가 가지는 등간성을 가지고 있으며 절대영점을 가지고 있기 때문에 곱셈법칙까지 적용된다. * 절대영점: 아무것도 없는 상태(nothing)를 0이라고 말함 (ex. 길이, 무게)
종류 | 제공하는 정보의 특징 | 사칙연산 | 기술통계 | 추리통계 | 영점 |
명명척도 | 범주로 분류 | 도수, 비율, 최빈치 등 | 비모수적 통계방법 | ||
서열척도 | 범주 사이의 순위 | +중앙치, 사분편차 등 | |||
등간척도 | 점수 차이가 어디에서도 같은 양적의미 | + , - | +평균, 표준편차 | 모수적 통계방법 | 임의영점 |
비율척도 | 비율 | +, -, *, / | 절대영점 |
IV. 무선표집과 무선할당
연구의 타당도(Validity): 수행한 연구가 연구자의 의도대로 잘 되었는지의 정도
- 외적타당도
- 표본을 바탕으로 하여 수행한 연구를 모집단으로 일반화할 수 있는지의 정도
- 표본이 모집단을 잘 대표한다면 연구는 외적타당도를 확보함
- 무선표집(random sampling)
- 모집단에서 표본 추출할 때 모집단을 구성하는 모든 연구대상의 추출 확률이 동일
- 모집단 내의 모든 피험자들은 표집될 확률이 동일한 조건하에서 표집
- 내적타당도
- 연구자가 의도한 독립변수가 연구자의 종속변수에 진정으로 영향을 주었는지 정도
- 연구자가 조작한 독립변수가 연구자가 관심 있는 종속변수에 정말 영향을 주고, 다른 혼입변수들은 모두 잘 통제되었다면 연구가 내적타당도를 가지고 있다고 표현함
- 독립변수와 종속변수의 인과관계가 담보될 때 내적타당도 확보
- 독립변수를 뺀 나머지 조건들은 서로 비슷한 상태여야 함
- 무선 할당(random assignment)
- 피험자들을 실험하의 모든 처치 집단에 무작위로 배치함으로써 종속변인에 영향을 미칠 수 있는 모든 실험 외적 변인들이 적어도 확률적으로는 모든 집단에 균등하게 분포될 것으로 가정할 수 있게 됨
😁
출처: 심미경님
김수영(2019). 사회과학통계의 기본. 서울: 학지사.
성태제(2015). 현대 기초통계학. 서울: 학지사.
오만숙(2017). 베이지안 통계추론. 서울: 자유아카데미.
반응형
'Data Scientist' 카테고리의 다른 글
통계기초(표집이론) (0) | 2020.03.04 |
---|---|
통계기초(자료의 중심과 퍼짐) (0) | 2020.03.03 |
통계기초(빈도주의와 베이지안) (0) | 2020.03.01 |
html의 태그 (0) | 2020.02.27 |
웹크롤링(Selenium) 간단한 검색, 네이버 로그인, yes24검색 후 장바구니 담기 (0) | 2020.02.26 |