연속형 자료의 상관
I. 상관
두 양적변수간의 관계 확인: 산포도, 공분산, 상관계수
자료예시(산포도, scatter plot))
II. 공분산(covariance)
- 두 변수의 관계를 수량화
- 두 짝지어진 변인(paired variables)이 어떤 방향으로 같이 움직이는지(covary)를 측정
모집단에서 두 변수 X, Y의 공분산
표본에서 두 변수 X, Y의 공분산
- (Xi - Xbar)(Yi - Ybar): X와 Y의 교차곱(cross product)
- 참고) 분산은 동일한 변수간 공분산
♧ 공분산의 해석
- 양의 공분산을 가진다면 두 변수가 같은 방향으로 움직임(정적 상관)
- 음의 공분산을 가진다면 두 변수가 반대 방향으로 움직임(부적 상관)
- 공분산이 0에 가까운 값이라면 두 변수는 서로 상관이 없음
- 공분산이 크다면?
참고. 공분산은 오직 두 변인의 직선관계(linear relationship)만을 측정할 수 있다. 만약 두 변인이 비직선관계(nonlinear relationship)을 가지고 있다면 공분산으로 측정되지 않는다.
III. 상관계수(correlation coefficient)
- 두 양적변수의 선형 관계의 정도
- 공분산을 표준화
♧ 상관계수의 특징
1. -1부터 1까지의 값을 갖는다.
2. 상관계수의 크기는 두 변수간의 직선관계의 강도
3. 부호(+ 또는 -)는 두 변인의 관계의 방향
4. 두 변인의 척도가 바뀌어도 상관은 변하지 않는다.
♧ 상관계수의 해석
통계적으로 유의한 결과면 상관이 높은 것일까?
- 0: 없음
- 0.3: 작은상관
- 0.5: 보통 상관
- 0.7: 높은 상관
- 1.0: 완벽한 상관
♧ 상관의 가정
1) 선형성: 두 변인간의 관계가 직선일 때만 상관계수는 그 관계를 제대로 설명할 수 있다.
2) 등분산성(homoscedasticity): 직선관계에 있어서 한 변수의 분산이 다른 변수의 모든 값에 대하여 일치해야 한다.
3) 절단되지 않은 자료: 각 변인의 범위(range)가 잘리지(truncated) 않았다는 가정을 한다.
4) 상관계수를 왜곡시키는 극단값(outlier)이 없어야 한다.
♧ 상관의 인과관계
상관이 있으면 인과관계가 있다고 해석할 수 있을까?
> 상관은 인과관계를 나타내지는 않는다.
😁
출처:
심미경님
김수영(2019). 사회과학통계의 기본. 서울: 학지사.
성태제(2015). 현대 기초통계학. 서울: 학지사.
오만숙(2017). 베이지안 통계추론. 서울: 자유아카데미.
'Data Scientist' 카테고리의 다른 글
파이썬(기초 용어, 표현식, 문장, 프로그램, 키워드, 식별자) (0) | 2020.03.10 |
---|---|
통계기초(베이지안 통계) (0) | 2020.03.09 |
통계기초(평균의 검정) (0) | 2020.03.06 |
통계기초(표집이론) (0) | 2020.03.04 |
통계기초(자료의 중심과 퍼짐) (0) | 2020.03.03 |