본문 바로가기

Data Scientist

통계기초(상관관계 ,공분산)

반응형

연속형 자료의 상관

 I. 상관

두 양적변수간의 관계 확인: 산포도, 공분산, 상관계수 

 

자료예시(산포도, scatter plot))

 

II. 공분산(covariance)

  • 두 변수의 관계를 수량화
  • 두 짝지어진 변인(paired variables)이 어떤 방향으로 같이 움직이는지(covary)를 측정

모집단에서 두 변수 X, Y의 공분산

표본에서 두 변수 X, Y의 공분산

  • (Xi - Xbar)(Yi - Ybar): X와 Y의 교차곱(cross product)
  • 참고) 분산은 동일한 변수간 공분산

♧ 공분산의 해석

  • 양의 공분산을 가진다면 두 변수가 같은 방향으로 움직임(정적 상관)
  • 음의 공분산을 가진다면 두 변수가 반대 방향으로 움직임(부적 상관)
  • 공분산이 0에 가까운 값이라면 두 변수는 서로 상관이 없음
  • 공분산이 크다면?

참고. 공분산은 오직 두 변인의 직선관계(linear relationship)만을 측정할 수 있다. 만약 두 변인이 비직선관계(nonlinear relationship)을 가지고 있다면 공분산으로 측정되지 않는다. 

 

III. 상관계수(correlation coefficient)

  • 두 양적변수의 선형 관계의 정도
  • 공분산을 표준화

 상관계수의 특징

1. -1부터 1까지의 값을 갖는다.

2. 상관계수의 크기는 두 변수간의 직선관계의 강도

3. 부호(+ 또는 -)는 두 변인의 관계의 방향

4. 두 변인의 척도가 바뀌어도 상관은 변하지 않는다.

 

 상관계수의 해석

통계적으로 유의한 결과면 상관이 높은 것일까?

  • 0: 없음
  • 0.3: 작은상관
  • 0.5: 보통 상관
  • 0.7: 높은 상관
  • 1.0: 완벽한 상관

 상관의 가정

1) 선형성: 두 변인간의 관계가 직선일 때만 상관계수는 그 관계를 제대로 설명할 수 있다.

2) 등분산성(homoscedasticity): 직선관계에 있어서 한 변수의 분산이 다른 변수의 모든 값에 대하여 일치해야 한다.

3) 절단되지 않은 자료: 각 변인의 범위(range)가 잘리지(truncated) 않았다는 가정을 한다.

4) 상관계수를 왜곡시키는 극단값(outlier)이 없어야 한다.

 

 상관의 인과관계

상관이 있으면 인과관계가 있다고 해석할 수 있을까? 

> 상관은 인과관계를 나타내지는 않는다. 

 

 

 

 

😁

출처: 

심미경님

김수영(2019). 사회과학통계의 기본. 서울: 학지사.

성태제(2015). 현대 기초통계학. 서울: 학지사.

오만숙(2017). 베이지안 통계추론. 서울: 자유아카데미.

반응형