본문 바로가기

Data Scientist

통계기초(베이지안 통계)

반응형

확률과 베이즈 정리

  • 확률(probability): 불확실성을 나타내는 측도로 불확실성의 정도를 0과 1사이의 값으로 수량화한 것
  • 표본공간(S, sample space): 통계적 실험에서 모든 가능한 실험결과들의 집합
  • 사건, 사상(event): 통계적 실험에서 발생가능한 결과

ex. 주사위 던지기

표본공간 = {1, 2, 3, 4, 5, 6}

짝수가 나오는 사건(A)의 확률

 

랜덤한 실험에서 실험결과들이 항상 동일하게(ex. 1/6) 발생하지 않기 때문에 사건들이 불확실성을 가지며, 이 사건들에 대한 불확실성, 즉 발생할 가능성을 나타낼 필요가 있다. 이때 사건의 가능성의 정도를 확률이라 하며, 사건 A의 확률을 P(A)라고 표기한다.

 

확률의 기본 성질

1) 표본공간 S에서 임의의 사건 A에 대하여 0≤P(A)≤1 이다.

2) P(S) = 1

3) 서로 배반인 사건의 경우 사건의 합집합은 사건들의 합


조건부 확률

1) 표본공간 S에 속하는 임의의 사건 A, B 이 있을 때 조건부 확률(conditional probability) A라는 사건이 주어졌을 때, 사건 B가 발생할 확률

표본공간이 S에서 A로 축소되었다는 것을 의미함

 

조건부확률의 기본성질

  1. 임의의 사건 B에 대하여, 0≤ P(B l A) ≤ 1
  2. P(A I A) = 1
  3. 서로 배반인 사건 A1, A2, ... 에 대하여 P(A1 + A2 + ... l B) = P(A1 l B) + P(A2 l B) + ...

2) A⊥B ↔ P(B l A) = P(B)

⊥: 직교한다(orthogonal), 독립적이다.

두 사건 A, B가 독립적이라면, B의 사후확률과 사전확률은 같다.

사건 B의 발생은 A라는 사건발생에 상관없이 일어난다. 

 

3) 확률의 곱법칙(Multiplication Rule)

두 사건 A, B가 시간적 순서대로 일어날 때 유용 

4) 표본공간의 분할

Partition of S : {A1, A2, ... , Ak} ... k개의 사건들의 집합

↔ ① A1, A2, ... Ak 가 서로 배반이다. 

   ②

임의의 사건 E에 대하여

만약 S가 A, A의 여집합으로만 분할된다면

 

 

 

5) 베이즈 정리(Bayes' Theorem)


예제1. 

Z마트의 고객은 25%가 중국인이다(75%가 비중국인). 중국인의 40%는 붉은색 옷을 입고, 비중국인은 10%만이 붉은색 옷을 입는다. 중국인을 타겟으로 하는 상품을 팔려고 하는데, 붉은색 옷을 입은 고객이 나타났다. 이 사람이 중국인일 확률은 얼마일까?

 

중국인 C, 붉은 옷 R, 우리가 구하려는 값은 P(C l R) 

우선 가진 정보를 정리해보자

P(C)=0.25, P(~C)=0.75, P(R l C)=0.4, P(R l ~C) = 0.1

공식에 대입하면 간단히 계산이 가능하다. 

57%의 확률로 붉은 옷을 입은 고객은 중국인이다. 

 

별해

한칸을 0.1의 확률로 산정하고 넓이를 구하는 방식으로 푼다. 

중국인일 확률이 0.25, 아닐 확률이 0.75이다. 

내가 구하고자 하는 확률은 빨간 옷을 입었는데 중국인일 확률이다. 

넓이를 구하고자 하면, 0.4 * 0.25 / (0.4 * 0.25 + 0.75 * 0.1) = 4/7이다. 

 

예제2. 

수신메일의 60%가 스팸메일이다. 스팸메일의 30%에는 제목에 "할인"이라는 문구가 들어가고, 스팸이 아닌 메일에서는 5%만이 제목에 "할인'이라는 문구가 들어간다. "할인"이라는 문구가 들어간 메일이 왔을 때, 이 메일이 스팸일 확률은? 

스팸메일 S, "할인" 문구 D, 우리가 구하려는 값은 P(S l D)

P(S) = 0.6 / P(~S) = 0.4 / P(D l S) = 0.3 / P(D l ~S) = 0.05

0.3 * 0.6 / (0.3*0.6+0.4*0.05) = 0.9 

 

😁

출처: 

심미경님

김수영(2019). 사회과학통계의 기본. 서울: 학지사.

성태제(2015). 현대 기초통계학. 서울: 학지사.

오만숙(2017). 베이지안 통계추론. 서울: 자유아카데미.

https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%A0%95%EB%A6%AC

 

베이즈 정리 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 확률론과 통계학에서, 베이즈 정리(영어: Bayes’ theorem)는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터 사후확률을 구할 수 있다.[1] 베이즈 정리는 불확실성 하에서 의사결정문제를 수학적으로 다룰 때 중요하게 이용된다. 특히, 정보와 같이 눈에 보이지 않는 무형자산이 지닌 가치를 계산할 때 유용하게 사용된다. 전통적인 확률이

ko.wikipedia.org

 

반응형