확률과 베이즈 정리
- 확률(probability): 불확실성을 나타내는 측도로 불확실성의 정도를 0과 1사이의 값으로 수량화한 것
- 표본공간(S, sample space): 통계적 실험에서 모든 가능한 실험결과들의 집합
- 사건, 사상(event): 통계적 실험에서 발생가능한 결과
ex. 주사위 던지기
표본공간 = {1, 2, 3, 4, 5, 6}
짝수가 나오는 사건(A)의 확률
랜덤한 실험에서 실험결과들이 항상 동일하게(ex. 1/6) 발생하지 않기 때문에 사건들이 불확실성을 가지며, 이 사건들에 대한 불확실성, 즉 발생할 가능성을 나타낼 필요가 있다. 이때 사건의 가능성의 정도를 확률이라 하며, 사건 A의 확률을 P(A)라고 표기한다.
확률의 기본 성질
1) 표본공간 S에서 임의의 사건 A에 대하여 0≤P(A)≤1 이다.
2) P(S) = 1
3) 서로 배반인 사건의 경우 사건의 합집합은 사건들의 합
조건부 확률
1) 표본공간 S에 속하는 임의의 사건 A, B 이 있을 때 조건부 확률(conditional probability) A라는 사건이 주어졌을 때, 사건 B가 발생할 확률
표본공간이 S에서 A로 축소되었다는 것을 의미함
조건부확률의 기본성질
- 임의의 사건 B에 대하여, 0≤ P(B l A) ≤ 1
- P(A I A) = 1
- 서로 배반인 사건 A1, A2, ... 에 대하여 P(A1 + A2 + ... l B) = P(A1 l B) + P(A2 l B) + ...
2) A⊥B ↔ P(B l A) = P(B)
⊥: 직교한다(orthogonal), 독립적이다.
두 사건 A, B가 독립적이라면, B의 사후확률과 사전확률은 같다.
사건 B의 발생은 A라는 사건발생에 상관없이 일어난다.
3) 확률의 곱법칙(Multiplication Rule)
두 사건 A, B가 시간적 순서대로 일어날 때 유용
4) 표본공간의 분할
Partition of S : {A1, A2, ... , Ak} ... k개의 사건들의 집합
↔ ① A1, A2, ... Ak 가 서로 배반이다.
②
임의의 사건 E에 대하여
만약 S가 A, A의 여집합으로만 분할된다면
5) 베이즈 정리(Bayes' Theorem)
예제1.
Z마트의 고객은 25%가 중국인이다(75%가 비중국인). 중국인의 40%는 붉은색 옷을 입고, 비중국인은 10%만이 붉은색 옷을 입는다. 중국인을 타겟으로 하는 상품을 팔려고 하는데, 붉은색 옷을 입은 고객이 나타났다. 이 사람이 중국인일 확률은 얼마일까?
중국인 C, 붉은 옷 R, 우리가 구하려는 값은 P(C l R)
우선 가진 정보를 정리해보자
P(C)=0.25, P(~C)=0.75, P(R l C)=0.4, P(R l ~C) = 0.1
공식에 대입하면 간단히 계산이 가능하다.
57%의 확률로 붉은 옷을 입은 고객은 중국인이다.
별해
한칸을 0.1의 확률로 산정하고 넓이를 구하는 방식으로 푼다.
중국인일 확률이 0.25, 아닐 확률이 0.75이다.
내가 구하고자 하는 확률은 빨간 옷을 입었는데 중국인일 확률이다.
넓이를 구하고자 하면, 0.4 * 0.25 / (0.4 * 0.25 + 0.75 * 0.1) = 4/7이다.
예제2.
수신메일의 60%가 스팸메일이다. 스팸메일의 30%에는 제목에 "할인"이라는 문구가 들어가고, 스팸이 아닌 메일에서는 5%만이 제목에 "할인'이라는 문구가 들어간다. "할인"이라는 문구가 들어간 메일이 왔을 때, 이 메일이 스팸일 확률은?
스팸메일 S, "할인" 문구 D, 우리가 구하려는 값은 P(S l D)
P(S) = 0.6 / P(~S) = 0.4 / P(D l S) = 0.3 / P(D l ~S) = 0.05
0.3 * 0.6 / (0.3*0.6+0.4*0.05) = 0.9
😁
출처:
심미경님
김수영(2019). 사회과학통계의 기본. 서울: 학지사.
성태제(2015). 현대 기초통계학. 서울: 학지사.
오만숙(2017). 베이지안 통계추론. 서울: 자유아카데미.
https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%EC%A0%95%EB%A6%AC
'Data Scientist' 카테고리의 다른 글
파이썬(자료형과 문자열: 자료, escape 문자, 문자열(연결/반복/선택[인덱싱, 슬라이싱], 길이) ) (0) | 2020.03.11 |
---|---|
파이썬(기초 용어, 표현식, 문장, 프로그램, 키워드, 식별자) (0) | 2020.03.10 |
통계기초(상관관계 ,공분산) (0) | 2020.03.08 |
통계기초(평균의 검정) (0) | 2020.03.06 |
통계기초(표집이론) (0) | 2020.03.04 |