통계의 큰 분류( 숲 )
지금까지 우리는 표본 집합의 부분 집합인 사건에 대해 확률값이라는 숫자를 할당했다.
이 확률값이라는 숫자는 어떤 의미를 가지는 걸까?
확률값이라는 숫자가 가지는 의미에 대해서는 여러가지 해석이 있을 수 있다.
그 중 가장 대표적인 것이 빈도주의(Frequentist) 관점과 베이지안(Bayesian) 관점이다.
빈도주의에서는 반복적으로 선택된 표본이 사건(부분 집합) a의 원소가
될 경향(propensity)을 그 사건의 확률이라고 한다.
예를 들어 동전을 던져 '앞면이 나오는 사건'의 확률값이 0.5라는 것은
빈도주의 관점에서는 실제로 동전을 반복하여 던졌을 경우 동전을 던진
전체 횟수에 확률값을 곱한 숫자만큼 해당 사건이 발생한다고 본다.
예를 들어 10,000번을 던지면 10,000 * 0.5 = 5,000번
앞면이 나오는 경향을 가진다는 의미이다.
베이지안 관점에서 확률은 '선택된 표본이 특정한 사건(부분 집합)에
속한다는 가설(hypothesis), 명제(proposition) 혹은 주장(assertion)의
신뢰도(degree of belief)' 라고도 볼 수 있다. 여기에 반복이라는 개념은
사용되지 않는다.
예를 들어
새는 날 수 있다
라는 명제가 있다고 하면 이 명제는 참인가?
대부분의 새는 날 수 있으므로 이 명제는 참에 가깝지만 닭, 타조, 펭귄 등의
새나 어린 새, 날개를 다친 새등은 날 수 없다. 따라서 항상 참인 명제는 아니다.
그렇다고 명제 전체를 거짓이라고 하는 것은 실용적이지 못하다.
이런 경우 숫자를 사용하여 '이 명제의 신뢰도는 95%이다' 라고 명시할 수
있다면 유용할 것이다. 베이지안 관점에서의 확률은 이러한 명제의 신뢰도를
뜻한다. 따라서 베이지안 관점에서는
새가 날 수 있는 가능성은 95%이다
위의 동전 문제에서 동전을 던져 (빈도주의 관점)
'앞면이 나오는 사건'의 확률값이 0.5다
라는 말의 의미는 베이지안 관점에서는
'앞면이 나왔다'는 주장의 신뢰도가 0.5이다
라는 의미이다.
베이지안 관점에서의 확률의 정의는 무언가 반복되는 것, 또는 빈도와는 전혀
관계가 없다. "확률값이 0.5이다"라는 주장의 신뢰도일 뿐이다.
사건의 발생
베이지안 관점에서 사건(부분집합)이란 "원하는 답(표본)이 포함되어 있을 가능성이
있는 후보의 집합"이며 이런 맥락에서 우리가 어떤 사건을 제시하면 그 자체로
"이 사건에 속한 원소 중에 원하는 답(표본)이 있다"는 명제 혹은 주장을 제시한 것이라
할 수 있다.
또한 베이지안 확률론에서 사건이 일어났다(occur) 혹은 발생했다하는 말은 그 사건(부분집합)
의 원소 중에 정말로 선택된 표본이 있다는 것을 알게 되었다는 것을 말한다. 다른 말로는
해당 사건이 말하고 있는 주장이 진실임을 알게 되었다는 뜻으로 지금까지 모르고 있던
추가적인 정보가 들어왔음을 뜻한다.
예를 들어 불투명한 컵 안에 주사위를 넣고 굴렸다고 가정하자.
"주사위의 눈금이 짝수가 나오는 사건이 발생했다"라는 말은 (나는 주사위의 눈금을
보지 않았지만) 컵을 들어서 주사위의 눈금을 본 사람이 "주사위의 눈금이 짝수다"라는
사실인 정보를 준 것을 의미한다.
빈도주의적 관점과 베이지안 관점의 비교
확률의 빈도주의적 관점과 베이지안 관점은 양립할 수 없는 관계는 아니다.
예를 들어 의사가 환자를 진찰한 후
"검진 결과로 보아 암에 걸렸을 확률이 90%이다"
라고 진단했다고 가정하자.
의사의 관점에서는 "이러한 검진 결과를 가진 환자를 정밀 검사로 확인하는 일을
100번 반복하면 그 중의 약 90명은 암에 걸려 있다"라는 빈도주의적 관점일 수 있다.
하지만 환자의 관점에서는 다른 환자가 암인가 아닌가는 의미가 없기 때문에
"자신이 암에 걸렸다는 의사의 주장이 사실일 가능성(신뢰도)은 90%이다"라는
베이지안 관점으로 바라보게 된다.
확률분포의 정보성
베이지안 관점에서 보면 우리가 알아낸 확률분포는 표본이 어떤 상태에 있는지를
알려주는 정보(information)이다.
예를 들어 4지 선다형 객관식 문제의 확률이 한 사건(3번)에 몰려있다면
P({1})=0
P({2})=0
P({3})=1
P({4})=0
이것은 "답이 3이다"라는 정보를 확보한 것과 마찬가지이다.
따라서 확률분포를 알아내면 문제의 답을 알고 있는지 모르는지를 보여줌과 동시에
만약 알고 있다면 답이 무엇이다라는 정보까지 주게 된다. 반대로 확률이
P({1})=0.25
P({2})=0.25
P({3})=0.25
P({4})=0.25
이와 같이 고르게 분포되어 있다면, 이 문제에 대해 아무것도 모른다.
즉 아무런 정보가 없다고 고백하는 것과 마찬가지이다.
이러한 확률분포의 정보성은 엔트로피(entropy)라는 측도로 측정하게 된다.
엔트로피
엔트로피는 확률분포의 모양을 설명하는 특징값이며 확률분포가 가지고 있는
정보의 양을 나타내는 값이기도 하다. 엔트로피는 두 확률분포의 모양이
어떤 관계를 가지는지 혹은 유사한지를 표현하는 데도 쓰인다.
cf) 조건부엔트로피 / 교차엔트로피와 쿨백-라이블러 발산 / 상호정보량
https://datascienceschool.net/view-notebook/9605664e26a0411b88f60e4ba9521dd9/
https://datascienceschool.net/view-notebook/8bb5f4868f4e4a318d334ff0d9227d53/
https://datascienceschool.net/view-notebook/2553d83904a14038944019550a19e4b2/
https://datascienceschool.net/view-notebook/ff367da95afc43ed8ae6ec30efc0fb9f/
'Data Scientist' 카테고리의 다른 글
통계기초(자료의 중심과 퍼짐) (0) | 2020.03.03 |
---|---|
통계기초(모집단, 변수, 측정,무선표집과 무선할당) (0) | 2020.03.02 |
html의 태그 (0) | 2020.02.27 |
웹크롤링(Selenium) 간단한 검색, 네이버 로그인, yes24검색 후 장바구니 담기 (0) | 2020.02.26 |
웹크롤링(Requests & BeautifulSoup) (0) | 2020.02.26 |