본문 바로가기

Data Scientist

(39)
통계기초(베이지안 통계) 확률과 베이즈 정리 확률(probability): 불확실성을 나타내는 측도로 불확실성의 정도를 0과 1사이의 값으로 수량화한 것 표본공간(S, sample space): 통계적 실험에서 모든 가능한 실험결과들의 집합 사건, 사상(event): 통계적 실험에서 발생가능한 결과 ex. 주사위 던지기 표본공간 = {1, 2, 3, 4, 5, 6} 짝수가 나오는 사건(A)의 확률 랜덤한 실험에서 실험결과들이 항상 동일하게(ex. 1/6) 발생하지 않기 때문에 사건들이 불확실성을 가지며, 이 사건들에 대한 불확실성, 즉 발생할 가능성을 나타낼 필요가 있다. 이때 사건의 가능성의 정도를 확률이라 하며, 사건 A의 확률을 P(A)라고 표기한다. 확률의 기본 성질 1) 표본공간 S에서 임의의 사건 A에 대하여 0≤P(..
통계기초(상관관계 ,공분산) 연속형 자료의 상관 I. 상관 두 양적변수간의 관계 확인: 산포도, 공분산, 상관계수 자료예시(산포도, scatter plot)) II. 공분산(covariance) 두 변수의 관계를 수량화 두 짝지어진 변인(paired variables)이 어떤 방향으로 같이 움직이는지(covary)를 측정 모집단에서 두 변수 X, Y의 공분산 표본에서 두 변수 X, Y의 공분산 (Xi - Xbar)(Yi - Ybar): X와 Y의 교차곱(cross product) 참고) 분산은 동일한 변수간 공분산 ♧ 공분산의 해석 양의 공분산을 가진다면 두 변수가 같은 방향으로 움직임(정적 상관) 음의 공분산을 가진다면 두 변수가 반대 방향으로 움직임(부적 상관) 공분산이 0에 가까운 값이라면 두 변수는 서로 상관이 없음 공분산이..
통계기초(평균의 검정) ♣ 통계적 가설검정의 이해 1-1. 통계적 가설 검정의 단계 가설검정 유의수준을 통해 의사결정 규칙 정하기 검정통계량 계산 통계적 의사결정과 해석 1-2. 통계적 가설 설정 대립가설, 연구가설(Ha 또는 H₁) 연구자가 증명하고 싶었던 가설 ex) xx의 효과가 있다. 차이가 있다 영가설, 귀무가설(H0) 연구자가 증명하기를 원했던 가설의 반대가설 ex) xx의 효과가 없다. 차이가 없다 연구자는 먼저 영가설이 옳다고 가정하고 검정을 진행함 -> 연구자는 귀무가설을 기각하고 대립가설을 채택하기를 원한다. 통계적 가설 검정은 1. 표본에서 검정통계량(test statistic)을 계산함으로써 시작 검정통계량이란 자료를 하나 또는 적은 수의 숫자로 요약되는 것 2. 그 검정통계량이 따르는 분포(표집분포, s..
통계기초(표집이론) 추리통계의 핵심은 통계적 가설 검정이며, 이를 이해하기 위해서는 표집이론에 대한 이해가 필수이다. 표집분포의 이해 I. 표집(sampling) 통계학에서 표집이란 모집단으로부터 표본을 추출하는 과정이다. 전체 모집단을 모두 측정, 분석한다는 것은 현실적으로 가능하지 않기 때문에 표본을 추출하고 그에 기반하여 모집단에 대한 추리, 추론을 하려는 것이다. II. 모집단의 분포 모집단분포란 연구대상이 되는 전체의 속성을 나타내는 분포이다. 모집단의 분포가 정규분포를 따른다면, 모수인 μ와 σ²(또는 σ)에 의하여 다음과 같이 그려진다. III. 표본의 분포 모집단은 기본적으로 매우 크다고 가정하기 때문에 모집단의 속성을 파악하기는 쉽지 않다. 모집단의 속성을 알기 위하여, 모집단을 대표하는 표본을 추출하여 표..
통계기초(자료의 중심과 퍼짐) 집중 경향성(central tendency) 자료의 중심이 어디에 있는지, 자료가 어떤 값들을 중심으로 모이는지 중심경향 측정치 I. 평균(mean) 일반적으로 산술평균을 말하며 모든 점수(n개의 수)의 합을 사례의 수(n)로 나눈 값 극단적인 점수의 영향을 받고, 등간성을 지닌 척도(등간척도, 비율척도)를 이용해 측정한 변수에만 적용될 수 있음 수학적으로 다루기 매우 용이하며 간단한 식으로 표현 가능, 표집이 안정적 집중경향성에 대한 가장 유용한 측정값이며, 거의 모든 추론 통계가 평균에 기초함 변수 X의 모든 값에 상수(c)를 더하여 새롭게 만들어진 변수 (X+c)의 평균은 x̅+c 변수 X의 모든 값에 상수(c)를 곱하여 새롭게 만들어진 변수 (X*c)의 평균은 x̅*c X-x̅ (편차)의 합은 0..
통계기초(모집단, 변수, 측정,무선표집과 무선할당) ♧ 빈도주의 기술 통계(descriptive statistics) 자료의 상태를 있는 그대로 설명하고 기술하는 방식의 통계 그래프나 표를 이용해 자료를 요약해 보여주는 것 표와 그래프, 자료의 중심과 퍼짐 등 추리 통계(inferential statistics) 모집단의 모수를 추정하고, 이 추정치를 이용해 모집단의 속성에 대해 추론하는 통계 집단 중심: 평균 검정(z 검정, t 검정 등), 분산분석 등 변수 중심: 상관관계, 회귀분석 등 I. 모집단과 표본 모집단, 전집(population): 연구자가 관심을 두고 있는 전체 집단 모수(parameter): 모집단의 속성을 보여주는 값 표본(sample): 연구를 위하여 선택된 모집단의 일부분 통계치(statistic): 또는 추정치(estimate):..
통계기초(빈도주의와 베이지안) 통계의 큰 분류( 숲 ) 지금까지 우리는 표본 집합의 부분 집합인 사건에 대해 확률값이라는 숫자를 할당했다. 이 확률값이라는 숫자는 어떤 의미를 가지는 걸까? 확률값이라는 숫자가 가지는 의미에 대해서는 여러가지 해석이 있을 수 있다. 그 중 가장 대표적인 것이 빈도주의(Frequentist) 관점과 베이지안(Bayesian) 관점이다. 빈도주의에서는 반복적으로 선택된 표본이 사건(부분 집합) a의 원소가 될 경향(propensity)을 그 사건의 확률이라고 한다. 예를 들어 동전을 던져 '앞면이 나오는 사건'의 확률값이 0.5라는 것은 빈도주의 관점에서는 실제로 동전을 반복하여 던졌을 경우 동전을 던진 전체 횟수에 확률값을 곱한 숫자만큼 해당 사건이 발생한다고 본다. 예를 들어 10,000번을 던지면 1..
html의 태그 Hyper Text Markup Language An HTML tag is a special word or letter surrounded by angle brackets, . HTML tags are the hidden keywords within a web page that define how your web browser must format and display the content. Most tags must have two parts, an opening and a closing part. For example, is the opening tag and is the closing tag. Note that the closing tag has the same text as the o..