빅데이터를 지배하는 통계의 힘
니시우치 히로무 저/신현호 역 비전코리아 | 2013년 07월 30일 | 원제 : 統計學が最强の學問である||
정가 15,000원, 할인가 13,500원/사진 출처: yes24
19세기 런던에서 인류는 통계학의 힘을 빌려 만 단위의 인명을 앗아간 원일을 알아내는데 도전했고 원인 모를 전염병을
막기 위해 연구한는 학문을 역학이라고 한다.
당시 외과의사 였고 역학의 아버지 '존 스노(John snow, 1813~1858)가 한 행동은 단순했다.
-콜레라로 목숨을 잃은 희생자 집마다 방문해 이것저것 묻고 주변 환경을 잘 관찰한다.
-똑같은 상황 아래서 콜레라에 걸린 사람과 걸리지 않은 사람의 차이를 비교한다.
-가설이 세워졌으면 대규모로 데이터를 모아 콜레라의 발병과 관련돼 있을 것처럼 보이는 '차이'가 어느 정도 확실성이 있는지 검증한다.
결과적으로 급수 펌프 시설별 이용 가옥 수와 콜레라 사망자 수를 확인했고 유의미한 결과를 냈다.
용어 정리
역학: 어떤 지역이나 집단 안에서 일어나는 질병의 원인이나 변화를 연구하는 학문. 전염병의 예방, 치료 연구에서 시작해
현재는 재해나 공해 등의 문제도 다룬다.
빅데이터: 일차적인 뜻은 데이터 양이 방대해 종래의 방법으로는 수집, 저장, 검색, 분석하기 어려운 것을 말한다.
그러나 이차적으로는 그런 큰 데이터를 여러 기법을 이용해 유의미한 정보로 만들어내는 과정까지를 포함한다.
데이터마이닝(Data Mining): 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견해 미래에 실행 가능한 정보를 추출해내고 의사 결정에 이용하는 과정을 말한다.
이미 축적된 대량의 데이터로부터 쓸 만하고 가치 있는 정보 혹은 가설을 추출해내는 것, 또는 추출해내기 위한 방법. '슈퍼마켓의 계산 데이터를 데이터마이닝한 결과 기저귀와 맥주가 동시에 팔리는 비율이 의외로 높았다' 같은 식으로 자주 쓰이는 용어이다.
텍스트마이닝(Text Mining): 사람이 읽기 위해 쓴(혹은 듣기 위해 말한) 비구조적 텍스트를 분석하는 방법론.
언어학 기법이 발전해 비즈니스에도 응용되고 있다. 형태소 분석이란 문장의 최소 의미 단위로 나누는 것을 말하는데 이런 과정을 통해 등장하는 형태소 간의 관계성을 분석한다.
엑사데이터(Exadata): 오라클사가 만든 빅데이터 관련 주력 상품으로 하드웨어와 소프트웨어 양면으로 데이터를 분산시켜 고속 처리하도록 최적화되어 있다. 성능이 뛰어나고 가격도 비싼가보다.
그린플럼(greenplum): 오픈소스 기술을 적절하게 사용하기 때문에 비용을 덜 들이고 규모는 업그레이드 시켜서
거대 데이터를 고속 처리할 수 있다.
분산처리(Distributed Processing): 완벽하게 처리하기 힘든 대량 데이터도 100대의 서버에 분산시킨 다음, 마지막에에다시 정리하면 100배 빠르게 처리할 수 있을 것이라는 개념에서 출발했다. 데이터 구조나 알고리즘에 따라 분산과 정리 접근법이 다르다는 것이 어렵다.
인메모리 데이터베이스(In memory database): 데이터를 읽거나 쓰는 속도를 고속화하기 위해 하드디스크나 SSD가 아닌 메모리(RAM)에 데이터를 기록한다. 전원이 나가면 데이터가 소실되기 때문에 SSD와 RAM을 조합해 서로 약점을 보완하려는 연구가 진행되고 있다. 온메모리라고도 한다.
AWS: 아마존 웹서비스에 의한 데이터베이스나 데이터 해석 등의 클라우드 서비스. 빅데이터나 분산처리에 대응하는 것도 있다.
비구조화 데이터: 기존의 일반적인 데이터베이스(RDB: Relational Data Base)는 '형태가 정해진 깨끗한 표'와 '표끼리의 연결'을 바탕으로 데이터를 보존하거나 검색하는데, 그런 형태로 정리하기 어려운 혹은 굳이 정리하지 않는 데이터.
NoSQL: RDB처리는 SQL이라는 언어로 기술되는데 그와는 다른 방법으로 데이터를 보존하거나 처리하는 것을 의미
KVS(Key Value Store): RDB에서는 표와 표끼리의 연결 형태로 처리하지만 이것은 표의 내부값(value)과 값끼리의
연결(key) 형태로 데이터를 처리한다. 비구조화 데이터를 포함해 대규모 데이터를 분석 처리하는 데 편리하다.
A/B 테스트: A/B testing은 두 종류의 웹 페이지를 놓고 어떤 버전의 웹페이지가 판매 연결률이 더 높은지를 실험해보는 것이다.
표준오차(standard error)는 모집단 평균으로부터의 거리를 나타내는 척도를 의미한다. 표준오차는 비율이 50%일 때, 최대가 된다.
표준오차란 표본에서 얻어진 비율에 대해 표준오차의 두 배를 뺀 값에서 표준오차의 두 배를 더한 값까지의 범위에 참값이 포함될 신뢰성이약 95%라는 값을 말한다.
그리고 95% 신뢰성에서 참 값과 표본 값의 차이는 표준오차의 두 배를 벗어나지 않는다.
표본 값-(표준오차 X 2) < 참 값 < 표본 값+(표준오차 X 2) |
예를 들어 표본조사의 표본 득표률이 25%이고 오차가 0.5%라고 할 때 실제 득표률이 24%~26% 사이라고 말할 수 있다.
표본오차(sampling error)는 표본의 추측값과 모집단의 추측값 사이의 거리를 나타낸다.
표집된 소집단의 측정치를 모집단의 추정치로 논리적 추론을 하는 과정에서 발생
① 표본오차는 표본의 크기가 증대함에 따라 감소
② 표본집단의 크기가 전체 모집단과 일치(연구가 전수조사의 형태를 띔) ⇒ 표본오차가 0이 됨
오차와 인과관계가 통계학의 핵심이다
통계 해석은 다음 세 가지 질문에 모두 대답할 수 있어야 한다.
1. 어떤 요인을 변화시켜야 이익이 향상될까?
2. 그런 변화를 일으키는 행동이 실제로 가능한가?
3. 그에 따르는 비용이 이익을 상회할까?
요인 비교를 위한 집계(교차 분할표: cross tabulation, 2개의 변수가 몇 개의 카테고리로 분류되는 경우의 빈도표를 작성하는 것을 말한다.)
교차 분할표를 보고 '의미 있는 편의'인지 아니면 '이 정도의 차이는 오차인지'를 확인하는 해석기법으로 '카이제곱검정'이라는 것이 있다.
* 카이제곱검정: 1904년 칼 피어슨이 처음으로 사용한 것으로 실제 관찰 빈도와 통계적으로 기대할 수 있는 빈도(기대 빈도) 간의 차이를 카이제곱 분포를 참조해 통계적으로 검증하는 기법
'실제는 아닌데도 오차나 우연에 의해 데이터와 같은 차이(정확히는 그 이상의 극단적인 차이를 포함)가 생길 확률'을 P-값이라고 한다. P-값이 작을 때(5% 이하) 과학자들은 '이 결과는 우연히 얻어졌다고 생각하기 어렵다' 또는 '유의하다'라고 판단한다.
그것은 이익에 직결되는가?
정작 분석을 할 때 문제가 되는 것이 있다.
'적절한 비교란 무엇인가', 즉 무엇과 무엇을 비교해야 하는가' 하는 점이다.
'구매금액'이나 '구매율'같이 매출과 직결되는 지표를 여러 측면으로 비교해야 한다는 이야기를 했었다. 하지만 비즈니스에는 비교해야 할 정보가 많으며 해석하는 것이 통계학이 핵심이다. 그러나 실제 현장에서는 '어떤 데이터를 수집하고 해석할까' 하는 부분이 더 중요하다.
비결은 '지향하는 목적을 달성한 것'과 '그렇지 않은 것'의 차이를 비교하면 된다.
ex) 장수vs단명vs병약, 이김vs짐vs비김 -> 이익을 극대화하려면??
비즈니스맨이라면 직접적인 이익이 생기는가, 혹은 거기에 도달하는 인과관계의 과정이 확실한가 하는 점, 그리고 많은 데이터 중 무엇이 어떤 관계성을 갖고 이익으로 이어지는지를 생각해 보아야 한다.
무엇이 가장 큰 이익을 끌어낼지, 어떻게 이익으로 연결시킬지 이러한 관점들에 기반한 사고를 장착해야 한다.
'인과관계의 방향'을 밝혀내어야 한다
예를 들어 광고를 본 사람일수록, 광고 내용을 오래 기억하는 사람일수록 물건을 살 가능성이 높다고 생각한다.
라는 가정이 있다면 이는 반대로 설명하는 것 또한 가능하다.
'광고를 봐서 상품을 구매'한 것인지 '상품을 사서 광고를 그 후에도 기억하고 있는지'는 확실히 규정할 수 없다.
이처럼 한 시점의 조사 데이터의 해석 결과는 P- 값이 아무리 적더라도 어느 쪽 가설이 올바른지 완전한 정보를 제공하지 않기 때문이다.
통계학적 해결법이라 한다면
- 관련있는 조건을 가급적 계속 추적 조사하고 통계학적 기법을 이용해 측정된 조건에 한해서 '공정한 비교'를 하는 방법이다.
- 정확한 해석을 위해 본래의 데이터를 어떻게 다룰 것인가의 시점으로 돌아가 조건을 최대한 '공정'하게 갖춰놓는 방법이다.
'과학'의 대상을 확대시킨 임의화 비교실험: 강력한 힘을 가졌다고 말한느 가장 큰 이유는 '인간이 제어할 수 있는 그 무엇이라도 인과관계를 분석할 수 있기 때문'
과학적 방법론의 중요한 특징을 '관찰과 실험'이라 정의한 프랑스의 수학자이자 물리학자인 앙리 푸앵카레(Jules Henri Poincaré, 1854~1912)는 다음과 같이 말했다.
'관찰'이란 대상을 자세히 보고 측정해 그로부터 어떤 진실을 밝히는 행위이다. '실험'은 다양하게 조건을 바꾼 상태에서 대상을 보고 측정해 그로부터 어떤 진실을 밝히는 행위이다.
'오차'에 접근하는 세 가지 방식
- 실제 데이터를 전혀 취급하지 않고 단지 가설이나 이런 사례가 있었다는 말만으로 이론모델을 세우는 방식
- 결과가 그렇게 나타난 사례만 보고하는 방식(100번 시도해서 100번 그렇게 된다, 멘델의 유전법칙)
- 임의화를 활용해 인과관계를 확률적으로 표현하는 방식(피셔의 실험계획법)
임의화하면, 비교하려는 두 그룹의 모든 조건이 거의 평균화된다. 그리고 마지막 조건인 실험을 통해 조절하려고 하나의 변수만 다르게 한다. 그 상태에서 두 그룹에 '오차라 보기 힘든 차이'가 생겼다면 그것은 '그 변수로 인해 수확량에 차이가 났다'라고 판단해 인과관계를 거의 실증했다고 볼 수 있다. > 유의한 차이를 발생시키는 변수의 인관관계 실증
임의화 비교실험을 적절히 다룰 줄 알게 되면, 그로 인해 검증된 결과는 이제 과학적으로 옳다고 보아도 무방하다.
과학이란 올바른 일에 최대한 겸허하게 그리고 대담하게 파고드는 자세다.
1억 5000만 달러를 벌게 해준 클레임 대응
비행기 지연 & 대기예약에서 취소당해 곤란을 겪은 고객에게 대응하기 위한 콘티넨탈항공의 임의화 비교실험
- 공식적인 사과편지를 보낸다.
- 사과 편지 외에 프리미엄 클럽 임시 무료가입권을 준다.
- 특별히 아무런 행동도 취하지 않는다. (몇 달이 지난 후에도 분노)
사과편지 받은 두 그룹은 지출한 돈이 8% 증가. 이 중 프리미엄클럽 임시 무료가입권을 제공받은 고객의 30% 정도는 무료기간이 끝난 후에도 자기 부담으로 회비를 지불했다.
이 후 콘티넨탈항공은 문제가 생길 때마다 재빨리 사과편지와 프리미엄클럽 무료가입권을 보냈고 1억 5000만 달러의 매출을 증가시켰다.
> 사내에 수없이 산적해 있는 문제에 대해, 정답이 없으면 우선 임의로 정해놓고 실험해보는 것의 가치는 생각 이상으로 크다. 다만 지속적으로 데이터를 수집하는 일은 절대로 소홀히 해서는 안된다. 그래야만 나중에 정확하게 '그 방법이 좋았는지', '어느정도 이익으로 이어졌는지' 등의 부분을 평가할 수 있기 때문이다.
임의란 의외로 어렵다
우리가 '무작위로' 혹은 '대충' 끄집어낸 숫자는 종종 '임의'가 되지 않을 수도 있다.
사람은 종종 '세 문자가 계속 이어지면 부자연스럽지 않을까?' 하며 이유도 모르는 배려를 해 이 조합을 피하려는 경향이 있다. 이러한 이유로 임의화를 하려면 '의도' 없이 '임의'만을 추구해야 한다.
<pyton 난수 생성> numpy.random.randint(low, high=None, size=None, dtype='l')
>>> np.random.randint(2, size=10)
array([1, 0, 0, 0, 1, 1, 0, 0, 1, 0])
>>> np.random.randint(1, size=10)
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
임의화의 세가지 한계
첫 번째 벽은 '현실', 두 번째 벽은 '윤리', 세 번째 벽은 '감정'
1. '현실'의 벽
'절대적인 표본수의 제한'과 '조건 제어 불가능성'이다.
예를 들어 우주왕복선을 달에 보낼 때 승무원은 3명이 좋을지 4명이 좋을지를 놓고 NASA에서 갑론을박이 벌어졌다면?
임의화 비교실험은 100번의 비행 중 절반은 3명, 나머지 절반은 4명을 보내고 투입한 비용당 성과를 비교하면 된다.
하지만 100번의 비행을 감당할 예산을 구할 수는 없다.
이처럼 '단 한번만의 기회' 혹은 있더라도 겨우 몇 번 정도밖에 기회가 주어지지 않는 일에서는 통계학은 무기력하다.
데이터가 하나밖에 없다는 것은 오차도, 표준편차도 없이 단 하나의 값이 평균값이자 최대값이며 최소값이다.
또 하나의 현실의 벽은 임의화하려고 해도 조건을 조절하는 것 자체가 불가능한 경우이다.
예를 들어 '지진을 경험한 직원들은 정신적으로 강해진다'라는 가설을 검증해야 하는데, 지진을 조절하는 기술이 없어 실험을 진행할 수 없을 뿐더러, 기술이 있다하더라도 원하는 조건 속에서 실험을 진행하기는 어렵다.
2. '윤리'의 벽
위의 '지진' 실험에서는 윤리의 벽도 매우 중대한 문제로 작용한다. 이 실험을 하다 건물이 파괴되거나 사람이 큰 부상을 입게 된다면 누가 가만히 있겠는가. 설령 '이 실험이 좋은 결과를 내면, 앞으로 지진에 의한 사망자가 엄청나게 줄어들 겁니다'라는 명분을 내세운들 확실하지도 않은 '앞으로의 혜택을 누릴 사람들'을 위해 지금 확실한 사상자를 내는 상황을 과연 올바르다고 말할 수 있을까?
일반적으로 통계학자들 사이에서 공유되는 윤리적 지침은 다음과 같다.
- 임의화에 의해 인위적으로 유해한 경우가 생겨서는 안 된다(가능성이 높은 경우도 포함)
- 유해한 것이 일절 없더라도 '좋다', '나쁘다'처럼 불공평하게 극 대 극 상황이 벌어질 것을 예상할 수 있는 경우도 안 된다.
두 번째 지침의 경우 반사회적이지는 않지만 형평성 측면에서 문제가 될 수 있다. 특별한 이유도 없이 임의의 국민 반수에게만 감세 혜택을 주거나, 임의의 암환자 반수에게만 효과가 입증된 좋은 약을 투여한다든지 하는 경우이다. 뒤집어 말하면 '나머지 반수에게는 분명 나쁜 짓'을 하는 것이나 다름없다.
그러나 얼핏 보아 '어느 한 그룹에는 좋은 일'이라도 통계학적 실증이 불충분해 '실제로 어느 쪽이 좋은지 확실히 모르겠다' 라는 상황이라면 임의화 비교실험은 정당화될 수 있다.
3. '감정의 벽
'임의화에 의해 운명이 좌우되는 것은 왠지 꺼림칙하다'며 실험에 참가하기를 주저하는 경우도 있다. 이 것이 마지막 세 번째 한계인 '감정'의 벽이다.
사회보장제도, 그리고 교육 등 어떤 분야에서든 임의화 비교 실험을 하는 것이 장기적으로는 좋은 사회를 구현하는 방법임에는 틀림없다. 하지만 '대충 정해지는 것 같아서 싫어' 혹은 '내가 손해 보는 쪽이 되기는 싫어' 하며 감정적으로 강하게 저항하는 사람이 수익자나 관계자 중에 있다면 그 또한 고려해야 할 문제이다.
비즈니스 부문에서도 감정적인 면에서의 반감에 대비하지 않으면 고객이나 거래처 또는 상사로부터 털릴 수 있다.
예를 들어 아마존닷컴은 한때 가격산정 방법을 개선하기 위해 임의화 비교실험을 한 적이 있는데 그 사실이 고객에게 처음 알려졌을 때 크게 문제가 되었다. 같은 상품인데 기존 구매 고객과의 가격 차이가 5달러가 났기 때문이다. 이런 사실이 퍼지면서 최고책임자가 직접 사과성명을 내고 최저가 약속을 하면서 사건이 일단락되었다. 앞서 들었던 예시인 콘티넨탈 항공의 경우도 고객이 임의로 선택되어 편지를 받았고, 못받았으니 나는 무시당했다 같은 오해를 산다면 그 뒤야 굳이 말하지 않아도 알만하다.
'비교 대조 분석 연구'의 등장
윌리엄 돌과 A. 브래드포드 힐은 '비교 대조분석(case control) 연구'라 불리는 데이터 취합 방법을 이용했다.
역학에서 말하는 케이스란 밝히고자 하는 병에 걸린 사례(환자)를 가리키며, 컨트롤이란 그 비교 대조를 말한다(참고로 '비교 대조'는 역학의 전문 용어로 '비교 대상'과는 다른 개념이다).
비교 대조를 할 때는 '관심이 있는 질환과 위험요인의 유무 이외는 조건이 매우 닮은 대상자'들이 선택된다.
'매우 닮았다'의 정의는 연구에 따라 다양하게 규정되는데, 중요한 것은 관심이 있는 위험 요인 말고는 가급적 모든 조건을 동등하게 갖추는 것(층별 해석)이 바람직하다.
이렇게 층별 해석을 통해 비교하면, 임의화를 하지 않아도 '공정한 비교'를 할 수 있다.
이러한 주장에 피셔가 반론을 했다.
임의화 비교실험을 하지 않은 해석은 아무리 '동등한 그룹끼리 층별 해석을 했다' 하더라도 엄밀한 의미로 한계가 있을 수 밖에 없다는 것이다.
임의화를 하면 어떤 조건에 대해서도 비교하고 싶은 두 그룹은 평균적으로 동일해진다.
'어떤 조건에 대해서도'라는 말은 그 조건을 측정하든지 안 하든지 변함이 없다는 뜻이다.
우리가 전혀 상상도 하지 못했던 무엇인가가 결과에 영향을 미친다고 해도, 임의화를 하기만 하면 부지불식간에 '평균적으로는 마찬가지'가 된다. 그러나 비교 대조분석 연구에서는 어떨까. '마찬가지'라는 것은 어디까지나 인위적으로 '마찬가지'가 되도록 갖춰놓은 조건뿐이다.
비교 대조분석 연구처럼 폐암 '결과'가 나온 뒤 과거를 추적 조사하는 방식으로는, 그룹 사이의 기억이나 대답 성향의 차이가 문제로 작용할 수도 있다. 그러나 결과가 나오기 전부터 집단을 계속적으로 조사한 프레이밍험 연구 방식의 역학 연구(이 것을 Cohort 코호트 연구라 부른다)를 통해 알려진 에비던스도 인용되고 있다.
코호트 연구: 처음 조건이 주어진 집단(코호트)에 대해 이후 경과를 알기 위해 미래에 대해 조사하는 방법
<New England Journal of Medicine> 의학 잡지에는, '동일한 인과관계를 분석하려는 의학 연구에서 과연 역학 연구는 임의화 비교실험과 비교해 뒤떨어지는 것일까?' 라는 주제의 글이 게재되었다. 이 글의 취지는 90년대 전반의 주요 의학 잡지에 실린 논문을 비교 검토한 결과, 역한 연구를 통해 나타난 위험도는 '임의화 비교실험과 견줘볼 때 결과에 그다지 큰 차이는 없다'이다. 그 이유로서 '고도의 통계 기법을 통해 조건을 적절히 조정할 수 있기 때문'이라는 점을 들고 있다.
임의화 비교실험을 도입하기 어려운 상항이라면, 비교적 저예산으로 신속하게 데이터를 수집할 수 있는 역학적 방법을 이용하는 것이 현실적으로는 더 유리하다. 게다가 우리 사회에는 역학적 방법을 활용할 수 있는 경우가 얼마든지 많다.
'평범으로의 회귀'를 분석하는 회귀분석
'공정한 비교'를 가능하게 하는 더욱 고도한 기법이 바로 '회귀분석'이다.
통계학 교과서를 보면 t검정, 카이제곱검정, 분산분석, 회귀분석 등의 용어가 반드시 등장하는데 이들 통계 기법은 모두 '일반화 선형모델(Generalized linear model)'이라는 광의의 회귀분석 개념으로 한데 묶어 이해할 수 있는데, 1972년 넬더(John Nelder, 1924~2010)와 웨더번(Robert William Maclagan Wedderburn, 1947~1975)이라는 2명의 통계학자에 의해 제창되었다. 데이터 간의 관련성을 나타내고 그것이 오차라 할 수 있는 범위인지 검정하는 기법은 모두 폭넓은 의미로 볼 때 회귀분석의 일종이다.
골턴은 우생학(인류를 유전적으로 개량할 것을 목적으로 하여 여러 조건을 연구하는 학문)을 주장하며 연구를 진행했는데, 약 1000그룹의 부모와 자식의 키를 측정해 '우수한 부모에게서 우수한 자녀가 태어난다'는 현상을 실증하려고 했다. 결과는 키 큰 부모의 자녀라고 해서 키가 다 큰 것도 아니고, 키 작은 부모의 자녀라 하여 키가 다 작은 것이 않다는 것이었다. 이러한 현상을 골턴은 '평범으로의 회귀'라 했는데, 나중에 그의 제자나 영향을 받은 통계학자들에 의해 '평균값으로의 회귀'라 불리게 되었다. 실제 데이터는 이론상으로 추측한 값보다 '평균값에 가까워진다'는 의미이다.
피셔는 '무한한 크기의 데이터를 얻으면 마땅히 알게 되는, 진정으로 알고 싶은 값'을 참값이라 정의했다. 그리고 우연히 얻어진 데이터를 통해 계산한 통계량이 어느 정도의 오차로 참값을 추정할 수 있는지 수학적으로 정리함으로써 무한정 데이터를 모으지 않고도 적절한 판단이 가능하다는 생각을 피력했다.
현실의 데이터로부터 얻어지는 회귀계수 등의 통계량은 어디까지나 이 참값에 대한 추정치이다. 단지 가장 타당한 값을 추정하는 데서 그치는 게 아니라, 참값에 대해 어느 정도의 오차를 가지는지 판단하면 잘못된 결정을 내릴 위험성을 최소한으로 줄일 수 있다.
회귀분석 기초 용어
- 회귀계수의 추정치: 절편과 기울기는 모두 데이터로부터 산출된 값이지만 어디까지나 데이터에 근거해 '참값'을 추정한 결과라는 점에 주의
- 표준오차: 추정치의 오차 크기. 회귀계수의 추정치와 비교했을 때 크게 나타나면 그다지 신뢰할 수 없지만, 이 값 자체를 문제로 삼기보다는 신뢰구간에서 생각하는 편이 낫다.
- 95% 신뢰구간: '회귀계수가 0'의 경우 뿐만 아니라 다양한 회귀계수를 상정해, 'P-값이 5% 이하의 참값으로서 존재할 수 없는 값'이 되지 않는 범위. '거의 이 범위 안에 참값이 있다'고 생각해도 무방하다. 가령 100번의 서로 다른 조사를 했을 때 지금 얻은 수치의 구간이 95번 정도는 포함된다.
- P-값(probability value, 유의확률): 회귀계수가 0이었을 경우 단지 데이터의 불규칙성 때문에 이 정도의 회귀계수로 추정될 수 있는 확률. 일반적으로 5%를 웃돌면 '회귀계수 0으로 생각하기는 어렵다'라고 판단하게 된다. 즉 0.05 이하일 경우 유의하다(95%이기 때문에 0.05).
- 절편: 좌표 평면상의 직선이 x축과 만나는 점의 x좌표 및 y축과 만나는 점의 y좌표를 통틀어 이르는 말.
- t검정: t분포를 사용한 검정의 방식으로, 2개의 정규분포에 따르는 모집단 N(μ1, σ21), N(μ2, σ22)에서 추출된 표본자료로부터, 모평균 μ1, μ2가 같은가 아닌가를 검정하거나, 하나의 정규 모집단에서 추출된 표본자료로부터 계산되는 표본평균이 모평균에 같은가 아닌가를 검정하는 등에 사용하는 일이 많다.
통계학의 이해도를 높여주는 단 한 장의 도표
일반화 선형모델을 정리한 도표
분석축(설명변수) | |||||
두 그룹 간의 비교 | 다 그룹 간의 비교 | 연속값의 크기로 비교 |
복수의 요인으로 동시에 비교 |
||
비교하고 싶은 것 (반응변수) |
연속값 |
평균값의 차이를 t검정 |
평균값의 차이를 분산분석 |
회귀분석 | 다중회귀분석 |
있음/없음 등의 두 값 |
분할표의 기술과 카이제곱검정 | 로지스틱회귀 |
고객 1인당 매출이라는 변수는 0원에서 1원 단위로 증가하는 연속값이다. 이것을 반응변수로서 두 그룹(남녀별 차이 등) 간에 비교하려면 각각의 평균값을 기술하고, t검정에 의해 얻어진 평균값의 차이가 오차범위에 들도록 p-값이나 신뢰구간을 표시하면 된다.
가게 방문 횟수도 연속값으로 나타나는데, 방문을 많이 하는 사람일수록 물건도 많이 사는지 비교하고 싶다면 방문 횟수를 설명변수, 구매금액을 반응변수로 잡아 회귀분석을 하고 회귀계수의 추정치, 신뢰구간, p-값을 각각 표시하면 된다.
'구매 여부(삼, 안삼)'나 '가게 방문 경험(감, 안감)' 등은 단 2개의 값, 즉 '있음', '없음'으로 나타낼 수 있다. 이러한 반응변수를 두 그룹 혹은 셋 이상의 다그룹(예를 들어 연령대별 카테고리 등)에서 비교하고 싶으면, 분할표에서 각 그룹의 구매비율이나 가게 방문 비율 등을 기술한 다음, 카이제곱검정에 의해 '오차범위라 할 수 있는지 없는지(유의한)'를 나타내는 p-값을 표시하면 된다.
연속값도 아니고 두 값도 아닌 경우 실용적 측면에서 두 값 혹은 연속값으로 취급하는 것이 일반적이다.
예를 들어 (1. 전혀 없다 2. 그다지 없다 3. 가끔 있다 4. 자주 있다) 등의 리커트 척도의 경우 1에서 4라는 방향성이나 순위 등이 존재한다. 이런 경우는 1~2인지, 3~4인지 나눠 두 값의 변수로 취급하는 것이 하나의 방법이다.
아니면 '자주있다'와 '기타'의 두 값으로 분류해도 전혀 상관없다. 이 밖에도 1~4의 값을 그대로 연속값으로 놓고 분석하는 방법도 자주 이용된다. (보통 리커트 척도는 홀수 개로 부여하여 중간(보통)의 응답을 회피하고자 한다)
어떤 방법으로도 같은 P-값이 얻어지는 이유
'복수의 요인으로 동시에 비교'할 때의 기법을 사용할 경우 설명변수가 하나밖에 없는 경우에도 사용해도 상관없다.
그룹 간의 비교이든, 연속값이 많든 적든 문제가 되지 않는다.
T검정을 해야 할 경우에 다중 회귀분석을 하든, 카이제곱검정을 해야할 경우에 로지스틱 회귀분석을 하든,
그 어떤 경우에도 완전히 같은 P-값을 얻을 수 있다.
따라서 관련성을 분석하는 기법의 대부분은 광의의 회귀분석이라고 말할 수 있다.
이처럼 결과가 일차하는 것은 본래 수학적 증명을 통해 밝혀야 하지만, t검정과 회귀분석의 결과가 일치하는 정도는 수식을 사용하지 않아도 설명 가능하다.
이 그래프들(직접 그려서 좀 덜이쁘게 그려졌다..)은 t검정, 즉 두 그룹 간 평균값의 차이가 과연 오차범위라고 말할 수 있는지 밝히기 위해 p-값을 산출하는 통계 기법을 나타낸 것이다. 일례로 광고 인지가 '있는 그룹'과 '없는 그룹' 가운데서 구매금액의 평균값에 차이가 있었는지 분석하는 것을 상정하고 도표의 데이터를 작성했다.
각 점은 각 그룹 고객의 구매금액을 나타내며, 평균값은 점선이 있는 곳이다.
t검정으로 분석하고 싶은 평균값은 1평균값과 2평균값의 '높이'의 차이이며, 만약 이것이 데이터의 불규칙성에 의해 생기는 오차범위를 뛰어넘는다면 이 광고는 효과가 있다고 생각해도 좋다.
회귀분석을 하려면 양쪽 다 '숫저;로 정해놓지 않으면 안된다. 그래서 편의적으로 '광고인지 없음'을 0, '광고인지 있음'을 1이라 정하기로 한다.
회귀직선이란 '데이터 중심을 통과하는 선'이므로 당연히 두 그룹의 평균값을 통과하는 직선이 얻어지면 바람직스러운 결과이다.
그리고 그래프에 나타난 직선의 기울기는 '좌표의 세로로 뻗은 길이 / 좌표의 가로로 뻗은 길이'로 나타낸다. (선형대수학을 추가로 공부해주면 좋을 것 같다 > khan academy 근데 양이 너무 많다..)
다시 말해 각 그룹의 평균값에서 이 회귀직선의 기울기를 생각하면, '좌표의 세로로 뻗은 길이'는 두 그룹의 '평균 값의 차이'이다. 그리고 '좌표의 가로로 뻗은 길이'는 1-0, 즉 1이며
'평균값의 차이' / 1 역시 '평균값의 차이'라는 말이나 다를 바 없다.
이처럼 그룹 간의 차이를 0이나 1로 표현하면 '평균값의 차이'와 '회귀계수'는 완전히 같은 값이 된다(t검정=회귀분석).
위에서 본래 수치가 아닌 '두 그룹' 혹은 '두 값의 변수'를 0이나 1로 표현한 것처럼, 측정 편의상 사용하는 특정 변수를 더미변수(dummy variable)라고 부른다. 회귀분석 표에 '남성 더미'라던가 '고령자 더미'라는 말이 있다면, 각각 남성은 1, 여성은 0, 고령자는 1, 고령자가 아니면 0 등으로 정해주어 변수로써 회귀분석에 사용했다는 의미로 이해하면 된다. 남성 더미의 회귀계수(기울기)가 5.2라고 쓰여있다면 '여성에 비해 남성은 5.2만큼 반응변수가 큰 경향'이라 풀이하고 반대로 음수일 경우 작은 경향으로 보면 된다.
'평균값의 차이'와 '회귀계수'는 늘 일치하는 게 아니고, 오차나 불규칙성이 생길 경우도 고려할 필요가 있다는 점을 지적할 수도 있으나 얻어진 데이터로부터 산출된 그룹 간의 평균값과 회귀계수는 완전히 동일한 t분포에 따르는 불규칙성을 가지는 것이 피셔에 의해 증명되었다. 동일한 데이터로부터 본질적으로 같은 값(평균값의 차이와 회귀계수)을 추정하고, 게디가 이론 상의 불규칙성 마저 같다면 결과도 완전히 동일해지는 것이 당연하다.
일반화 선형모델을 통해 데이터 간의 관련성을 분석하거나 추측하는 해석의 대부분은, 광의의 회귀분석의 일부라는 점을 다시 상기하자. 이중에서 다중회귀분석은 설명변수, 즉 예측하고 싶은 결과에 영향을 주는 요인이 다수 있는 상황으로 확장시킨 회귀분석이다.
다중회귀분석과 로지스틱회귀분석
다중회귀분석은 '공정한 비교'를 할 때 매우 중요한 역할을 하며 이 것을 확장한 개념인 로지스틱 회귀분석으로도 많이 나타낸다. 그런데 왜 '공정한 비교'가 가능해질까?
♧ 공정한 비교를 가로막는 심슨의 패러독스
'공정한 비교'를 하지 않아 잘못된 판단을 할 수 있는 예의 하나로 심슨의 패러독스가 있다.
"A고와 B고의 같은 학년 학생에 똑같은 문제를 풀게 했고, 남학생과 여학생을 분리하여 비교했을 때 A고의 점수가 5점 높았다. 그러나 남여 학생 전체의 평균을 비교하였을 때는 오히려 B고의 점수가 높았다. "
이처럼 전체 집단 간의 단순비교는 그 구성요소가 되는 소집단 간의 비교 결과와 모순되는 경우도 있다는 것이 심슨의 지적이다. 임의화를 하지 않는 역학 등의 관찰 연구에서 단순한 비교로 일견 큰 차이가 생겼더라도, 단지 A고와 B고의 남녀비율 같은 '구성요소'의 차이일지도 모르지만 전혀 차이가 나지 않는 것 또한 역시 '구성요소'의 차이 때문에 본래 있어야 할 차이가 감춰져 있을 뿐인지도 모른다.
♧ 층별 해석으로 패러독스가 방지될까
A고와 B고의 성적을 남녀 별로 볼 때처럼 결과에 영향을 미치는 조건에 대해 '같은 소집단 '안에서 다시 비교하는 과정을 거치기만 하면 심슨의 패러독스는 거의 방지할 수 있다.
'같은 소집단', 즉 '층' 별로 나누어 분석하는 것을 '층별 해석'이라 한다.
층별 해석으로 패러독스가 방지되긴 하지만 '결과에 영향을 미칠 수 있는 조건'이 많아질수록 이러한 방식은
효율적이지 않게 된다. 예를 들어
1. 동아리 활동이 운동부인가 방송부인가 합창부인가
2. 학원에 다니고 있는가
3. 가정환경을 나타내는 것으로 부모님의 연수입을 세 카테고리로 분류하는 경우 어디에 속하는가
이 모든 조건이 동일해지는 소집단, 즉 '층'은 몇 개를 더 생각해야 할까.
2(성별) * 3(동아리 활동) * 2(학원의 유무) * 3(부모의 연수입) = 36
이와 같이 모든 조건에 '동일'이라 생각할 수 있는 층은 36개를 만들어야 한다. 그러면 이러한 층에 따라 균등하게 나누었다면 각 층에 해당하는 학생 수는 얼마나 될까. 200명을 가정하면 5,6명 밖에 되지 않을 뿐더러 남녀 비율 또한 치우쳐 있는 경우도 있다. 이렇게 적은 인원 수로는 어떤 분석을 하든지, 어떤 결과가 생기든지 절대로 오차범위 안에 들게 된다.
다층 회귀분석은 층 분류를 안 해도 된다
'성별에 따라 점수가 다르므로 조건을 동일하게 한다'는 방식에서 한 걸음 더 나아가 '성별에 따라 점수가 평균적으로 몇점 다른가'를 추정하면 층별로 나누지 않아도 된다.
성별 고려 없이 A고와 B고 간 평균 점수를 비교하면 위와 같이 회귀분석 결과가 나타난다.
동그라미 크기는 학생 수를 나타내며, X로 표시된 고등학교별 단순 평균점수(각 학교에서 인원수가 많은 쪽의 성별에 가까워진다)를 통과하는 직선의 기울기가 '고등학교 간 평균점수의 차이'이다. 이 경우 기울기는 우측으로 올라가는 형태이므로 B가 A보다 평균점수가 높다는 것을 알 수 있다.
info) A고의 평균점수는 63점(남:60, 여:75), B고는 67점(남:55, 여: 70)
하지만 성별의 차이를 추정하면 어떻게 될까? 이 경우 A, B고 모두 여학생의 평균점수가 남학생의 평균점수보다 15점 높다는 정보를 이용하자.
이 정보에 근거해 두 고등학교의 성별로 '공정한 비교'를 할 때는 '만일 각 고등학교의 남학생이 전원 여학생이라면' 하고 가정해 생각하면 된다. 그러면 어느 고등학교에 대해서든 남학생 전원의 값에 15점을 더해야 한다.
> A고 75점, B고 70점이라는 평균을 얻게 된다. 이때 심슨의 패러독스는 무력화되어 'A고등학교의 평균점수가 5점 높다'는 직감 그대로의 결과가 얻어진다.
이처럼 '성별 차이로 평균점수는 몇 점 달라지는가' 하는 회귀계수와 '고등학교에 따라 평균점수는 몇 점 달라지는가' 하는 복수의 회귀계수를 동시에 추정하는 것이 다중회귀분석이다.
성별의 차이가 '평균점수에 미치는 영향의 정도'를 추정할 수 있으면, 남학생과 여학생으로 별개의 층을 두지 않더라도, '만약 이 남학생을 모두 여학생으로 가정하면'처럼 가상적으로 조건을 갖춘 상태에서 공정한 비교를 할 수 있다.
복수의 회귀계수는 '서로 상승효과가 없다면' 하는 가정 아래 설명변수가 반응변수에 어느 정도의 영향을 주는지를 나타낸다.
오즈비를 이용한 로지스틱 회귀
다중회귀분석은 반응변수가 연속값인 경우에만 사용할 수 있지만, 프레이밍험 연구를 통해서 한층 더 확장된 개념인 로지스틱회귀가 고안되었다. 본래 0이나 1이라는 두 값의 반응변수를 변환해 연속적인 변수로 취급함으로써 다중회귀분석을 가능하도록 하는 것이 로지스틱 회귀의 가장 큰 특징이다.
로지스틱 회귀에서는 회귀계수를 오즈비(odds ratio, 교차비=승산비=대응위험도), 즉 '약 몇배나 그렇게 될 가능성이 있는가'로 나타낸다는 사실만 알고 있으면 결과를 이해하는 데 전혀 문제가 없다. 다중회귀분석과 마찬가지로 회귀계수의 추정치, 표준오차와 신뢰구간, 그리고 p-값 등을 당연히 읽어낼 수 있으며, 회귀계수의 결과를 해석하는 방법만 조금 다르다.
회귀모델을 사용할 때는 교호작용(interaction, 상승효과)에 주의한다
교호작용이 정말로 존재하지 않는지 살피는 것이 가장 주의할 점 중 하나이다. 그러나 실제로 교호작용이 의심된다고 해도 회귀모델에 포함시켜 회귀계수를 추정하는 방법이 있다.
그것들이 연속값이든 더미변수이든 두 설명변수 각각의 회귀계수뿐만 아니라, 두 변수를 서로 곱한 새로운 설명변수(이것을 교호작용 항목이라 한다)를 만들어 그 회귀계수에 대해서도 동시에 추정하기만 해도 교호작용의 영향을 추정할 수 있다.
곤란에 빠트리는 변수선택 작업
한편 너무 정확함을 추구하기 위해 모든 교호작용 항목을 검토하다 보면 알 수 없는 결과가 얻어지는 경우도 있다.
본래의 설명변수가 둘이고 거기에 교호작용 항목 하나를 더하는 정도라면 문제가 생기지 않지만,
만약 설명변수가 20개 있다면 교호작용 항목은 20*19/2=190이 된다.
표본 수가 한정되어 있는 상황에서 이처럼 대량의 회귀계수를 추정하면 오차가 커지며, 만일 '빅데이터'이니만큼 표본 수가 무제한 확보되었다 하더라도 100을 넘는 수의 회귀계수를 해석할 만큼 인간의 인지기능이 뛰어나지는 않다.
되도록 간단하게, '무엇이 반응변수에 가장 큰 차이를 나타내는가'를 알아내는 것이 통계학이다.
그래서 교호작용 항목도 포함해 유의한 설명변수만을 자동적으로 골라내서 회귀모델을 구축하는 알고리즘에 대한 연구가 성행하고 있는데, 이것을 '변수선택법'이라 한다.
무한정 임의화에 접근하는 '성향점수'
'성향점수(propensity score)'라 불리는 방법론은 주로 역학 분야에서 임의화가 불가능하거나 인과관계를 특정하기 곤란한 상황에서 자주 이용된다. 성향점수는 흥미가 있는 두 가지 설명변수가 있을 때 '어느 쪽에 해당될까'하는 확률을 말한다. 어느 쪽에 해당될까는 성향을 나타내는 값이므로 성향점수라 하는 것이다.
성향점수는 간단하고 끝없이 임의화에 가까운 인과관계의 추정을 할 수 있다. 동일한 성향점수에 의해 층별로 비교하면 공정한 비교를 하는 것처럼 느껴질 가능성이 매우 높기 때문이다.
정확함을 추구하는 사회조사 전문가들
"되도록 편의가 없고 요구되는 오차범위에 들어가는 추정치를 가장 효율적으로 얻기 위한 방법" 등을 찾으려고 끊임없이 연구했다.
'타당한 판단'을 추구하는 역학·생물통계학자
p-값에 근거해 '원인'을 제대로 찾아낼 수만 있다면 추정치의 '적용 가능성'이라는, 사회조사 분야의 통계학자가 중시하는 부분에 그다지 얽매이지 않아도 된다.
역학자나 생물통계학자는 '임의 표본추출에 의한 정확한 추정치'보다도 '임의화에 의한 타당한 판단'을 더 소중히 여긴다.
IQ를 탄생시킨 심리통계학
상관이란 '한쪽 값이 클 때 다른 쪽 값도 큰가 / 한쪽 값이 작을 때 다른 쪽 값도 작은가'하는 관련성의 정도이다.
골턴은 회귀분석을 했을 때 '직선의 적합도가 높은 상태'와 '평균값으로의 회귀가 크고 직선의 적합도가 낮은 상태'로 나타나는 것을 발견했다.
이 차이를 상관이라는 말로 표현했고, 제자인 피어슨은 상관계수라는 지표의 계산방법을 고안했다.
상관계수 지표는 완전한 직선으로 '한쪽 값이 클 때 다른 쪽 값도 크다'인 양의 관계는 1,
반대로 완전한 직선으로 '한쪽 값이 클 때 다른 쪽 값은 작다'인 음의 관계는 -1
그리고 관련성을 전혀 찾아볼 수 없는 경우는 0으로 나타낸다.
참고로 상관은 '한쪽 값이 클 때 다른 쪽 값도 크다'는 경향을 나타낼 뿐, '한쪽 값이 크기 때문에 다른 쪽 값이 크다'는
인과관계와는 완전히 별개라는 점에 주의해야 한다.
스피어먼은 다각적인 연구를 거친 뒤 서로 다른 지능의 측면은 어느 정도 상관되어 있다는 것을 발견했다. '지능(측정 불가능한 인자)'이라는 추상적인 지표를 측정하기 위해 상관되어 있는 '측정 가능한 지표(반응속도, 기억력 등)'들을 이용하여 '잠재적인 지능'을 나타내었다. 이러한 분석 방법을 '인자분석'이라 부른다. 서로 상관하는 복수의 값으로부터, 그 모든 것과 잘 상관하는 새로운 합성변수가 만들어지는데, 이 합성변수를 인자(factor)라 하고 그 인자를 추출하는 분석이니까 인자분석이라 하는 것이다.
심리통계학자들이 좋아하는 기법 중 하나로 '경로분석(정치·사회현상을 연구할 때 변수간의 복잡한 인과관계를 모델화하는 데 필요한 방법)'이라는 것이 있다. 심리적 인자를 포함한 변수 간의 관계성을 타원(직사각형이라 해도 무방)과 화살표로 나타내는 것이다.
마케팅 현장에서 생겨난 데이터 마이닝
데이터마이닝은 IT의 진보에 의해 생겨났으며 KDD(Knowledge Discovery in Database, 기계 학습 등을 통해 데이터베이스에서 유용한 지식을 자동으로 발견해내려는 시도)의 국제회의에서 '유용하고 새로운 지식을 데이터로부터 추출하는, 명확히 규정되어 있지 않은 일련의 절차'라는 말로 처음 표현되었다.
유명한 사례로 기저귀와 맥주의 구매분석이 있으며, 장바구니 분석(Basket Analysis)이라는 기법이다.
도표 1 | 맥주 구매 | 맥주 비구매 | 합계 |
기저귀 구매 | 20 | 30 | 50 |
기저귀 비구매 | 280 | 670 | 950 |
합계 | 300 | 700 | 1000 |
이와 같은 결과를 얻었을 때, '기저귀를 산 사람 중 40%(50명중 20명)가 맥주를 구매했다'는 부분에 주목했다. 맥주 이외의 상품과 비교해도 '기저귀를 구매한 사람'이 동시에 살 가능성이 제일 높은 것은 맥주였다. 그렇다면 기저귀를 산 사람에게 맥주를 추천하면 매출이 오를 것이라고 생각했다. 장바구니 분석에서는 이처럼 '어떤 상품을 산 사람이 다른 상품을 사는 비율'을 신뢰도(Confidence)라고 한다.
그러나 확신을 가지기엔 아직이르다. 인간이 기저귀를 차는 기간은 고작 2~3년이지만 성인 남성의 상당수는 맥주를 마신다. 보통은 절반 정도의 사람의 장바구니 안에 맥주가 있을 것이기 때문이다. 그래서 장바구니 분석에서는 개선도(Lift)
라 불리는 지표도 이용한다.
즉 기저귀의 구매와 비구매로 한정하지 않고 전체 고객 중 맥주 구매율(1000명 중 300명으로 30%)과 비교해
기저귀 구매자로 한정한 맥주 구매율(50명 중 20명으로 40%)은 도대체 몇 배가 되는지가 바로 개선도라는 지표이다.
여기서는 1.33(0.4/0.3)이 기저귀 구매에 의한 맥주 구매의 개선도이다. 이것이 1 이상이면 뭔가 개선이 보인다고 판단하는 것이 장바구니 분석의 결론이다.
그러나 여전히 불충분한 느낌이 든다. 다음의 도표를 보자.
도표 2 | 맥주 구매 | 맥주 비구매 | 합계 |
기저귀 구매 | 2 | 3 | 5 |
기저귀 비구매 | 298 | 697 | 995 |
합계 | 300 | 700 | 1000 |
바로 위와 마찬가지로 기저귀 구매자의 40%(5명 중 2명)가 맥주를 구매했으므로 신뢰도는 0.4이다. 또 기저귀의 구매여부로 한정하지 않은 전체 고객 중 맥주 구매자도 변함이 없기 때문에 개선도도 마찬가지로 1.33이다.
하지만 만약 기저귀와 맥주를 동시에 구매한 2명 중 누군가가 괜스레 변덕을 부려 맥주를 사지 않았다고 하자. 그렇다면 신뢰도는 0.2로 반감하고, 개선도도 0.67이므로 '오히려 개악'이라는 결과로 나타난다.
게다가 본래 기저귀를 구매한 사람이 아주 적은 인원밖에 없었다면, '맥주를 살 가능성이 있다'고 예측했더라도 매출을 올리는 데는 그다지 도움이 되지 않는다.
그러니까 장바구니 분석에서는 '너무 적은 수의 조합'은 생각하지 않고 '맥주와 기저귀를 동시에 산 사람'이 전체에서 얼마나 되는지를 따지는데 이 값을 지지도(Support)라고 부른다. 도표 1에서는 지지도가 0.02(1000명 중 20명), 도표 2에서는 0.002(1000명 중 2명)로 각각 나타난다.
장바구니 분석보다는 카이제곱검정
구글의 공동설립자인 세르게이 브린(Sergey Brin)도 '장바구니 분석보다 통계학적 상관분석이 낫다'는 내용의 논문을 발표했었다.
카이제곱검정값을 사용하면 피셔가 말하는 '추정치의 오차'를 고려할 수있다. 따라서 지지도 지표를 볼 필요 없이 카이제곱값이 크면 자동적으로 개선도도 크다고 판단하면 된다. 아울러 각 상품의 판매 유무처럼 변수가 2개인 경우에는 카이제곱값이 큰 조합을 선택하는 것과 상관계수의 절대값이 큰/족을 선택하는 것은 완전히 같은 의미를 담고 있다.
이처럼 카이제곱값을 사용했다면 오차에 휘둘리지 않고 관련성이 강한 상품 조합을 자동적으로 찾을 수 있다. 아마존사에서 상품을 추천할 때도 이러한 상관분석을 이용한다.
예측 그 자체가 최종 목적이라면 데이터마이닝은 유효하지만 예측 자체가 아니라 예측모델을 통해 앞으로 무엇을 해야 하는지 논의하고 싶다면, 회귀모델이 더 도움이 된다.
문장을 분석하는 텍스트마이닝
텍스트마이닝은 쉽게 말해 자연언어로 적힌 문장을 통계학적으로 분석하는 것이다.
문장 가운데 등장하는 단어의 종류나 길이, 하나의 문장 안에 포함되는 평균 단어 수 같은 식으로 계산에 의해 문헌의 특징을 파악하려는 연구를 '계량문헌학'이라 부른다.
계량문헌학의 초기 연구자들은 셰익스피어의 문체를 분석하여 '셰익스피어=베이컨(Francis Bacon, 1561~1626)' 이라는 가설을 검정하기 위해 둘의 문장을 비교했다. 결과적으로는 둘은 다르다는 결론을 내렸다고 한다.
텍스트마이닝의 왕도 '형태소 해석'과 구글 검색의 비밀 'N-Gram'
형태소 해석이란 일반적으로 문장을 단어별로 분리해 어떤 단어가 몇 번 사용되었는지 집계하는 작업을 말한다.
또한 언어학적 용어로 '형태소'는 단어보다 짧은, '언어로서의 의미를 가지는 최소 단위'를 가리킨다.
에를 들어 '불안정하다'라는 형용사는 부정을 나타내는 접두사 '불'과 '안정'이라는 명사에 형용사를 만드는 접미사 '하다' 등의 형태소로 나눌 수가 있다. 하지만 이 정도까지 자세하게 나누면 오히려 본래의 뜻으로 이해나는 것보다 더 복잡해지기 때문에 대부분의 형태소 해석 도구는 단어 분할에만 그친다.
형태소 해석을 하려면 우선 단어의 정보가 정리된 사전 데이터가 필요하다. 기본적으로는 문장 안에 있는 단어와 사전 데이터 안의 단어가 일치하는 것을 찾아서 정리할 필요가 있기 때문이다.
형태소 해석과는 다른 접근법으로 사전을 사용하지 않는 엔그램(N-Gram)이라 불리는 방식도 있다. 기계적으로 중복을 허락한 N(임의의 수) 문자씩으로 문자열을 자르고 거기서 요구하는 단어를 찾는 방식이다. 구글에서 그다지 일반적이지않은 단어를 검색해도 해당하는 페이지가 펼쳐지는 것은, 그 배후에 방대한 양의 엔그램 데이터가 존재하기 때문이다.
비즈니스에서 텍스트마이닝을 활용하는 법
예시로 고객지원센터로 쇄도하는 문의 내용의 분석을 들 수 있다. 통화 종료 후에 상담원이 적는 보고서나 전자메일 문의 내용을 바탕으로 자주 사용되는 말을 집계하거나 클러스터링을 하면 '어떤 내용의 문의가 많은지'가 밝혀진다.
설문조사의 자유의사표시란에 등장하는 단어를 집계하는 것도 자주 사용된다. 형태소 해석을 해 단어의 사용빈도를 집계하면 전체적인 윤곽을 파악하기가 수월해진다.
최근에는 SNS를 통해 전달되는 방대한 분량의 텍스트에 대해서도 텍스트마이닝이 응용되고 있다. 회사명 또는 자사 상품명이 실린 블로그 기사나 트위터는 그 자체로 무시할 수 없는 '고객의 소리'이다.
'연역'의 계량경제학과 '귀납'의 통계학
표면상의 차이를 굳이 들자면, 계량경제학자는 통계학자보다 교호작용 항목을 포함한 설명변수의 선택을 더욱 신중하게 검토하는 경향이 있을지도 모른다. 또 그들은 종종 설명변수와 반응 변수 사이에 직선적인 관계성뿐만 아니라 데이터마이닝과 통계학의 차이 같은 곡선적인 관계성을 생각하기도 한다.
또 많은 통계학자가 두 값의 반응변수에 대해 로지스틱 회귀를 이용하는 한편, 계량경제학자는 프라빗 회귀(probit regression)라는 기법을 즐겨 사용한다. 프라빗 회귀가 로지스틱 회귀보다 수리적으로 깔끔하기는 해도 추정된 회귀계수가 로지스틱 회귀의 오즈비와 같이 '약 x배가 된다'는 식이 아니어서 직감적으로 해석하기 어려운 점이 있다.
통계학자들이 인과 추론을 위해 성향점수를 이용하는 상황에서는, 계량경제학자는 처리 효과(treatment effect) 모델이라든지, 헥킷(Heckit)이라 불리는 기법을 즐겨 이용한다. 이것은 노벨 경제학상 수상자인 제임스 헤크먼(James Joseph Heckman, 1944~)이 1974년부터 1979년에 걸쳐 연구한 내용을 담은 일련의 논문을 통해 제안되었지만 경제학적 학문 배경이 없는 통계학자가 이 기법을 사용하는 경우를 본 일이 없다고 한다.
통계학과 계량경제학의 '본질적' 차이
중요한 것은 그 배경에 있는 철학이며 두 분야는 다른 철학을 갖고 있다.
둘 사이에 존재하는 완전히 다른 철학이란 '귀납'과 '연역'이라는 말로 대변할 수 있을 것이다.
일반적으로 과학적 추론의 형식은 크게 귀납과 연역으로 나뉜다.
귀납은 개별 사례를 모아 일반적인 법칙을 이끌어내려는 방식이고,
연역은 있는 사실이나 가정에 근거해 논리적 추론에 의해 결론을 도출하려는 방법론이다.
피셔의 제자인 C. R. 라오(C. R. Rao, 1920~)는 '통계학의 발전 덕으로 귀납적 추론의 불확실성이 수량화됨으로써 우리의 사고가 크게 발전하게 되었다'라고 밝혔다. 데이터란 개별 사례를 알기 쉽게 정리한 것이며, 통계학의 목적은 귀납적 추론이다. 이 경우 추정된 회귀모델 등이 '사례를 모아 도출된 일반적인 법칙'에 해당될 것이다.
연역의 대표적인 사례로서는 뉴턴의 운동법칙을 꼽을 수 있다. 그는 물체의 운동을 설명하는 세 가지 법칙을 제시함으로써 야구공에서 태양계의 혹성에 이르기까지 우주에 걸쳐 있는 모든 움직임의 원리를 밝혀냈다.
세가지법칙
1. 운동의 제 1법칙(관성의 법칙): 모든 물체는 외부로부터 힘을 가하지 않는 한 속도의 크기나 방향은 변함없다.
2. 운동의 제 2법칙(가속도의 법칙): 물체가 힘을 받으면 그 힘이 움직이는 방향으로 가속도가 생긴다. 가속도는 힘의 크기에 비례하고 물체의 질량에 반비례한다.
3. 운동의 제 3법칙(작용 반작용의 법칙): 힘은 교호작용에 의해 생긴다. 두 물체 사이에 주고받는 힘의 크기는 같고 방향은 반대이다.
참고로 이들 법칙 자체의 진위는 판단할 방법이 없다. 어디까지나 뉴턴이 최초로 제시한 운동의 법칙은, '다른 이론이 나오기는 힘들 것이다'라는 논의의 전제이다. 그러나 이 단순한 가정에 의해 얻어지는 수식을 사용해 연역을 넓히면 우리 눈에 들어오는 대부분의 움직임(운동)은 설명이 잘된다. 또 그렇게 이론을 정립함으로써 관찰이나 실험에 근거하는 이론의 실증, 즉 귀납적인 추론의 방향도 설정할 수 있다.
계량경제학자의 입장에서 볼 때는 연역의 대상이 되지 않는 모델은 경제학의 진보에 도움이 되지 않는다. 그들은 역학자나 생물통계학자보다 더 열심히 갖은 수단을 다 써서라도 최적의 모델을 만들기 위해 노력한다. 임의 표본추출에 의해 사회조사 데이터를 해석하려는 것도 그 한가지 방식이다. 그러나 아무리 최적의 모델을 만들었다 해도 뉴럴 네트워크의 결과처럼 연립방정식의 형태로 나타낼 수 없는 것에는 그다지 흥미를 느끼지 않는다고 한다.
베이즈파와 빈도론파의 확률을 둘러싼 대립
'확률 자체'를 둘러싸고 벌어지는 대립의 중심축에 서 있는 것이 빈도론자와 베이즈론자이다.
둘의 차이는 한마디로 '확률을 미리 상정하는가', '상정하지 않는가'로 표현할 수 있다.
이해를 돕기 위해 두 종류의 동전이 있다고 가정하자.
하나는 앞면과 뒷면이 나올 확률이 반반인 '진짜 동전'이며, 다른 하나는 앞면이 나올 확률이 80%, 뒷면이 나올 확률이 20%인 '가짜 동전'이다. 둘 다 외혀잉나 무게 등으로는 전혀 구별되지 않는다. 몇 번인가 던진 회수를 집계 분석해 진짜 동전인지 가짜 동전인지 각각의 입장에서 판단해보자.
♧ 빈도론파는 단순하게 생각한다.
빈도론, 즉 피셔와 같은 사고방식에 근거하는 통계학자가 10번 던졌을 때 모두 앞면이 나왔다고 하자. 이 동전이 진짜 동전이라고 말할 수 있을까? 누군가 이 동전을 진짜라 했다고 가정하자. 그리고 그 가정 아래서 10번 중 전부가 앞면이 되는 확률을 계산할 것이다. 즉 2분의 1의 확률로 나오는 앞면이 우연히 10번 전부 나올 확률은 2의 10제곱분의 1, 즉 0.10% 이다. 이 0.10%라는 확률이 이른바 p-값이다.
다시 말해 이런 기적 같은 확률이 실제로 일어났다고 생각하기보다는, 본래의 '이 동전은 진짜'라는 가정을 '생각하기 어렵다'라며 버리는 편이 이치에 합당하다고 판단하는 것이다.
다음은 '이 동전은 가짜 동전'이라고 가정하면 어떻게 될까? 방금 전처럼 똑같이 계산하면 80%의 확률로 앞면이 우연히 10번 전부 나올 확률은 10.74% 정도이다. p-값이 10.74% 정도라면 그다지 기적적이라 말할 수준은 아니다. 그러니까 이 가정을 완전히 버릴 수는 없다.
한쪽의 '진짜 동전'이라는 가설이 버려지고 다른 한쪽의 '가짜 동전'이라는 가설은 버리지 못한다면, 이것은 가짜 동전이라고 생각하는 편이 타당성을 갖게 된다. 좀 더 쉽게 생각하고 싶다면 우선 1만번 정도 동전을 던져보고 그 중 앞면이 몇 번 나올지 세어보면 된다. 아마 진짜 동전이라면 5000번 전후로 앞면이 나올 것이고 가짜 동전이라면 8000번 전후로 앞면이 나온다.
빈도론은 확률을 이렇게 '몇 번 중 몇 번' 처럼 '빈도'로 파악한다는 의미이다. 그리고 이 때 진짜 동전으로 앞면이 8000번 전후 나오는 p-값도, 가짜 동전으로 앞면이 5000번 전후 나오지 않는 p-값도 모두 현저하게 낮다.
♧ 베이즈파는 '사전확률'과 '사후확률'을 생각한다
한편 베이즈론자가 이 동전을 분별할 떄는 우선 아무 정보도 없는 시점에서 어느 정도의 확률로 이 동전은 진짜인가 가짜인가를 생각한다. 이 시점의 확률을 사전확률이라 부른다. 사전확률은 아무 값으로 설정해도 상관없다. 여기서는 일단 반반이라고 상정해 방금 전처럼 '10번 던져 10번 모두 앞면이 나왔따'라는 결과로부터 추측을 하자.
빈도론자의 계산방법과 마찬가지로 동전이 진짜일 겨웅 10번 모두 앞면이 나올 조건부확률이나 가짜 동전일 경우 변함없이 각각 0.10%, 10.74%이지만 베이즈론자의 계산방법은 그 다음부터가 다르다.
베이즈론자는 진짜인 경우와 가짜인 경우 등 각각의 상황에서 사전확률과 조건부확률의 곱셈을 한다.
1) 진짜의 사전확률 * 진짜인 경우 10번 모두 앞면이 나오는 조건부 확률 = 50% * 0.10% = 0.05%
2) 가짜의 사전확률 * 가짜인 경우 10번 모두 앞면이 나오는 조건부 확률 = 50% * 10.74% = 5.37%
1) + 2) 확률의 합계는 5.42%가 된다. 이것은 동전을 던지기 전 '동전이 진짜인지 가짜인지 반반인 상황에서 10번 연속 앞면이 나올 확률은?' 하고 물었을 떄의 대답이다.
그러니까 '동전이 10번 연속 앞면이 나온 상태에서 동전이 진짜일 확률은?'하고 물으면 0.05%라고 답하면 되고,
'동전이 10번 연속 앞면이 나온 상태에서 동전이 가짜일 확률은?'의 대답은 5.37%라고 하면 된다.
1) 과 2) 각각의 값을 합계인 5.42%로 나눠주면 '10번 모두 앞면이 나오는 경우에 이 동전이 진짜일 확률'은 0.90%가 되며, '10번 모두 앞면이 나오는 경우에 이 동전이 가짜일 확률'은 99.10%라는 계산이 나온다.
진짜 | 가짜 | 합계 | |
사전확률 | 50% | 50% | 100% |
조건부확률 | 0.10% | 10.74% | |
사전확률 * 조건부확률 | 0.05% | 5.37% | 5.42% |
사후확률 | 0.90% | 99.10% | 100% |
즉 10번 모두 앞면이 나온 데이터로부터, 이것은 99.10%의 확률로 가짜 동전이라고 베이즈론자는 판단한다.
이와 같이 사전확률과 데이터에 근거해 산출된 확률을 사후확률이라고 부른다.
하지만 '사전확률을 설정'하는 것은 임의로 설정되는 것이기 때문에 실수가 용납되지 않는 보수적 판단이 요구되는 분야일수록 빈도론에 의존하는 경향이 있다. 그래서 회귀모델에 의한 조정이나 성향점수의 사용조차 허용되지 않으며 임의화 비교실험을 한 다음 오차로 보기 힘든 수준의 유효성을 나타낸 것만 승인하는 것이 국제적인 관례이다.
베이즈적 사고방식에서는 '사전확률'이라는 가정을 두면 데이터로부터 무엇을 알 수 있을까 하는 연역이 가능해진다. 이런 점에 있어서 계량경제학자들과 궁합이 잘 맞아 계량경제학자들 사이에 베이즈론자들이 증가하고 있다.
베이즈론과 빈도론의 어느쪽이 옳고 그른지를 판단하는 것은 아무런 의미가 없다. 한정된 정보와 가정을 조합하는 '효율성'이 요구된다면 베이즈론을 사용하면 되고, '잘못될 가능성을 줄이고 싶다'거나 '충분한 데이터가 확보되어 있다'면 빈도론으로 p-값을 구하는 편이 낫다.
거인의 어깨 위에 서는 방법
근대 물리학을 낳은 뉴턴은 '내가 먼 곳을 바라볼 수 있는 까닭은 거인의 어깨를 밟고 서 있기 때문'이라는 말을 남겼다. 여기서 거인이란 '선인들의 지혜'를 뜻한다. 수많은 학자들이 자신들의 지혜를 쌓아왔기 때문에 우리는 지혜를 활용해야 한다. 활용하기 위해서 에비던스에 대해 알아보자.
> 에비던스의 계층구조
에비던스란 과학적인 근거, 즉 증거를 일컫는 말이다. 과학적 근거라 하면 과학적으로 연구된 결과는 무어이든 에비던스로 취급해도 되는 것처럼 느껴지겠지만 에비던스라 해서 모두 수평적 관계에 있는 것은 아니다.
거의 틀림없는 근거로서 전폭적으로 신뢰 가능한 것에서부터 참고만 해야하는 가설에 이르기까지
다양한 체계로 이루어져 있다.
최하층에 속하는 에비던스로는 '전문가의 의견'과 '기초실험의 결과'를 꼽을 수 있다.
> 최고의 에비던스 - '계통적 리뷰'와 '메타 분석'
인간에게 유용한 에비던스로 중요시되는 것은 '현실의 실제 상황에서 적정 수의 인간을 분석한 결과'이다. 이러한 연구 방법으로 역학 등의 관찰 연구와 임의화 비교실험이 있다.
그리고 임의화 비교실험에 의해 나타난 결과는 거의 신용할 수 있는 '타당한 인과 추론'이다.
임의화 비교실험이 해결해야 할 유일한 과제는, 인간이 대상이 되는 경우 임의 표본추출을 전 국민이나 전 인류로부터 선정할 수 없다는 점이다. 대학생이나 의사 혹은 70세 이상의 노인만으로 한정된 집단을 대상으로 분명하고 타당한 추론을 도출했더라도, '대상이 바뀌면 결과도 다르지 않겠는가' 하는 비판에서 자유로울 수 없다.
그런 점을 보완하기 위해 자주 이용되는 것이 계통적 리뷰(systematic review)와 메타 분석(meta analysis)이다.
리뷰는 복수의 연구를 정리해 결국 어떤 해석이 가능한지 밝히는 일을 말한다. 예를 들어 비디오게임과 소년범죄의 관련성에 흥미를 가진 학자라면, 이 영역에서 지금까지 누가 어떤 연구를 했으며 그 결과 어떤 내용이 밝혀졌는지 잘 알고 있다. 그런 정보를 정리 소개하고 아울러 자신의 의견을 덧붙이는 것은 학자가 어떤 글을 쓰더라도 반드시 해야 할 일이다.
하지만 리뷰 중에서 자신의 의견을 뒷받침하는 데 유리한 결과만을 뽑아 쓰는 일도 가능하다. 이러한 리뷰를 요즘은 '서술적 리뷰'라 부르며 주관성 유무를 주의 깊게 살피고 있다. 객관성이 담긴 계통적 리뷰가 중요시되는 이유이다.
계통적 리뷰는 미리 '검토할 논문의 조건'을 결정한 상태에서 과거에 공표된 관련 분야의 모든 문헌으로부터 조건과 합치되는 것을 골라낸다. 방금 전의 예로 말하면, '미성년, 범죄, 비디오게임'이라는 단어를 포함하고 있고, 소년범죄와 비디오게임과의 관련성을 통계해석한 모든 논문을 수집·분석한 다음 마지막으로 어떤 내용이 밝혀졌는지 결론을 정리한다. 이런식으로 해야만 주관 등이 거의 포함되지 않은 '현시점에서 최선의 대답'이 될 수 있다.
'최선의 대답'은 공개되어 있다
계통적 리뷰와 메타분석의 결과는 인류 전체가 공유할 '최선의 대답'이므로 다양한 분야에서 그 결과를 모아 공유하려는 움직임이 일고 있다. 최초의 움직임은, 영구그이 의사이자 역학자인 아치볼트와 코크란의 제창에 의해 1992년 영국에서 시작된 코크란 공동계획(https://www.cochrane.org/)이다. 또 코크란 공동계획의 영향을 받아 사회정책 과학 분야에서 캠벨 공동 계획(https://www.campbellcollaboration.org/)이 2000년에 첫발을 내디뎠으며, 2002년에 출발한 교육학 분야의 What Works Clearinghouse 프로젝트(https://ies.ed.gov/ncee/wwc)도 있다.
이 사이트 들은 계통적 리뷰 결과를 공표해 놓아 쉽고 편리하게 접할 수 있으며, 그 이외의 일반적인 논문 데이터베이스 중에서 찾을 때는 'meta analysis' 혹은 'systematic review'라는 키워드로 검색하면 된다.
대표적인 문헌 데이터베이스로는 구글이 제공하는 Google Scholar(https://scholar.google.com/)도 편리한 문헌검색 서비스이다.
교육학(ERIC): https://eric.ed.gov/
심리학(PsycINFO): https://www.apa.org/pubs/databases/psycinfo/index
경제학(Econlit): https://www.aeaweb.org/econlit/
의학(Pubmed): https://www.ncbi.nlm.nih.gov/pubmed
종합(JSTOR): https://www.jstor.org/
😁
출처:
https://kiyoo.tistory.com/tag/표본오차
https://math100.tistory.com/123
https://books.google.co.kr/books?id=pOxrCgAAQBAJ&printsec=frontcover&hl=ko#v=onepage&q&f=false
'Data Scientist' 카테고리의 다른 글
sklearn 기초 - 붓꽃 품종 예측하기 (0) | 2020.02.23 |
---|---|
군집화(K-means clustering) (0) | 2020.02.16 |
판다스 한번에 정리하기 (0) | 2020.02.11 |
넘파이 한번에 정리하기 (0) | 2020.02.09 |
R기초 (0) | 2020.02.07 |