당신이 확률에 약한 것은 당신만의 탓이 아닐지 모른다

[엔터미디어=백우진의 잡학시대] 당신이 확률에 약한 것은 당신만의 탓이 아닐지 모른다. 인류의 사고는 워낙 확률에 익숙하지 않다. 확률 이론이 수학의 다른 분야에 비해 뒤늦게 발달했다는 사실이 그 증거 중 하나다. 인간의 직관이 확률을 크게 빗나가는 사례도 많다. 간단하지만 다들 어려워하는 대표적인 확률 문제로 ‘몬티 홀 문제’가 있다.

몬티 홀은〈렛츠메이크 어 딜〉이라는 TV게임쇼의 진행자 이름이다. 몬티는 쇼가 끝날 무렵 마지막 남은 참가자와 함께 커다란 문 세 개 앞에 섰다. 각 문에는 1, 2, 3 숫자가 적혀 있다. 몬티는 참가자에게 “한 개의 문 뒤에는 자동차가 세워져 있고 나머지 두 개의 문 뒤에는 염소가 있다”고 알려준다. 참가자는 문을 하나 선택해 그 뒤에 놓인 선물을 가져가면 된다.

참가자가 차가 그 뒤에 있는 문을 고를 확률은 3분의 1이다. 게임쇼가 여기서 끝났다면 ‘몬티 홀’이라는 이름이 두고두고 확률 관련 책에 등장하지 않았을 것이다. 참가자가 문 하나를 고르고 나면 몬티는 남은 문 둘 가운데 염소가 있는 문 하나를 열어 보여준다. 몬티는 그러고 나서 참가자에게 “혹시 마음을 바꿔 다른 문을 선택하지 않겠느냐”고 묻는다.

당신이 참가자라면 어떻게 하겠는가? 남은 다른 문으로 옮겨가겠는가? 처음 택한 문이나 남은 다른 문이나 자동차가 있을 확률은 3분의 1로 똑같지 않나? 이 문제를 처음 접하는 사람은 대부분 이렇게 셈하고, 그래서 선택을 바꾸지 않겠다고 대답한다.

그러나 이 경우 다른 문 앞에 서면 당첨 확률이 3분의 2로 두 배가 된다. 이해하지 못하겠다고 자책하지 말라. 헝가리 출신 천재 수학자 폴 에르디시도 “왜 선택을 바꿔야 하는지 이해하지 못하겠다”고 말했다.

이 문제를 푸는 이론은 ‘조건부 확률’과 ‘베이즈 정리’라는 것이다. 조건부 확률과 그보다 더 까다로운 베이즈 정리를 설명하는 것은 이 글의 목적이 아니다. 이 글에서는 대신 <벌거벗은 통계학> 저자의 간단한 설명을 소개한다. 저자인 찰스 윌런은 몬티가 문을 열어보이는 행위에 현혹되지 말라고 말한다.

몬티가 진행하는 방식은 본질적으로 다음과 같다. 참가자가 문을 하나 선택하게 한다. 그 다음 다른 두 문을 함께 고를 기회를 준다. 참가자는 당연히 선택을 바꾼다. 당첨 확률은 3분의 2로 높아진다. 몬티는 참가자가 바꿔 선택한 두 문 중 먼저 염소가 있는 문을 연다. 이 행위는 참가자의 당첨 확률 3분의 2에 영향을 주지 않는다. 남은 문에 자동차가 있을 확률은 3분의 2인 것이다.

몬티는 이 진행 방식에서 참가자가 ‘문 두 개를 함께 고를지 선택하는 단계’를 변형해 ‘염소가 있는 문 열기’와 ‘다른 문으로 바꿀지 묻는 것’으로 대체했다. 몬티가 염소가 있는 문을 열어보인 뒤 다른 문으로 바꿀지 묻는 데 대해 “Yes”라고 대답하는 것은 ‘문 두 개를 함께 택한 뒤 몬티로 하여금 염소가 있는 문부터 열도록 하는 것’과 확률적으로 동일하다.



◆ 통계는 강력한 마케팅 툴

학습하지 않을 경우 확률에서 우리의 직관이 주먹구구에 불과함을 깨닫게 하는 사례는 이뿐 아니다. 예를 들어 인구의 1%가 걸리는 암을 정확도 99%로 진단하는 검사에서 양성이 나왔다고 하자. 이 때 실제로 암에 걸렸을 확률은 50%로 생각보다 그리 높지 않다. 이 책은 이와 함께 ‘도박사의 오류’, ‘뜨거운 손 편향’, ‘평균회귀’ 등을 설명한다.

마크 트웨인이 말했다. 세상에는 세 가지 거짓말이 있는데, 거짓말, 새빨간 거짓말, 통계라고. 이 책은 통계라는 거짓말에 속지 않고 통계를 이해하고 활용하는 사례를 알려준다.

예를 들어 1981년에 조지프슐리츠 양조회사는 슈퍼볼 하프타임 광고시간을 사들여 소비자 100명을 대상으로 생방송 블라인드 테스트를 내보냈다. 소비자 100명은 모두 슐리츠가 아니라 경쟁사 맥주를 좋아한다는 사람들이었다. 그러나 블라인드 테스트 결과 이들 중 절반인 50명이 슐리츠를 택했다. 이는 슐리츠가 예상한 결과였다. 경쟁사 맥주가 더 좋다는 소비자 중 절반이 실제로는 슐리츠가 더 낫다고 평가했으니 소비자 전체를 대상으로 한 선호도는 더 높을 것이 분명했다. 이 마케팅은 저물어가던 슐리츠 브랜드에 활력을 불어넣어줬다.

통계는 마케팅 외에 선거, 야구, 복권, 주식, 보험, 영화, 수사에 활용된다. 선거의 계절을 맞아 정치 분야 통계를 조금 알아보자. ‘A정당의 지지율은 36%로 조사됐으며 이 조사의 신뢰수준은 95%이고 표본오차는 플러스마이너스 3%포인트’라는 결과는 무슨 뜻일까. ‘같은 크기의 표본을 20번 추출해 조사하면 그 중 19번(95%)은 유권자 전체를 조사했을 때 얻을 수 있는 결과로부터 어느 한 쪽으로 3%포인트 이상 벗어나지 않는 범위 안에 존재한다’는 의미다. 이 조사가 20번 중 19번에 해당한다면 지지율 36%는 유권자 전체를 조사했을 때 얻을 수 있는 결과보다 3%포인트 높거나 3%포인트 낮을 수 있다. 유권자 전체를 조사했을 때 지지율은 33~39%로 추정되며 그 신뢰도는 95%라고 할 수 있다.

저자는 미국 다트머스대학 경제학과에서 공공정책을 가르친다. 저자는 곳곳에 적절한 사례를 넣어 이해를 도우면서 통계 이론을 조곤조곤 풀어낸다. 평균과 중앙값, 표준편차, 정규분포가 나오고 상관계수, 기댓값, 표본, 표준오차, 귀무가설과 대립가설, 1종오류와 2종오류가 등장한다. 통계를 공부하고자 하는 사람에게 훌륭한 길잡이가 될 책이다. 책을 읽은 뒤 내용을 찾아보려면 인덱스가 필요한데, 국내 번역본에는 인덱스가 반영되지 않았다. 이 점은 아쉽다.

책의 제목은 ‘Naked Statistics’를 직역한 것이다. 원제의 부제는 ‘데이터에서 공포를 벗겨내라’이다. 직관의 한계를 무찌르고 데이터에 담긴 확률적 진실에 다가서려면 통계라는 무기가 필요하다.

칼럼니스트 백우진 <한화투자증권 편집위원> smitten@naver.com

[사진=영화 <21>스틸컷, 책읽는 수요일]

[책 정보]
<벌거벗은 통계학>, 찰스윌런 지음, 김명철 옮김, 446쪽, 책읽는 수요일 펴냄

저작권자 ⓒ '대중문화컨텐츠 전문가그룹' 엔터미디어(www.entermedia.co.kr), 무단전재 및 재배포금지
저작권자 © 엔터미디어 무단전재 및 재배포 금지