<소음과 신호>은 "통계학을 기반으로 잘못된 정보인 소음을 어떻게 거르고, 의미있는 정보를 찾을 지"에 대한 책입니다. 이 책은 2014년 발간되어 이제는 통계 관련 클래식이 되었는데요. "The Signal and The Noise"가 원 제목입니다.
이 책의 저자는 네이트 실버(Nate Silver)로 그의 테크트리를 살펴보면 아래와 같습니다.
- 시카고대학 경제학 전공, KPMG 입사
- 자신이 좋아하는 메이저리그 야구선수의 성적을 예측하는 <PECOTA>라는 시스템 개발
- 자신의 통계확률 기법으로 카지노에서 1만 5천달러를 따고 퇴사, 이 후 포커판에서 수십만 달러 수익
- 정치 예측 저널리즘 <FiveThirtyEight.com> 개설
- 2008년 미국 대선에서 50개 주 중 49개 주 결과 정확히 예측
제가 이 책을 처음 접한 것은 2017년이었습니다. 당시 사회적으로 Big data에 대한 관심이 급격히 증가했었고, 커리어 상으로 예측 방법론은 필요한 역량이어서 관심이 간 책이었습니다. 당시 700page가 넘는 방대한 분량이 부담되어 다 읽진 못했으나, 지난 주말 소파에서 무심코 집어들었습니다.
이 책의 하이라이트로 뽑고 싶은 부분은 "Chapter 8. 베이즈 정리 : 이기는 도박꾼은 어떻게 베팅하는가?"입니다.
● <밥 하랄라보스 불가리스>라는 도박사가 베이지안으로서 어떻게 승률 높은 게임을 할 수 있는지에 대한 설명
● 베이즈주의로 바라본 실제 사건들의 발생 확률 (911테러 등)
● 확률 이론계에서 빈도주의자 VS 베이지안 격돌, 그리고 베이즈 정리의 우월성
특히 "불가리스"라는 도박사 이야기에서 투자에서 고려해야 할 "확률적 사고"에 대해 다시금 생각하게 되었습니다. 결국 투자든 도박이든 확률이 높다고 생각하는 자신의 믿음에 베팅하는 것이고, 그 베팅 금액은 기대수익(잃었을 때의 손실과 수익을 얻었을 때의 기대치 합)을 고려하여 감내할 수 있는 한계 금액을 넣는 것입니다. (다만 투자 초기 Seed Money가 적을 때 이런 방식으로 승부를 걸기에는 리스크가 큽니다.)
네이트 실버는 철학적으로 서로 궤를 달리 하는 베이즈주의, 빈도주의 두 이론을 극적으로 대비하면서 마지막에는 베이즈주의의 우월성을 역설합니다.
빈도주의는 Data를 많이 모으면 모을 수록 오차가 없어지고 현상의 진실을 찾게 된다는 믿음을 가지고 있는데요. 빈도주의적 사고 하에서는 모집단의 표본이 많을 수록 통계의 신뢰도가 높아지며 표본오차만이 유의미한 변수가 됩니다. 예컨데 동전을 10번 던지면 처음엔 앞면이 나올 경우의 수가 2~3번 일수도 있지만, 1,000번을 던지면 결국 50% 확률로 앞면이 나오게 됩니다. (진실로의 수렴)
하지만 세상의 많은 사건들은 특수하면서도 복합적인 상황적 배경을 가지고 있으며 동전 던지기 처럼 많은 데이터를 제공하지도 않습니다. 911테러와 같은 사건은 유사한 표본집단이 없고, 주식시장의 변동성 등은 빈도주의로는 설명할 수 없죠.
반면 베이즈주의는 한 사람이 가진 통계적 믿음을 출발점으로 삼고, 사건이 발생될 때마다 확률적 추론을 더해가면서 세상에 내재된 원칙을 더듬어가는 사고입니다. 즉 특정한 사건이 발생할 확률에 앞서 경험적 지식을 근거로 확률적 추정치를 설정하는 부분이 빈도주의와 큰 차이를 보입니다.
이를테면 목성의 궤도를 측정한다고 해보죠. 만약 슈퍼 망원경이 없고, 물리적으로는 직접 측정이 불가능하다고 할 때 빈도주의는 유사한 행성 궤도의 표본을 모아서 상관관계를 파악하려고 할 것입니다. 그러나 베이즈주의는 태양과 다른 행성들과의 움직임을 토대로 확률적 추론을 세우고 목성의 궤도를 추정해 나갈 것입니다.
책에서 나온 911테러 사건의 확률을 베이즈정리로 풀어보면 아래와 같습니다.
우리가 알고 싶은 사건(B)의 확률은 "한 비행기가 세계무역센터에 충돌했을 때, 그것이 테러리스트의 소행일 확률"입니다.
이 때 이 사건이 테러리스트의 소행일 확률을 P(t), 한 비행기가 뉴욕 고층건물에 충돌할 확률을 P(x)라고 하면, 구하고자 하는 사건(B)확률은 P(t│x)입니다.
여기서 중요한 부분은, 사전확률인 P(x)=x 를 당초 우리가 가진 통계적, 경험적 추정치로서 설정하는 것입니다. 자, 실제로 한 비행기가 세계무역센터에 충돌하는 사건(A)가 발생했습니다. 이제는 2개의 조건부 확률을 새로 설정해야 합니다.
(1) 테러리스트가 고층건물에 충돌한다는 조건 아래 조건 아래, (A)가 발생할 확률 = P(c │x) = y
(2) 테러리스트가 고층건물에 충동하지 않는다는 조건 아래, (A)가 발생할 확률 =P(c│not x) =z
이제 상기 조건부 확률을 고려하여 사후확률, 즉 여기서 구하고자 하는 사건(B)의 확률을 구합니다.
산식은 아래와 같습니다.
특정 사건을 예측할 때, 단순히 Data만 많이 모은다고 하여 예측이 쉬워지는 것이 아님을 이 책을 읽으면 더욱 명확해 집니다. 단순히 무작위적인 데이터만 긁어모았을 때, 가설을 설정하지 않을 경우 그냥 쓸모없는 큰 소음 덩어리, 말 그래도 큰 자료(Big Data)로 그칠 수도 있습니다.
현명한 예측을 하기 위해선 러신 머닝, 코딩 등 기술 외에도 인문학적 통찰을 통한 사전적 추론이 필요함은 분명합니다.
*) 참고로 네이트 실버 역시 2016년 미국 대선에서 트럼프 당선을 예측하진 못 했지만 다른 기관보다 가장 높은 확률로 트럼프 당선을 베팅했습니다. (39%) 과연 이번 대선에서는 어떻게 예측할까요?
최근댓글