도널드 트럼프 후보의 미국 대통령 당선은 충격적인 일이다. 첫째, 이미 세 번의 대선 토론을 통해서 트럼프가 정책적 지식이 부족할 뿐 아니라 공인으로서 갖춰야 할 기본적 품격도 갖추고 있지 않다는 것이 충분히 드러났다. 둘째, 힐러리 클린턴에게 희망적으로 보였던 여러 여론조사에도 불구하고 실제 뚜껑을 열어봤을 때는 트럼프가 승리했다. 우리는 무엇을 놓친 것일까?
먼저 기존에 정치학 연구 결과들로 설명할 수 있는 것부터 소개하자면 정책이나 이슈가 문제가 안 되고, 사회적 정체성이 중요도를 차지한 건 아주 새로운 사실이 아니다. 1960년대 미시간대학의 캠벨 등이 미국 유권자를 설문조사를 통해 연구하면서 밝힌 건 미국 유권자들의 정치에 대한 이해도가 매우 낮고, 정당 정체성이 선거 결과를 설명하는 데 가장 중요한 역할을 한다는 것이었다. 이번 선거가 보여준 것도 정책과 이슈가 크게 쟁점이 되지 못했다는 점이다. 지난 대통령 중간선거에서 밋 롬니가 득표한 패턴과 이번에 트럼프가 득표한 패턴을 비교하면 유타주만 제외하곤 거의 그대로 따라간다. 유타주에는 몰몬교가 많고, 롬니가 몰몬교도다. 이번 선거에서는 유타주에서 몰몬교 출신 제3의 후보가 있었다는 걸 생각하면, 유타주가 통계적 아웃라이어인 걸 설명할 수 있다. 이번 선거에 대해 이민, 인종, 성 등 여러 가지 중요성을 언급할 수 있지만 이런 큰 틀이 유지됐다는 건 무시하기 어렵다.

/ 2012년과 2016년 선거 투표자수를 비교한 인포그래픽.
여론조사에서도 아주 큰 틀에서는 틀리지 않았다. 결국에는 클린턴이 전체 득표로는 트럼프보다 앞섰다. 다만, 미국이 선거인단이라는 간접선거 방식을 택하고, 이게 승자독식이기 때문에 캘리포니아 같은 주에서 크게 앞서는 건 의미가 없다는 문제가 있다. 오하이오, 노스캐롤라이나, 플로리다 같은 격전지에서 승리했어야 했는데, 여기서 근소한 차이로 트럼프에게 패배한 게 결정적이었다. 게다가 이번 선거는 이전보다 불확실성이 더 컸다. 두 후보는 이전의 어느 후보와 비교해도 인기 없는 대통령 선거 후보였다. 많은 유권자들이 클린턴이 좋아서가 아니라 트럼프가 싫어서, 트럼프가 좋아서가 아니라 클린턴이 싫어서 표를 행사한 경우가 많았다. 그래서 여느 때보다 마지막까지 결정을 내리지 못한 유권자들도 많았다. 미국에서 데이터 분석 사이트로 유명한 파이브서티에잇의 네이트 실버도 이 점을 선거 기간 내내 누누이 강조했다. 그리고 중서부의 주 가운데 한 곳에서 트럼프나 클린턴으로 기울기 시작하면, 그게 다른 주와도 연결되기 때문에 이런 숨겨진 데이터로 인한 전체적 해석의 왜곡 문제는 더 심각하다.
이런 점들에서 봤을 때 이번 선거 결과가 데이터 사이언스에 주는 가장 큰 교훈은 우리가 가진 이론과 방법론보다 우리 자신의 사각지대가 가져다주는 위험성이다. 심리학자 대니얼 카너먼이 말했듯 예측적 확신이란 어떤 사실이 맞다는 걸 판단하는 데 좋은 기준이 못 된다. 통계학의 가장 기본적 진리 중 하나는 인간의 판단에는 왜곡이 들어가 있다는 것이다. 이미 존재하는 이론과 방법론이 상당한 불확실성을 이야기하고 있었다. 그럼에도 진보적 성향이 강한 미국 정치학자들 사이에서 트럼프의 당선 가능성을 그보다 낮게 보았던 건, 그것이 믿기 싫은 미래였기 때문이었을 것이다.
<김재연 UC 버클리 정치학과 박사과정생>