더 쉬운 데이터 수집, 더 많은 데이터 확보가 반드시 사회 정의를 발전시키는 건 아니다.
미국 정치를 연구하는 사람들에게 가장 소중한 보물 중 하나는 전미 선거조사란 선거 데이터다. 1948년부터 시작된 이 패널 데이터는 미국 유권자들이 정치에 대해 어떻게 생각하고, 행동하는지를 지속적으로 관찰하는 데 매우 귀중한 자료다.
![[ IT 칼럼]데이터에도 인간의 편견이 숨어 있다](https://img.khan.co.kr/newsmaker/1294/1294_51.jpg)
그러나 전미 선거조사는 한계점도 많은 데이터다. 1억이 넘는 미국 시민 한 명 한 명에게 정치적 의견을 묻는 건 불가능하고, 어마어마한 세금 낭비이기 때문이다. 그렇기 때문에 이런 대규모 설문조사는 대부분 샘플링 기법에 의존한다. 이런 데이터 수집방식은 통계이론에 기초했다는 점에서 과학적이고, 예산을 경감한다는 점에서 경제적이다.
이런 연유로 이 데이터를 가지고 유색인종의 정치적 태도 변화를 역사적으로 연구하는 데는 문제가 많다. 미국 통계청 자료에 따르면 1960년 미국의 백인 인구는 90%에 가까웠다. 같은 자료에 근거했을 때 2010년 미국의 백인 인구는 70%에 가깝게 줄어들었다. 같은 시기, 라티노 인구는 전미 인구의 5%에서 15%로 세 배 증가했고, 아시안 인구는 전미 인구의 1%에서 5%로 다섯 배 증가했다. 이렇다 보니 백인 유권자를 대상으로 연구한다면 전미 조사연구가 패널 데이터란 강점을 그대로 다 활용할 수 있다. 1948년부터 오늘날까지 유권자 태도 변화를 추적하는 게 가능하다. 그러나 전미 선거조사 데이터 내의 흑인, 라티노, 아시아인의 표본 크기가 과거에 너무나 작았기 때문에 같은 방식으로 연구하는 것이 불가능하다.
그리고 20세기 중반에 백인 인구만 지금보다 더 많았던 것이 아니다. 미국에서 노예해방이 이루어진 건 1863년이지만, 역사적인 선거권법이 1965년에 통과되기 전까진 흑인들은 제대로 참정권을 누리지 못했다. 현대 민주주의의 가장 기본적인 권리인 참정권이 유색인종 대다수에게는 20세기 중반까진 사실상 차단되어 있었다. 그리고 1960년대 시민운동 이후 적어도 법적으로는 이런 장벽들이 많은 부분 해제되었다고 해도, 그걸로 과거의 차별이 모두 사라진 건 당연히 아니다.
21세기에 접어들면서 그 어느 때보다 데이터 수집이 더 쉬워졌다. 온라인으로 설문이 가능해지면서 설문조사 비용이 급격하게 줄어들었다. 데이터 분석방식도 더 다양해졌다. 이젠 방대한 텍스트나 혹은 비디오 같은 매체를 분석하는 기술도 빠르게 발달하고 있다.
하지만 더 쉬운 데이터 수집, 더 많은 데이터 확보가 반드시 사회 정의를 발전시키는 건 아니다. 사람이 하는 일은 모두 편견이 들어가 있다. 인종, 성별, 계급, 이런 사회를 구분하는 기준들이 우리편과 적의 경계를 만든다. 전미 선거조사라는 전세계에서 가장 우수한 패널 조사 중 하나가 갖고 있는 한계점은 미국의 인종차별적 역사가 남긴 유산이다.
소수 인종에 대한 관심, 그들이 처한 현실에 대한 이해를 기반으로 하지 않고서는 이런 문제점들이 한눈에 들어오지 않는다. 빅데이터란 말은 새롭지만, 데이터 수집과 분석은 연구자들이 수 세기 동안 해온 일이다. 새로운 기술을 들고 새로운 데이터를 모은다고 할지라도 우리 내면의 적에 대해 좀 더 신중하지 않는다면, 우리는 과거의 문제를 반복하게 될 것이다.
<김재연 UC 버클리 정치학과 박사과정생>