데이터 사이언스의 주가가 올라가는 건, 많은 사람들이 데이터 사이언스가 돈이 된다는 생각을 하고 있기 때문이다.
한때는 미국 대학에서 글로벌과 관련된 프로그램을 설치하는 게 유행일 때가 있었다. 그게 교환학생 프로그램이 됐든, 인턴십이 됐든, 최고위 과정이 됐든 글로벌이란 이름이 들어가면 흥행이 됐고 장사가 됐다. 요새는 그 추세가 데이터 사이언스로 바뀐 느낌이다. 특별히 실리콘밸리를 낀 샌프란시스코 항만지역에 살다 보니 더욱 그런 느낌을 많이 받는다. 이번 학기에는 내가 몸담고 있는 캘리포니아대학교 버클리 캠퍼스 정치학과 대학원 개설 데이터 사이언스 수업의 조교로 데이터 사이언스를 가르치고 있으니 나도 ‘공범’의 죄가 있다.

경향DB
이렇게 데이터 사이언스의 주가가 올라가는 건 많은 사람들이 데이터 사이언스가 돈이 된다는 생각을 하고 있기 때문이다. 그리고 실제로 데이터 사이언스는 돈이 된다. 데이터 사이언티스가 억대 연봉을 받는 직업 중 하나라는 건 글래스도어 같은 연봉 공개 사이트에서 검색해보면 쉽게 확인할 수 있다. 게다가 데이터 사이언스의 근본은 코딩 기술이 아니다. 코딩은 자신이 이론적으로 이해하고 있고, 이미 논리적으로 설계한 모델을 데이터에 적용하기 위한 징검다리이지 출발점도, 종점도 아니기 때문이다. 게다가 컴퓨터 공학을 할 게 아니라면 본인이 사용할 대부분의 코드들은 이미 누군가가 패키지로 개발해 놓았다.
자신이 할 일은 그 패키지를 잘 조합해 적절히 사용하는 것뿐이다. 그보다는 관련 데이터에 대한 전문적 지식과 그 데이터를 수집하고 적용하는 데 활용할 수 있는 연구 설계, 통계 이론에 대한 이해와 직접적인 데이터 분석 경험이 더 중요하다. 이렇게 코딩을 피할 수는 없지만 아주 어려운 편은 아니고, 전문지식과 데이터 분석 경험을 살릴 부분이 많으니, 인문사회계에도 길이 있다.
이곳 버클리의 사회과학 계열 대학원생 중에도 졸업 후 이곳 실리콘밸리의 유력한 기업에 데이터 과학자로 취직하거나 재학 중 프로젝트를 맡아서 임시로 일하는 경우도 종종 보았다. 이건 사회과학자로서 받아온 훈련과 해오던 연구가 이들 기업에 가서 하는 일과 크게 다르지 않기 때문이다. 나아가 이렇게 데이터 사이언스에 대한 관심이 높아지는 건 학부에서도 마찬가지다. 최근에 미국 학부에서는 실리콘밸리 붐에 힘입어 컴퓨터 사이언스가 가장 높은 인기를 끌고 있고, 데이터 사이언스 붐에 따라 통계학도 못지 않은 인기를 끌고 있다.
이렇게 급성장하는 수요에 맞춰 데이터 과학자를 양산한다는 취지는 좋다. 그러나 그만큼 신중해야 한다. 데이터가 만들어지는 과정을 이해하고, 그걸 분석하고, 표현하는 건 다년의 고된 훈련과 수많은 시행착오를 통해 달성할 수 있는 목표다. 노력 못지않게 방향이 중요하다. 우리는 어떤 데이터 과학자를 우리가 원하는지 고민해야 한다. 우리가 원하는 데이터 과학자는 어설픈 데이터를 가지고 비전문가가 보기에 대단히 불필요하게 복잡한 모델로 엉뚱한 결과물을 내놓는 사람은 아닐 것이기 때문이다.
제대로 된 데이터 과학자는 의사·변호사 못지않게 전문직이다. 겉만 화려한 도구보다는 깊은 생각의 힘, 적절한 컴퓨터 도구와 기술을 적절한 문제에 활용할 줄 아는 전문가를 키우려는 노력이 중요하다. 그리고 이건 일부 교육기관의 열성, 사명감만으로 해결될 문제는 아니다. 근본적으로는 사회 전반적으로 특별히 데이터 분석을 실제 적용할 관공서·기업에서 데이터 사이언스에 대한 기본적인 통계, 연구 설계, 데이터를 다루는 논리에 대한 이해가 깊어져야 한다.
<김재연 UC 버클리 정치학과 박사과정생>