개별적으로는 비식별화된 정보라고 하더라도 이런 데이터를 엄청나게 많이 집적하면 그 속에서 특정 개인을 찾아낼 수 있다. 이것을 재식별화라고 하는데 빅데이터는 바로 이 재식별화 측면에서 엄청난 능력을 자랑하는 것이다.
장면 1: 2014년 1월, 대한민국은 난리가 났었다. 신용카드 개인정보 유출사건 때문이었다. 성명, 주민등록번호, 자택주소, 휴대전화 번호 등 최대 19개 항목의 개인식별정보가 유출되었다. 여기에는 지위 고하가 없었다. 높으신 분들이나 서민들이나 할 것 없이 개인정보가 탈탈 털렸다. 문제는 이런 개인정보 유출이 처음도 아니었고 끝도 아니었다는 것이다. 유출된 개인정보는 국내는 물론 중국으로까지 흘러들어 간 것으로 알려졌다.
여러 정보를 취합하면 누군인지 알아
장면 2: 2014년 5월, 미국 백악관은 빅데이터 시대의 정보 활용과 개인정보 보호와 관련한 2개의 보고서를 대통령에게 제출하고 이를 공개했다. 빅데이터 시대의 도래와 함께 정보의 활용과 규제에 관한 패러다임이 근본적으로 변화하고 있다는 점을 지적하고, 특히 개인정보 보호와 관련하여 국가의 역할이 새롭게 변화해야 한다는 점을 강조했다. 이들 보고서는 특히 이미 광범위하게 개인정보가 수집되고 이들이 다른 정보와 결합할 수 있다는 점을 고려할 때, 개인정보의 수집단계를 통제하는 것만으로는 개인의 사생활이 유효하게 보호되지 않는다는 점을 강조했다. 따라서 개인의 정보제공 동의 여부에 규제의 고리를 걸기보다는 동의 여부와 무관하게 개인정보를 활용하는 주체에게 개인의 사생활을 보호해야 할 포괄적인 의무를 부과하는 것이 더 유효하다는 점을 강조했다.
장면 3: 2015년 6월, 정확히는 지난주 금융위원회는 빅데이터 활용을 활성화하기 위해 개인을 식별할 수 있는 식별정보를 삭제한 자료, 소위 비식별화된 빅데이터는 신용정보의 범주에서 배제하여 개인의 정보제공 동의가 없더라도 자유스럽게 유통될 수 있도록 하겠다는 ‘담대한 포부’를 밝혔다. 이런 정도는 신용정보의 이용과 보호에 관한 법률을 개정할 필요도 없이 시행령 개정으로 간단하게 처리하겠다는 것이다.

지난해 3월, 고객 개인정보 유출사건과 관련해 황창규 KT 회장이 서울 세종로 KT 광화문 사옥 기자실에서 고개 숙여 사과하고 있다. | 강윤중 기자
위의 세 사건은 서로 아무런 연관이 없는 것일까, 아니면 어떤 고리로 중대하게 연결되어 있을까? 일단 위의 사건들은 신용정보의 활용과 개인의 사생활 보호와 관련한 사건들이므로 어떤 형태로든 연관이 있어 보인다. 문제는 그 연관이 정확히 어떻게 맺어지는가 하는 점이다.
일단 가장 최근의 사건인 장면 3을 살펴보자. 빅데이터 사용을 활성화하기 위해 비식별화된 정보의 유통에 대해서는 규제를 풀겠다는 것이다. 여기서 비식별화란 신용정보에 포함된 성명이나 주민등록번호 등 특정 개인을 식별할 수 있는 정보는 모두 삭제하는 것을 말한다. 따라서 비식별화된 신용정보는 “여러 개인들에 관한 구체적인 정보”는 포함되어 있지만 “그 정보가 누구의 것인지”에 대한 정보가 없기 때문에 자유스럽게 유통시켜도 무방하다는 것이다.
과연 그런가? 이제까지는 그랬다. 앞으로도 그런가? 아니다. 이것이 이 글의 핵심이다.
이런 문제가 생기는 연원은 빅데이터가 가지는 잠재적 능력이 엄청나기 때문이다. 아무리 개별적으로는 비식별화된 정보라고 하더라도 이런 데이터를 엄청나게 많이 집적하면 그 속에서 특정 개인을 찾아낼 수 있다는 것이다. 이것을 재식별화라고 하는데, 빅데이터는 바로 이 재식별화 측면에서 엄청난 능력을 자랑하는 것이다.
통상 비식별화된 정보 속에는 해당 정보 주체에 대한 ‘희미한 정보’가 포함되어 있다. 성별, 나이, 거주지역 등이 그런 것들이다. 물론 각각의 데이터를 따로 떼어놓고 보면 이런 희미한 정보를 통해 구체적으로 개인을 식별하는 것은 쉽지 않다. 예를 들어 신촌에 사는 25세 나이의 여성이라는 정보만 가지고 특정인을 식별하는 것은 사실상 어렵기 때문이다. 그러나 월세를 살고, 고향이 강릉이고, 특정 시중은행이 발행한 신용카드를 사용하는 사람이라면 그 범위가 훨씬 좁혀진다. 여기에 특정 이동통신사의 서비스를 이용하고 특정 대형편의점을 주기적으로 이용한다면 어쩌면 그 대상은 이미 충분히 좁혀질 수도 있다.
정보 이용자에게 포괄적 의무 부과해야
아마 현명한 독자들은 이미 충분히 그 의미를 깨달았을 것이다. 개별 데이터를 비식별화해도 이것을 집적하면 충분히 개인을 다시 식별할 수 있다는 것이다. 현대 통계학은 진실로 ‘건초더미 속에 숨겨진 바늘’을 찾아낼 수 있는 것이다. 실제로 미국 하버드대의 스위니 교수팀은 우편번호와 생년월일 그리고 성별 자료만을 이용해서 비식별화된 공개 빅데이터 중 약 4분의 1 정도의 자료에 대해 개인을 식별했고, 그 정확도는 90%를 상회함을 보인 바 있다.
장면 2에서 나타난 미국 대통령에 대한 정책보고서는 바로 이런 사생활 침해 가능성을 고려한 정책적 대응이었다. 다양한 경로로 수집되고 결합되는 빅데이터의 현실을 감안할 때 정책적 규제의 특징은 정보 이용자를 대상으로 해야 하고, 그 내용도 특정한 행동을 최소한으로 요구하기보다는 개인의 사생활 보호 의무라는 포괄적 의무를 지우는 것으로 변화되어야 한다는 것이다.
이런 점에 비추어볼 때 이번에 금융위가 발표한 정책방안은 ‘담대한 포부’라기보다는 ‘무모한 실험’이 될 가능성이 많다. 개별적 차원에서만 비식별화된 빅데이터가 통제 없이 유통될 경우 이들은 즉각 재식별화 과정을 거치게 될 것이고, 개인은 거대한 정보의 감시망 속에 무방비로 노출될 수밖에 없다. 자신의 재산, 소득, 소비패턴, 교통 이동경로, 거주형태, 질병 내력 등이 그야말로 탈탈 털리게 된다.
장면 1의 악몽은 다시 한 번 새삼스럽게 다가온다. 개인정보가 이미 깔끔하게 털렸고, 그 속에는 주민등록번호라는 만능 식별장치가 있다는 점은 우리나라 개인정보가 재식별화되는 것이 얼마나 손쉬운 것인가를 웅변으로 말해주고 있다. 특히 이들 정보가 국내뿐만 아니라 중국에서 광범위하게 유통되었다는 점은 이번 규제완화 조치가 우리나라 국민들의 사생활 침해라는 비용을 치르면서 누구의 이익으로 귀속될 것인지를 잘 보여준다. 어쩌면 우리나라 기업들은 그나마 국내 규제와 사회적 눈총 때문에 머뭇거리고, 외국의 일부 기업들만이 불법적으로 확보한 빅데이터와 국내 공개 빅데이터를 결합해서 불법적 수익을 만끽하는 상황이 발생할 수도 있다. 개인정보는 일단 유출되면 다시 주워 담기 어렵다는 점을 감안할 때 빅데이터 활성화는 그 편익과 비용을 정확히 판단하고 해외의 새로운 규제 추세를 충분히 감안하여 추진해야 한다.
<전성인 홍익대 경제학과 교수>