코로나19는 인공지능(AI) 기술을 선택의 기로로 내몰았다. 쉽게 말하면 ‘민주주의냐, 전체주의냐’다. 뜬금없는 소리처럼 들릴지도 모르지만 사실이다. 이 칼럼을 통해 늘 강조하지만 AI는 인간이 생산한 데이터를 먹고 큰다. 데이터는 인간의 실재를 반영하고, 그 실재는 AI의 학습재료가 된다. AI 기술의 예측 정확성은 인간이 유·무형 노동으로 생산한 데이터의 정교함에 따라 달라진다. 최근 들어 기계가 자가생산한 데이터를 활용하는 알고리즘이 인기를 얻고 있지만, 그것은 실재와 동떨어진 가공된 실재의 결과물일 뿐이다. 다시 그 데이터는 언젠가 실재와의 거리를 검증해야 하는 한계를 드러낼 수밖에 없다.
코로나19는 이런 AI 개발자들에게 꽤 큰 과제를 던졌다. 치료제 개발의 속도를 높이는 것이다. 이번에도 딥마인드의 알파 시리즈가 주목을 받고 있다. 바둑에 특화된 ‘알파고’가 아니라 의료 분야로 확장한 ‘알파폴드’가 주인공이다. 알파폴드는 수많은 후보 물질 가운데 치료제로 사용할 수 있는 약물을 빨리 찾아내라는 특명을 부여받았다. 특정 바이러스의 치료 약물을 발견하려면 최우선으로 해당 단백질의 구조를 예측해야 한다. 모든 난제의 시작은 여기서부터다. 그동안 고급 기술이 접목된 현미경 등을 활용해 이 작업에 나섰지만 지나치게 비싸거나 오랜 시간을 필요로 했다. 알파폴드가 이 게임에 뛰어든 배경이다. 알파고에서 인정받은 학습 속도나 정확도는 그 이상으로 진화된 알파폴드 형태로 의료 분야에 이전됐다. 그 덕에 단백질 구조를 예측하는 데 요구되는 시간과 비용을 아낄 수 있게 됐고, 치료 약물 발견도 앞당겨질 수 있게 됐다.
이 과정에 결정적으로 기여한 게 단백질 구조 공개 데이터다. 지난 수십 년간 과학자들이 누적한 단백질 구조 데이터를 알파폴드는 자유롭게 접근해 학습재료로 삼았다. 심지어 중국조차 코로나19의 단백질 구조를 공개접근 데이터베이스로 개방했다. 거인의 어깨에 올라탈 수 있도록 사다리를 놓아준 과학자들의 공로가 있었기에 알파폴드의 위력이 배가될 수 있었다. 알파폴드도 화답했다. 그들이 공들여 개발한 모든 코드와 데이터를 오픈소스로 내놓았다. 어떤 과학자들이든 마음껏 연구하고 적용할 수 있도록 특허로 묶지 않고 소스를 공유한 것이다. 이를 공동체를 위한 민주적 데이터 공유모델이라고 칭할 수 있을 것이다.
정반대의 풍경도 있다. 코로나19의 확산 경로를 예측하기 위해 적잖은 국가들은 디지털 감시체계를 강화했다. 그것이 빠른 해결을 위한 첩경임을 알고 있었다. CCTV 영상을 통해 코로나19 의심자를 솎아냈고 격리했다. 이 과정에 마스크를 썼어도 개인을 식별할 수 있는 AI 기술이 동원됐다. 중국의 시진핑 주석은 이를 독려했다. 감시목적으로 중국 정부가 축적한 시민의 데이터가 있었기에 가능했다. 중국 정부는 AI의 기술 진화를 위해 이것을 활용했다. 시민의 동의는 애초부터 고려되지 않았다. 우리는 이러한 유형을 전체주의적 데이터 수집 모델이라고 부를 수 있을 것이다.
코로나19는 인류의 다급함을 타고 올라 새로운 선택지를 펼쳐보였다. 자발적 데이터 공유모델이냐, 전체주의적 수집 모델이냐. 어느 쪽이든 AI의 기술 수준 향상에 기여할 것이다. 인류가 직면한 어려운 문제를 해결하는 데도 도움을 줄 것이다. 하지만 희생해야 할 대가엔 너무나 큰 차이가 존재한다. 시간과 비용에서 효율적인 방식은 후자에 가깝지만, 우리는 더 많은 프라이버시 정보를 기계를 위해 바쳐야 한다. 중국이 AI 분야에서 위력을 발휘하는 까닭이다. AI 경쟁이 심화할수록, 중국 AI 기업이 부상할수록 세계는 더 많은 프라이버시의 희생을 속도와 경쟁력과 자본이라는 이름으로 정당화할지 모른다. 자발적 데이터 공유모델이 뒤로 밀리는 순간 인류는 AI 데이터 라벨러로 전락할 수도 있다.
<이성규 전 메디아티 미디어테크 랩장>