AI는 지능이 아니다. 과거 x와 y 사이의 관계 함수에 미래의 x를 넣어 y를 예측하는 통계 모델이다. 따라서 다분히 과거 데이터에 의존적일 수밖에 없다. 트레이닝 데이터세트라고 불리는 과거 데이터는 우리의 일상이자 비밀이다. 소셜미디어(SNS)에서 기록으로 남긴 것, 어느 웹사이트에 등록한 것, 길거리를 오가며 행동한 것들의 총체다. 사회의 여러 군상이 포함돼 있고, 일상의 행위가 녹아 있으며 가치관과 성향이 내삽(interpolation)돼 있다. 보이지 않는 우리 노동의 결과이기에 그것의 소유권은 결국 우리에게 존재해야만 한다.
정부의 인공지능(AI) 육성책은 이 데이터를 고스란히 기업들에게 가명화된 형태로 넘기는 데 집중돼 있다. 위임받은 권력을 바탕으로 사적 기업의 이윤창출에 시민의 데이터를 제공한다는 뜻이다. 건강한 국민 기업의 육성을 위해 시민이 자발적으로 제공한다면 그 누구도 반론을 제기하지 않을 것이다. 하지만 지금의 분위기는 데이터 통치 주체로서 시민의 결정권을 시민의 동의 없이 사적 이익에 귀속시키려는 다소 권위주의적인 색채를 띠고 있다.
기업들이 AI로 돈을 버는 방식을 이해해보면, 그것이 왜 권위주의적인 결정인지 이해가 될 것이다. AI의 핵심 기술이라 할 수 있는 머신러닝은 데이터와 알고리즘, 모델이라는 3개 요소의 조합으로 이뤄진다. 여기서 데이터는 앞서 언급한 트레이닝 데이터세트다. 방대한 양의 트레이닝 데이터세트는 거대한 규모의 플랫폼 기업이 아니면 쉽사리 구할 수 없는 것들이다. ‘데이터 사일로’를 지향하는 대형 기술 기업들은 좀처럼 그걸 개방하지 않는다. 사업의 기반으로 삼는다.
트레이닝 데이터는 알고리즘 이면에서 작동하는 통계 모델을 구축하는 데 필수적이다. AI 기업의 경쟁력은 대량의 트레이닝 데이터를 알고리즘으로 훈련시켜 그들만의 경쟁력 있는 모델을 빨리 시장에 내놓는 데서 비롯된다. 트레이닝 데이터의 확보는 돈의 문제다. 곧장 수익을 만들어낼 수 있는 고급 데이터를 확보하는 건 상상 이상의 비용이 필요하다.
기업들은 이런 양질의 트레이닝 데이터세트를 공공으로부터 공짜로 받길 원한다. 데이터 소유 주체의 동의는 정부가 해결해주길 기대한다. 중국·미국 등에 뒤떨어진 AI 기술을 진흥해야 한다는 명분에서다. 그렇다면 기업은 도대체 시민을 위해 무엇을 해줄 수 있을까?
강조하지만, 트레이닝 데이터세트로 동원되는 시민의 정보는 시민의 노동이자 비밀이다. 기업이 이 데이터를 원한다면 시민의 허락을 구하는 것이 상식이다. 미국처럼 데이터 브로커를 통해 돈을 주고 사지도 않으면서, 중국처럼 국가적 감시체제 구축에 헌신하지도 않으면서 끊임없이 개인의 데이터를 탐한다. ‘성장률’이 급한 정부는 위임된 권력을 남용해 그들의 욕망을 충족시킨다. 그들이 요구하는 트레이닝 데이터세트는 엄연히 개인 노동의 부산물임에도 기술주의자 중심의 기업들은 이 사실조차 이해하지 못한다.
시민의 공공적 자원을 시장에 내놓는 데 따른 반대급부는 거의 논의된 적이 없다. 공짜를 탐하는 그들에게 시민을 위해 무엇을 할 것인지 되물어야 할 시점이다. 테슬라처럼 특허를 개방한 적도, 구글처럼 후속 세대를 위해 대량의 데이터세트를 공개한 적도 없는 그들에게, 정부의 외사랑은 시민적 관점에서 지나치게 보일 수밖에 없다.
<이성규 전 메디아티 미디어테크 랩장>