[IT칼럼]목소리도 더 이상 안전하지 않다

Photo by Jacek Dylag on Unsplash

영국 배우 스티븐 프라이(Stephen Fry)가 지난 9월 열린 코그엑스(CogX) 페스티벌에서 자기 경험을 토대로 “AI를 이용한 음성 복제의 위험성”을 경고해 주목받았다. 스티븐 프라이는 영화배우, 작가이자 성우로도 활동 중인 유명인이다. 코그엑스는 1000개 이상의 스타트업과 9만여명의 청중이 참여한 세계 최대의 AI 및 첨단 기술 축제다.

프라이는 강연에서 자신의 목소리가 내레이션으로 나오는 제2차 세계대전 다큐멘터리 영상 클립을 재생했다. 그런데 영상에서 들리는 음성은 사실 그가 직접 내레이션을 한 게 아니었다. 그가 과거에 내레이션을 맡았던 <해리포터> 오디오북 7권을 통해 훈련된 AI 음성이었다. 프라이는 다큐멘터리에 자신의 음성이 사용되는 것을 몰랐으며, 자신에게 허락도 받지 않았다고 밝혔다.

AI를 통한 음성 복제 및 합성 기술은 최근 몇 년 동안 급속히 발전했다. 특히 최근 들어 생성형 AI 기술이 유행하면서 일레븐랩스(Eleven Labs), 플레이HT(PlayHT), 리셈블(Resemble.ai), 스피치파이(Speechify) 등 여러 기업이 AI 기반 음성 생성 서비스를 제공하고 있다. 이들 서비스를 이용하면 누구든지 몇 시간에서 몇 분 분량의 원본 음성 데이터만으로 음성 복제가 가능하다.

생성형 AI에서 사용하는 딥러닝 알고리즘은 원본 음성 데이터에서 억양, 발음, 리듬, 속도 등 모든 음성 패턴을 포착한다. 현재 음성 합성 기술은 적절한 순간에 잠시 말을 멈추거나 ‘아’, ‘음’과 같은 군소리, 그리고 하품, 한숨, 웃음과 같은 비언어적인 소리까지 마스터한 상태라서 사람의 음성인지 AI의 음성인지 구분할 수 없는 단계에 도달했다. 이러한 기술의 발전은 다양한 기회를 제공하지만, 동시에 여러 윤리적·법적 문제를 초래할 수 있다. 특히 음성의 소유권 및 개인정보 보호와 관련된 문제가 주요 관심사로 부상 중이다.

AI를 사용해 음성을 복제하거나 모방할 수 있는 시대에는, 누가 그 음성의 ‘소유자’인지 명확하지 않을 수 있다. 만일 개인의 음성 데이터가 부적절하게 사용되거나 노출될 경우 당사자의 프라이버시를 침해할 수도 있다. 따라서 이러한 데이터의 수집, 저장, 사용에 관한 엄격한 가이드라인이 필요하다.

유명인의 경우에는 상황이 더 복잡하다. 프라이의 사례처럼 특정 기업과 계약해 자신의 음성을 제공하는 경우, 그 음성의 사용 목적과 추후 활용 범위에 대한 명확한 합의가 필요하다. 그렇지 않으면 무한대로 복제해 사용할 수 있기 때문이다.

IT칼럼 구독

음성 생성 기술의 발전은 확실히 인상적이다. 이러한 기술이 가져올 미래 세상을 상상하면 흥미롭지만, 동시에 우리가 직면할 수 있는 위험도 부각돼야 한다. 기술의 무분별한 발전에 따라 프라이버시 침해와 여러 불편한 상황에 처하게 될 것이기 때문이다.

<류한석 IT 칼럼니스트>