뉴스 콘텐츠로 자연어 학습… “저널리즘에 쏟은 막대한 투자에 무임승차”

미국 뉴욕시의 뉴욕타임스 본사 입구의 모습 / AFP연합뉴스
오픈AI가 대화형 인공지능 서비스인 챗GPT를 공개한 이후 생성형 AI 기술이 일상에 빠르게 활용되고 있다. 특별한 지식 없이도 채팅창에 필요한 내용을 물어보면 척척 답해준다. 그럴듯해 보여도 사실과 다른 ‘환각’ 문제만 극복한다면 굳이 정보를 찾기 위해 ‘구글링’을 하거나 네이버 검색을 할 필요가 없다. 구글은 챗GPT가 등장하자 ‘비상경계령’을 내리고 대항마인 ‘바드’ 홍보에 열을 올리고 있다. 네이버 ‘하이퍼클로바X’, 카카오 ‘코지피티’, LG ‘엑사원’, KT ‘믿음’ 등 국내 기업도 한국형 AI 모델을 공개하면서 경쟁에 뛰어들었다.
생성형 AI의 대명사가 된 GPT는 지난해 3월 이후 GPT-4로 진화했다. 텍스트뿐만 아니라 음성과 이미지, 영상으로 결과를 내놓는 ‘멀티모달 시스템(Multi-modal System)’으로 발전했다. 올해에는 GPT-5가 나올 예정이다. 글쓰기 능력, 그림 그리는 능력, 작곡하는 능력, 코딩 능력이 부족한 사람도 GPT를 활용하면 그럴듯한 결과물을 얻을 수 있다. GPT4 구독료만 낼 수 있다면 누구에게나 생산성의 획기적인 도약이 가능하다. 샘 알트먼 오픈AI CEO가 GPT와 같은 AI 기술을 ‘인쇄술’에 비견할 수 있다고 말한 이유이기도 하다.
AI 학습 데이터에 대가 지불해야
생성형 AI가 지금의 위상을 갖추게 된 건 자연어를 이해하고, 자연어로 자연스럽게 결과물을 만들 수 있는 능력 때문이다. AI 모델의 자연어 학습에 사용된 데이터의 상당량은 뉴스 콘텐츠이다. 최순욱 너비의깊이 이사는 “인터넷 커뮤니티 게시물도 활용하겠지만, 기본적으로 뉴스 콘텐츠가 가장 신뢰할 수 있는 자료이고, 최신 경향을 반영하고, 질적 측면에서 공식적으로 활용할 수 있는 자료가 뉴스라는 점에서 네이버도 오픈AI도 한국어 학습에 국내 뉴스를 활용했다는 점은 자명하다”고 말했다.
이렇게 생성 AI 학습에 사용된 뉴스 콘텐츠에 정당한 저작권을 지불해야 한다는 논의가 최근 들어 부상하고 있다. 이는 뉴욕타임스가 지난해 12월 27일 저작권 침해를 이유로 오픈AI와 마이크로소프트를 상대로 소송을 제기하면서 본격화됐다. 뉴욕타임스는 뉴욕 연방지방법원에 제출한 소장에서 “생성 AI 도구는 대규모언어모델(LLM)에 의지하고 있고, 이는 타임스가 저작권을 갖고 있는 수백만 건의 뉴스 기사와 탐사보도, 사설, 리뷰, 가이드 등을 복제, 사용하면서 구축됐다”면서 “마이크로소프트의 (최근 코파일럿으로 이름을 바꾼) 빙챗과 오픈AI의 챗GPT를 통해 타임스가 저널리즘에 쏟은 막대한 투자에 무임승차하면서 허가를 받거나 대가를 지불하지 않고 대체 상품을 만드는 데 사용하고 있다”고 주장했다.
뉴욕타임스는 지난해 4월 마이크로소프트, 오픈AI와의 협상이 결렬되자 소송에 나섰다. 이후 8월 뉴욕타임스는 서비스 약관을 개정해 AI 훈련을 비롯해 모든 소프트웨어 개발에 콘텐츠를 동의 없이 사용하는 행위를 명시적으로 금지했다. 천현진 건국대 디지털커뮤니케이션연구센터 선임연구원은 “뉴욕타임스의 경우 GPT에서 기사 본문이 거의 그대로 복사돼 들어간 사례와 함께 본인들이 쓰지 않은 기사인데도 GPT에서 뉴욕타임스 기사인 듯 부정확한 출처를 명시해 자사의 브랜드 가치에 손상을 입혔다는 증거 자료도 제시했다”고 말했다.
언론이 저작권 침해를 이유로 AI 업체에 건 소송은 이번이 처음이다. 하지만 인공지능 저작권 관련 소송은 이미 여럿 제기됐다. 세계 최대 사진 아카이브 업체인 게티이미지는 지난해 2월 이미지 생성 AI인 ‘스테이블 디퓨전’ 개발사인 스테빌리티에이아이를 상대로 손해배상 소송을 제기했다. 자사가 30년간 축적해온 이미지 1200만 장 이상을 무단으로 AI 학습에 활용했다며 사진 사용 중단 요구와 함께 1조8000억달러의 손해배상을 청구했다.
이 소송이 있기 한 달 전 일군의 예술가들이 미국 캘리포니아 북부 지방법원에 스테빌리티에이아이, 미드저니 등 이미지 생성 AI 개발사를 상대로 집단소송을 제기했다. 지난해 9월에는 <왕좌의 게임>을 쓴 조지 R. R. 마틴 등 미국작가조합에 속한 17명의 작가가 오픈AI 등을 상대로 작업물에 대한 학습 금지와 함께 저작권 침해 저작물당 15만달러를 보상하라는 내용의 집단소송을 제기했다.
소송이 잇따르자 오픈AI는 지난해 7월 AP통신과 저작권 관련 계약을 맺었다. 8월에는 정보 수집·이용을 원하지 않는 사이트 관리자들이 GPT봇의 크롤링을 차단할 수 있는 방법을 공개했다. 애플도 생성 AI 학습에 필요한 콘텐츠 이용을 위해 일부 언론사와 접촉해 최소 5000만달러의 이용료를 제시하기도 했다.
네이버, 협상 요구에 “국제 논의 보고”
국내에서도 AI 학습에 사용된 뉴스 콘텐츠의 저작권 논의가 한국신문협회 차원에서 제기됐다. 신문협회는 지난해 7월 문화체육관광부에 제출한 의견서에서 “뉴스 콘텐츠는 생성형 AI가 고품질의 결과물을 생성하는 데 가장 중요한 데이터로서 가치가 높다. 온라인상에서 쉽게 접할 수 있고 팩트를 기반으로 중층적인 게이트키핑 과정을 거치며 정치·경제·사회·문화·과학·스포츠 등 다양한 주제를 폭넓게 다루는 콘텐츠는 뉴스밖에 없기 때문이다”면서 “무단으로 데이터를 수집해 AI학습에 활용하는 것은 언론사의 저작권을 침해하는 일이므로 생성형 AI 기술기업이 데이터 활용에 대한 대가를 저작권자에게 지급하도록 보상 체계를 마련해야 한다”고 밝혔다.
네이버는 지난해 6월 1일부터 네이버 서비스 개선 및 새로운 서비스 개발을 위한 연구 목적으로 정보를 이용하는 모든 경우 사전에 제공자 동의를 받도록 하는 내용의 뉴스 콘텐츠 제휴약관 개정안을 시행 중이다. 신문협회는 지난해 12월 28일 공정거래위원회에 제출한 의견서에서 약관 개정은 환영하지만 약관 개정 이전에 학습에 활용한 뉴스 데이터 범위와 분량, 활용의 정당성과 대가 지급 여부 등에 대한 협의가 필요하다는 입장이다. 개정 전 이뤄진 뉴스 데이터 활용의 정당성 여부를 포함해 향후 서비스 개선과 고도화를 위해 뉴스 데이터를 활용할 경우 그 범위나 활용 방식, 대가 지급 여부 등에 대한 기준도 없다고 했다.
네이버는 뉴스 제휴 약관에 따른 정당한 활용이라고 주장한다. 네이버 측은 “언론사 뉴스 콘텐츠 이용약관에 근거해 기사를 학습에 활용했다. 현재 글로벌 차원에서 학습에 활용되는 데이터에 대해 다양한 논의들이 이어지고 있고, 논의가 자리 잡아가는 추이를 보면서 네이버도 긴밀하게 협의해 나갈 계획이다”라고 밝혔다. 결국 뉴욕타임스 사례를 비롯해 글로벌 저작권 논의가 중요한 역할을 할 전망이다. 천 연구원은 “이번 소송은 어떻게든 합의로 끝날 것 같은데 언론사 보상 절차가 명시적으로 나오면 이게 국내에서도 선례가 될 것으로 보인다”고 말했다.
생성 AI 시대로의 전환은 뉴스 콘텐츠에 비용을 지불하지 않고 사용하는 한국적 관행을 바꿀 기회이기도 하다. 천 연구원은 “이용자 입장에서 출처가 있는 정보를 더 신뢰한다는 연구가 많아서 오픈AI도 출처 명시를 하려는 상황이다. 모든 정보를 뭉뚱그려서 AI가 만들었다고 하면 이용자 신뢰성은 더 떨어지지 않을까. 모든 정보의 출처를 밝힌다면 외부 출처가 명시된 부분은 대가 산정이 반드시 이뤄져야 한다”고 말했다. GPT의 등장은 언론사 수익에 직접적인 영향을 주기 때문이라고도 했다. “지금도 언론사 홈페이지로의 유입률이 떨어지는데 앞으로 이용자들이 정보 검색을 포털이 아닌 GPT로 한다면 아예 노출조차 되지 않아 언론사 유입률이나 광고 수입은 더 줄어들 수밖에 없다.”
<주영재 기자 jyj@kyunghyang.com>