[IT 칼럼]AI의 위험한 암기력과 저작권

Photo by Steve Johnson on Unsplash

인간과 달리 기억은 AI엔 위험한 능력이다. 자칫 학습했던 자료의 원본을 그대로 토해낼 수 있어서다. 이를 역류 현상이라 한다. 기억력과 역류는 모든 거대언어모델 개발자들의 골칫거리다. 당장 원본을 기억해 뱉어내기라도 하면 저작권 침해 시비에 휘말릴 수 있다. 개인정보 유출에 악용될 수도 있다. 심지어 구토를 유발하도록 꾀어내는 기술도 정교화하고 있어 고민은 더 깊어졌다.

블랙박스와 같은 거대언어모델의 특성상 그것의 기억 발휘 시점과 범위를 정확히 감지하는 건 쉽지 않다. 많은 연구자가 이 메커니즘을 규명하기 위해 노력 중이지만 용빼는 해법은 아직 발견되지 않았다. 학습 데이터 샘플 안에 동일 문장, 동일 이미지가 여러 건 포함돼 있을 경우 기억력이 출현한다는 정도만 파악한 수준이다. 문제는 거대언어모델이 더 인간에 가까운 능력을 갖추려 하면 할수록 적절한 기억력을 필요로 하고, 이로 인한 역류 위험은 더 높아진다는 사실이다.

뉴욕타임스가 이 거대언어모델의 위험한 기억력을 근거로 저작권 침해 소송을 제기했다. 지난해 12월 공개된 뉴욕타임스의 오픈AI 소송장을 보면, 원본의 표절 수준이 꽤 심각하다는 걸 확인할 수 있다. 예를 들어 2019년 보도된 뉴욕타임스의 퓰리처상 기사 ‘뉴욕시 택시 업계의 약탈적 대출 시리즈’의 경우 GPT-4가 동일 문장을 상당 부분 베낀 것으로 파악됐다. 여기에 그치지 않았다. 거대언어모델의 치명적 약점인 환각 현상과 결합하면서 뉴욕타임스가 보도하지도 않은 사실을 답변에 추가해놓기도 했다. 표절에 이미지 훼손이 더해진 셈이다. 물론 뉴욕타임스가 소송 근거 마련을 위해 프롬프트문을 유도했다는 비판도 있지만, 표절 사실 자체를 부인하기는 어렵다. 출시된 이미지 생성 모델 가운데 가장 정교하다고 평가받는 미드저니도 마찬가지다. 미드저니의 최신 모델인 V6는 글로벌 영화사들이 제작한 인기 영화들의 핵심 장면을 기억을 통해 그대로 재현해냈다. <어벤져스: 인피니티 워>, <헝거게임>, <다크나이트>, <심슨> 시리즈에 이르기까지 특정 장면을 출력해 달라는 요청에 거름장치 없이 그대로 뱉어냈다.

거대언어모델 개발사도 할 말이 없는 건 아니다. 이러한 원본 구토 현상은 ‘희소한 버그’일 뿐이며, 이를 없애기 위해 부단히 노력 중이라고 반박한다. 특히 오픈AI는 최근 공개한 공식 블로그를 통해 “의도적으로 모델을 조작해 역류하도록 하는 것은 적절한 기술 사용이 아니며 사용 약관을 위배한 것”이라고 불쾌감을 드러내기까지 했다.

IT 칼럼 구독

그것이 버그이든 아니든, 통제할 수 있는 기술이든 아니든 현재까지 드러난 사실만 본다면, 거대언어모델의 위험한 기억력은 우리에게 두 가지 위협을 초래할 수 있다. 표절된 저작물의 남용을 부추기고 인간의 창작 의지마저 손상한다는 점이다. 뉴욕타임스의 사례에서 보듯, 환각 현상이 없는 말을 지어내 뉴욕타임스의 명성을 훼손하는 건 신뢰로 수익을 유지하는 언론사로선 감내하기 어려운 결과다. 인간을 닮기 위해, 아니 그 역량을 넘어서기 위해 인간의 창작력을 경시하고 착취하려는 빅테크 기업들의 태도는 어떤 식으로든 견제할 필요가 있다.

<이성규 미디어스피어 대표>