함부로 내 생각을 배우지 마라
  • 인쇄
  • |
  • 목록
  • |
  • 복사하기
  • 페이스북
  • 트위터
  • 밴드
Photo by Google DeepMind on Unsplash

Photo by Google DeepMind on Unsplash

생성형 AI에 익숙해진 이들의 일상은 달라졌다. 엔지니어라면 잘 몰랐던 기술을 질의응답만으로 탐색해볼 용기를 얻게 됐다. 디자이너라면 새로운 화풍에 대한 인사이트를 얻어 새로운 시도를 해볼 수 있게 됐다. 작가라면 생성형 AI 특유의 환각이 만들어내는 헛소리 덕에 작가적 상상력을 자극하는 체험을 했을 수도 있다.

이처럼 생성형 AI는 이미 누군가에게는 요긴한 도구가 되고 있다. 그런데 사실 이 도구가 유난히 도움이 되고 또 자극이 되는 이유는 이들이 뱉어내는 결과물에 ‘혼의 흔적’이 들어 있어서다.

작가가 만들어낸 예술혼의 파편은 패턴이 된다. 인간의 말과 글은 토큰(텍스트 데이터에서 의미를 갖는 최소한의 덩어리)이 된다. 그렇게 디지털로 바뀐 혼의 흔적을 학습한 데이터의 덩어리, 모델의 용량은 실은 얼마 되지 않는다. 아무리 큰 초거대 언어 모델(LLM)이라도 우리들의 노트북 저장장치에 쏙 들어갈 정도다.

그런데 누구의 혼이었을까. 혼을 빨아들인 후라면, 어쩌면 그 혼의 주인은 이제 별 필요가 없을 수도 있다. IBM은 오래된 코볼 프로그램을 현대적인 자바 프로그램으로 번역해 주는 생성형 AI를 선보이기로 했다. 업력 있는 회사 중에는 오래된 프로그램의 유지보수 인력을 구하느라 힘든 곳이 많았는데, 은퇴한 고수들의 실력 어린 혼만 저장해놓고 수시로 꺼내 쓸 수 있다면 앞으로는 나이 든 이들을 대우해야 할 부담이 없을 터다.

더 많은 생성형 AI가 우리의 참모와 비서가 되면, 일상은 편해지겠지만 한가지 근본적 질문은 유령처럼 뒤따를 수밖에 없다.

“너는 누구의 혼인가?”

너무나도 많은 교육 자료(트레이닝 세트)가 투입됐기에 충분히 희석됐다고 믿고 싶겠지만, 작가의 표현 그대로가 앙금처럼 튀어나오기도 한다. 그 어느 작가의 아집과 편향마저 환각 속에 읊어댄다. 이 모두 그 혼의 원주인은 알 리 없는 일이다

오픈 AI도, 메타도 책을 학습 데이터로 활용했다. 어둠의 경로로부터 취합한 데이터 세트다. 이 사실이 드러나자 작가들은 소송을 걸고 미국 작가 연합은 성명을 발표했다. 이때부터 기업들은 학습 데이터의 출처를 비공개로 돌리기 시작했다.

누군가가 평생 책 한 권도 사지 않고 다 빌려 읽었다고 뭐라 할 수 있는 사람은 없다. 인류는 그렇게 돌려 보며 지혜를 키웠으니까. 읽은 책을 베껴 도작을 만들지 않는 이상, 그 지혜로 여하간의 문화를 창달한다면 이 또한 공정한 이용이라는 것이 현대적 저작권의 맥락이다. 하지만 기계가 사람처럼 그래도 되는 것일까?

가게 주인이 나를 기억하고 취향을 맞춰 주면 기분이 좋아진다. 그러나 기계가 나를 추적하고 취향을 예측하면 기분이 좋지만은 않다. 기계와 인간은 다르기 때문이다. 각국의 프라이버시 규제는 이 다름에서 시작한다.

최근 출시된 네이버의 하이퍼클로바는 어떤 데이터를 학습했는지 공개하고 있다. 검색이 허용된 네이버 뉴스, 블로그, 지식인, 카페, 웹문서다. 뉴스만 해도 50년치다. 신문사도, 블로거도, 카페 회원도 색인을 만들어 준다고 해서 문서를 제공했을 뿐, 자신들의 혼이 쏙 빨려 들어간 진액이 담긴 파일 하나가 돼버렸으리라고는 아무도 생각하지 않았을 터다.

<김국현 IT칼럼니스트>

IT칼럼바로가기

이미지