잘못된 자료를 깊게 공부한 딥러닝
  • 인쇄
  • |
  • 목록
  • |
  • 복사하기
  • 페이스북
  • 트위터
  • 밴드

한동안 ‘사흘 사태’로 시끄러웠다. 8월 17일을 공휴일로 선언했는데, 그것이 왜 ‘사흘’간 휴무가 되느냐는 논쟁이었다. 세어보면 3일인데 왜 사흘이라고 썼느냐면서 오보라며, 오타라며 수정하라는 댓글이 한둘이 아니었다. 너무나도 당당한 포부에 어떻게 하루, 이틀, 사흘, 나흘도 모를 수 있느냐며 이 사회의 질적 퇴보의 신호라며 개탄하는 목소리도 커졌다. 온종일 실검 1위를 사흘이 차지하기도 했다.

일러스트/ 김상민 기자

일러스트/ 김상민 기자

나는 이 사태가 두 가지 점에서 놀라웠다. 하나는 정말 사람들이 자기가 모르는 것을 모두 네이버에 실시간으로 입력하고 있었다는 점. 또 하나는 구글 번역이 사흘을 4일(four days)이라고 번역하고 있었다는 점이었다. 인터넷 기업은 그렇게 시대의 분위기를 실시간으로 빨아들일 수 있다는 사실, 하지만 그리 세상의 정보를 빨아들여도 그 능력은 그 세상의 수준에 불과하다는 사실을 보여주는 일화였다.

구글 번역은 방대한 빅데이터에 의해 기계 학습된 시스템인데, 그 학습자료 확보를 위해 번역 제안 버튼 및 커뮤니티 등 사용자 참여 또한 유도하고 있다. 구글이 무슨 자료로 사흘을 학습했는지는 알 수 없지만, 구글은 대역(對譯) 관계에 있는 페이지의 쌍을 찾아 교과서 삼아 학습하고 있을 가능성이 크다. 예컨대 한국 신문사들의 공식 일본어판은 좋은 학습 교재다. 그래서인지 일본어로는 처음부터 3일로 잘 번역했다고 한다.

하지만 구글 번역은 영어로는 ‘four days’라고 태연히 오역하고 검증(verified) 마크까지 붙어 있었다. 학습 데이터도 엉망이었고, 사용자와 내부자에 의한 검증마저 뭘 모르는 이들이 했다. 이처럼 인공지능 시스템은 자신이 수집한 빅데이터의 능력을 결코 뛰어넘을 수 없고, 한번 오염된 멍청함은 신경망에서 금방 떨어내지는 못한다. 뭘 모르는 이들의 자료를 깊게 공부한 것이 딥러닝이었던 셈이다.

화제가 되었기에 아마도 구글도 이 ‘사흘 사태’를 몰랐을 리 없다. 사흘의 검색량이 늘었을 테니 몰랐다면 오히려 문제다. 하지만 사건 발생 나흘이 지난 이 글의 집필 시작 시점에도 여전히 오역인 상태였다. 겨우 일주일이 지나자 영문 번역은 ‘three days’로 수정되었으나, 중국어나 스페인어 등은 여전히 4일인 그대로다.

이 상황에는 두 가지 설명이 가능하다. 하나는 그것이 치명적인 오류라고 하더라도 재학습과 재배포에는 꽤 오랜 시간이 걸린다는 점. 또 하나는 구글과 같은 글로벌 기업은 개별 국가의 데이터 수준에 별로 신경 쓰지 않는다는 점이다.

구글 번역이 자연스러워 보이는 이유는 한영사전 속 단어를 기계적으로 대입하는 것이 아니라 생생한 대역을 반복 학습해 익힌 관용구와 문장을 흉내 내서다. 하지만 그 신선하지만, 검증 안 된 집단 지성이 검증까지 사전 대신 맡고 있다.

어쩌면 지금 우리는 단어의 멸종 과정을 실시간으로 목격하고 있는 것일지도 모른다. 사흘은 다행히 일이 커져 구원할 수 있겠지만, 멸종 동물처럼 빠르게 말들은 사라져 가고 있다. 예전 할머니가 살아 계실 때, 할머니가 쓰는 단어가 낯설어 사전을 찾아보곤 했다. 놀랍게도 모두 사전에 들어 있었다. 할머니는 그런 말도 모른다고 타박한 적이 없었지만, 오늘의 나는 그 말들이 무엇이었는지조차 잊어버리고 말았다. 사흘보다 더 아름다웠던 말들이었던 것 같기도 하다.

<김국현 IT 칼럼니스트·에디토이 대표>

IT 칼럼바로가기

이미지