데이터 고갈과 빅테크의 양극화
  • 인쇄
  • |
  • 목록
  • |
  • 복사하기
  • 페이스북
  • 트위터
  • 밴드
일러스트 김상민 기자

일러스트 김상민 기자

2024년 전 세계 인류가 생산하게 될 텍스트 데이터의 양은 대략 180조~500조토큰으로 추정된다는 연구가 있다. 1토큰당 한글 0.8자라 가정하면, 대략 한글 144조~400조자다. 가늠하기 어려울 정도로 방대한 데이터가 매년 인터넷에 업로드되고 있다. 이 추정치는 전 세계 인구 가운데 인터넷 이용자 수를 추려내고 각 인터넷 이용자들이 평균적으로 매일 생산하는 텍스트 데이터의 평균치를 곱해 산출됐다. 이 추정 모델을 확장해 현재까지 인터넷에 누적된 공개 텍스트 데이터를 추산하면, 대략 3100조토큰(한글 2480조자)에 달한다.

하지만 인류가 생산한 텍스트 데이터의 양은 거대언어모델 입장에서 보면, 그리 많은 게 아니다. 새로운 거대언어모델이 등장할 때마다, 그리고 새로운 버전이 소개될 때마다 필요한 학습 데이터의 양은 상상을 초월한다. 더 높은 성능, 차별화한 기능을 선보이기 위해서는 더 많은 데이터를 학습시켜야 해서다. 현재 추세라면 2026년쯤부터 텍스트 데이터 고갈 현상이 뚜렷해질 것이라는 전망이 힘을 얻고 있다. 특히 인간이 생산한 데이터의 증가세가 그다지 가파르지 않아 새로운 대안을 찾아야 한다는 목소리가 제기되는 상황이다.

빅테크 기업들은 ‘합성 데이터’에서 방법을 찾았다. 인터넷에 공개된 인간 생산 데이터만으로는 자사 모델을 더 이상 업그레이드하기 어렵기에 합성 데이터, 즉 생성 AI가 만들어낸 기계 생산 데이터로 부족분을 채우려는 것이다. 하지만 결정적인 문제가 두 가지 있다. 인터넷에 널려 있는 인간 생산 데이터는 긁어가면 그만이지만, 합성 데이터는 고품질을 담보하기 위해 상당한 비용 지출을 감수해야 한다. 또 현실 속의 다채로운 경험, 가치관, 관점 등을 담고 있는 인간 생산 데이터와 달리 기계 합성 데이터는 다양성을 충분히 제공하지 못한다. 빅테크 기업들이 ‘비공개 인간 생산 데이터’로 다시 관심을 돌리는 이유다.

스케일AI라는 스타트업은 ‘비공개 데이터’를 맞춤형으로 제작해 오픈AI와 같은 언어모델 개발사에 공급한다. 내부에 박사급 학자, 변호사, 회계사, 시인, 작가 등 전문가풀을 두고 언어모델 개발사에 데이터를 판매한다. 한편으로 슬랙, 드롭박스처럼 방대한 ‘비공개’ 데이터를 보유하고 있는 기업에 데이터를 구매하기도 한다.

이미 현실로 닥쳐온 데이터 고갈 현상은 빅테크 간의 양극화를 심화시키고 있다. 더 높은 비용을 지불하고서라도 인간 생산 비공개 데이터를 구매해야 하는데, 이를 감당할 수 있는 자본력이 뒷받침되지 않으면 언감생심일 수밖에 없다. 네이버가 라인야후의 지분을 매각해서라도 여유자금을 확보하려 했던 배경이다.

생성 AI 모델 경쟁은 거의 끝물로 치닫고 있다. 오로지 자본력을 갖춘 생성 AI 빅테크만이 이 지독한 ‘머니 게임’에서 생존할 수 있다. 몇 년 뒤 3~4개 기업을 제외하면 자사 거대언어모델을 온전하게 유지하기 어려울지도 모른다. 결국 다양성이 보증된 데이터 확보 경쟁이 거대언어모델의 다양성을 축소시키는 아이러니컬한 국면으로 넘어간다는 의미다. 데이터 고갈이 초래한 인공지능 기술 사회의 모순적인 단면이다.

<이성규 미디어스피어 대표>

IT 칼럼바로가기

이미지
아동학대, 나아진 게 없다
오늘을 생각한다
아동학대, 나아진 게 없다
지난 6월 10일 경기 수원시청 앞에서 수원시 장안구의 한 민간어린이집에서 벌어진 집단 아동학대 관련 기자회견을 했다. 비슷한 사건을 접할 때마다 가해자들의 범죄행위에 치를 떨면서, 피해 아동 보호자들이 지친 마음과 몸을 이끌고 기자회견을 하게 만드는 망가진 시스템에 분노한다. 만 2세 반 어린이 13명에게 2명의 교사가 상습 폭력을 가했다. 경찰이 확보한 35일 치 CCTV에서 350건의 학대 행위가 발견됐고, 가해 교사 2명과 원장이 상습 아동학대와 방조 혐의로 검찰에 송치됐다. 그러나 피해 가족들은 가만히 있을 수 없었다. 원장은 아무런 행정 처분 없이 어린이집을 운영하고 있고, 가해 교사 2명은 자진 사직했기에 자격정지 등 처분을 받았는지 알 수 없다. 수원시는 할 수 있는 행정 조치는 다 했다며, 재판 결과를 기다릴 수밖에 없다고 했다. 피해 가족들은 수원시 행태가 마치 2차 가해처럼 느껴진다고 했다. 아동들은 여전히 불안과 악몽에 시달리고 있다. 자다가 몇 번씩 잠에서 깨는 한 어린이는 “꿀향기반 선생님들이 자기를 데리러 올까봐 무섭다”고 했다. 다른 어린이는 작은 소리에도 몸을 움찔하고, 밤마다 악몽에 시달린다. 지난 1월 CCTV 영상을 확인하고 경찰 신고, 언론 보도가 이어졌지만 5개월 동안 가족들의 삶은 하루도 편하지 않았다. 만 2세 어린 아기들을 밀치고, 넘어뜨리고, 머리채를 끌어당기고, 냅다 던져버리는 영상을 보며 엄마·아빠들의 마음은 지옥으로 떨어졌다.