데이터 고갈과 빅테크의 양극화
  • 인쇄
  • |
  • 목록
  • |
  • 복사하기
  • 페이스북
  • 트위터
  • 밴드
일러스트 김상민 기자

일러스트 김상민 기자

2024년 전 세계 인류가 생산하게 될 텍스트 데이터의 양은 대략 180조~500조토큰으로 추정된다는 연구가 있다. 1토큰당 한글 0.8자라 가정하면, 대략 한글 144조~400조자다. 가늠하기 어려울 정도로 방대한 데이터가 매년 인터넷에 업로드되고 있다. 이 추정치는 전 세계 인구 가운데 인터넷 이용자 수를 추려내고 각 인터넷 이용자들이 평균적으로 매일 생산하는 텍스트 데이터의 평균치를 곱해 산출됐다. 이 추정 모델을 확장해 현재까지 인터넷에 누적된 공개 텍스트 데이터를 추산하면, 대략 3100조토큰(한글 2480조자)에 달한다.

하지만 인류가 생산한 텍스트 데이터의 양은 거대언어모델 입장에서 보면, 그리 많은 게 아니다. 새로운 거대언어모델이 등장할 때마다, 그리고 새로운 버전이 소개될 때마다 필요한 학습 데이터의 양은 상상을 초월한다. 더 높은 성능, 차별화한 기능을 선보이기 위해서는 더 많은 데이터를 학습시켜야 해서다. 현재 추세라면 2026년쯤부터 텍스트 데이터 고갈 현상이 뚜렷해질 것이라는 전망이 힘을 얻고 있다. 특히 인간이 생산한 데이터의 증가세가 그다지 가파르지 않아 새로운 대안을 찾아야 한다는 목소리가 제기되는 상황이다.

빅테크 기업들은 ‘합성 데이터’에서 방법을 찾았다. 인터넷에 공개된 인간 생산 데이터만으로는 자사 모델을 더 이상 업그레이드하기 어렵기에 합성 데이터, 즉 생성 AI가 만들어낸 기계 생산 데이터로 부족분을 채우려는 것이다. 하지만 결정적인 문제가 두 가지 있다. 인터넷에 널려 있는 인간 생산 데이터는 긁어가면 그만이지만, 합성 데이터는 고품질을 담보하기 위해 상당한 비용 지출을 감수해야 한다. 또 현실 속의 다채로운 경험, 가치관, 관점 등을 담고 있는 인간 생산 데이터와 달리 기계 합성 데이터는 다양성을 충분히 제공하지 못한다. 빅테크 기업들이 ‘비공개 인간 생산 데이터’로 다시 관심을 돌리는 이유다.

스케일AI라는 스타트업은 ‘비공개 데이터’를 맞춤형으로 제작해 오픈AI와 같은 언어모델 개발사에 공급한다. 내부에 박사급 학자, 변호사, 회계사, 시인, 작가 등 전문가풀을 두고 언어모델 개발사에 데이터를 판매한다. 한편으로 슬랙, 드롭박스처럼 방대한 ‘비공개’ 데이터를 보유하고 있는 기업에 데이터를 구매하기도 한다.

이미 현실로 닥쳐온 데이터 고갈 현상은 빅테크 간의 양극화를 심화시키고 있다. 더 높은 비용을 지불하고서라도 인간 생산 비공개 데이터를 구매해야 하는데, 이를 감당할 수 있는 자본력이 뒷받침되지 않으면 언감생심일 수밖에 없다. 네이버가 라인야후의 지분을 매각해서라도 여유자금을 확보하려 했던 배경이다.

생성 AI 모델 경쟁은 거의 끝물로 치닫고 있다. 오로지 자본력을 갖춘 생성 AI 빅테크만이 이 지독한 ‘머니 게임’에서 생존할 수 있다. 몇 년 뒤 3~4개 기업을 제외하면 자사 거대언어모델을 온전하게 유지하기 어려울지도 모른다. 결국 다양성이 보증된 데이터 확보 경쟁이 거대언어모델의 다양성을 축소시키는 아이러니컬한 국면으로 넘어간다는 의미다. 데이터 고갈이 초래한 인공지능 기술 사회의 모순적인 단면이다.

<이성규 미디어스피어 대표>

IT 칼럼바로가기

이미지