대형언어모델(LLM·Large Language Model)의 핵심은 대규모 데이터 세트에서 얻은 지식을 바탕으로 자연어 이해와 생성 능력을 극대화하는 것이다. 그에 따라 사람들은 이를 기반으로 만들어진 AI 서비스를 통해 복잡한 질문, 문서 요약, 번역, 창의적 글쓰기 등 다양한 작업을 수행하며 기계와 전례 없는 방식으로 소통할 수 있게 됐다.
대형언어모델 기술은 지속해서 발전하고 있으며 더욱 정교해지는 추세다. 최근 등장한 클로드 3는 벤치마크에서 GPT-4를 능가하는 성능을 보여 화제가 됐다. 클로드 2까지만 해도 부족한 부분이 많았지만, 지난 3월 출시된 클로드 3는 상당한 인지 능력과 추론 능력을 보여주었다. AI(인공지능) 스타트업 엔트로픽이 만든 클로드 3는 3가지 모델로 제공된다. 가장 뛰어나지만 유료 구독이 필요한 오퍼스 모델, 괜찮은 성능을 제공하며 무료로 이용 가능한 소네트 모델, 3가지 모델 중 성능은 가장 낮은 편이지만 빠르고 가벼운 하이쿠 모델로 구분된다.
유료 구독 후 오퍼스를 써본 결과, 자연스러운 글쓰기, 즉 인간처럼 보이는 글쓰기에서는 확실히 오퍼스가 GPT-4에 앞서는 느낌을 받았다. 다만 내용의 충실도에서는 GPT-4와 비교해 나을 때도 있고, 그렇지 않은 때도 있어 모든 면에서 확연히 GPT-4를 능가한다고 보기는 어려웠다. 그런데 최근 서비스 운영 문제로 GPT-4에서 클로드 3로 이전하는 사용자가 늘어나고 있다. 근래 들어 가뜩이나 느린 GPT-4가 더 느려지고 오류를 자주 출력하는 등 사용자 불만이 커졌기 때문이다.
어쨌든 확실한 점은 지금까지 독보적 위치를 차지해온 GPT-4에 필적할 만한 대형언어모델이 등장했다는 점이다. 지금까지 구글의 제미나이(구 바드)나 네이버의 클로바는 거의 모든 면에서 GPT-4와 경쟁하기에는 역부족이었다. 나은 면이 전혀 없는 것은 아니지만, 이들 모델에서 동일한 작업을 해보았을 때 대부분 실망스러운 결과를 보여주었다.
현재 일반 대중이 사용할 수 있는 무료 모델(클로드 3-소네트, GPT-3.5, 제미나이 프로, 클로바) 중에서는 소네트가 벤치마크 결과에서도 그렇고 실 사용한 경험으로도 가장 나은 성능을 나타내는 편이다. 무료 사용자라면 소네트와 GPT-3.5를 동시에 이용하고, 유료 사용자라면 오퍼스와 GPT-4 중 자신의 용도에 맞는 것을 선택해서 이용하면 좋을 것 같다.
그런데 이와 같은 추천 사항은 앞으로 변경될 여지가 크다. 여러 차세대 대형언어모델의 출시가 임박했기 때문이다. 올해 여름 무렵 GPT-5가 출시될 예정이고, 아마존이 개발 중인 대형언어모델 올림푸스도 조만간 나온다. 일론 머스크가 설립한 xAI도 최근 공개한 그록 1.5 모델에 이어 2.0 버전을 출시할 예정인데, 머스크는 그록 2.0 모델이 기존 AI 모델들을 모두 뛰어넘을 것이라고 밝혔다.
대형언어모델의 규모 확장과 성능 고도화를 향한 치열한 경쟁이 펼쳐지면서 성능의 비약적인 향상과 이를 활용한 다양한 AI 애플리케이션 개발이 이어질 것으로 예상된다. 우리는 대형언어모델이 가져온 혁신의 소용돌이 속에 살고 있다. 기술의 진보를 면밀히 주시하고 현명하게 활용하는 지혜가 필요한 시점이다.
<류한석 IT 칼럼니스트>