[IT 칼럼] 멀티모달 경쟁에서 앞서 나가는 제미나이



주간경향

공유하기

  • 카카오톡

  • 페이스북

  • X

  • 이메일

보기 설정

글자 크기

  • 보통

  • 크게

  • 아주 크게

컬러 모드

  • 라이트

  • 다크

  • 베이지

  • 그린

컬러 모드

  • 라이트

  • 다크

  • 베이지

  • 그린

[IT 칼럼] 멀티모달 경쟁에서 앞서 나가는 제미나이

입력 2026.02.27 13:07

수정 2026.02.27 13:13

펼치기/접기
  • 류한석 IT 칼럼니스트
일러스트 김상민 기자 사진 크게보기

일러스트 김상민 기자

초기 대형언어모델(LLM)이 인간의 글을 흉내 내는 데 집중했다면, 멀티모달 AI는 세상을 보고 듣는다. 인간의 뇌가 시각, 청각, 촉각 등의 다양한 감각 정보를 융합해 세상을 입체적으로 인지하듯, 멀티모달 AI는 서로 다른 형태의 데이터를 유기적으로 연결하고 통합해 추론하는 고도의 지능형 기술이다. 텍스트, 이미지, 비디오, 오디오 등 AI가 처리하는 개별적인 정보 포맷 하나하나를 기술 용어로 ‘모달리티(Modality)’라고 부른다. 멀티모달 모델, 멀티모달 AI처럼 명사 앞에 붙여 쓰는 경우가 많다 보니, ‘멀티모달’이라는 짧은 표현이 업계 전반에 자연스럽게 자리를 잡았다.

AI의 진정한 가치가 인간의 다양한 감각을 얼마나 자연스럽게 이해하고 매끄럽게 연결하느냐에 달려 있다면, 현시점을 기준으로 가장 앞서 걷고 있는 모델은 제미나이일 것이다. 제미나이 1세대가 네이티브 멀티모달과 긴 컨텍스트 윈도를 처음 도입했다면, 제미나이 2는 추론과 에이전트 기능의 토대를 쌓았으며, 제미나이 3는 이 모든 역량을 하나로 통합해 어떤 아이디어든 현실로 구현할 수 있는 모델로 진화 중이다. 최근 제미나이 3.1 프로가 출시됐다.

텍스트 중심으로 구축된 모델에 멀티모달 기능을 ‘붙인’ 경쟁 모델과 달리, 제미나이는 처음부터 다양한 데이터 양식을 통합적으로 처리하도록 설계됐다는 점에서 구조적 우위를 갖는다. 제미나이의 멀티모달 역량은 ‘입력’에만 국한되지 않는다. 출력 역시 멀티모달이다. 제미나이 3는 ‘생성형 UI’라는 개념을 도입해 사용자의 프롬프트에 가장 적합한 출력 형태를 모델 스스로 판단해 조합한다. 현재 제미나이에서 이미지 생성은 나노바나나 프로 모델, 영상 생성은 베오 3.1 모델을 사용하는데, 여기에 최근 구글은 리리아(Lyria) 3 음악 생성 모델을 추가했다.

이제 제미나이 사용자는 원하는 곡의 분위기를 묘사하면, 가사와 함께 30초짜리 음악 트랙을 생성할 수 있다. 사진이나 영상을 업로드하면 그 미디어의 감성에 맞는 음악을 자동으로 만드는 것도 가능하다. 스타일, 보컬, 템포를 조정하는 세밀한 제어도 지원된다. 모든 생성 음악에는 신스아이디(SynthID) 워터마크가 삽입돼 AI 생성물임을 식별할 수 있으며, 반대로 음악 파일을 업로드해 제미나이로 생성된 콘텐츠 여부를 확인하는 기능도 함께 탑재됐다.

멀티모달 AI가 지향하는 진정한 궁극의 가치는, AI가 컴퓨터라는 제한적인 감옥을 벗어나 우리가 숨 쉬는 물리적 3차원 세계를 완벽하게 감각하고 주도적으로 개입하는 데 있다. 구글은 텍스트부터 영상까지 모든 지각 능력을 통합한 AI를 무기 삼아 거대한 클라우드부터 일상의 스마트폰까지 촘촘한 생태계를 엮어내며 현실 세계로의 확장을 거침없이 시도하고 있다.

경쟁사들이 LLM 벤치마크 점수 올리기에 급급한 상황에서 구글은 이미 시각과 청각, 언어가 실시간으로 교차하는 진정한 범용인공지능(AGI)의 확고한 청사진을 완성해 가고 있는 셈이다. 제미나이 설계 시점부터 막대한 컴퓨팅 자원과 난이도를 감수하며 선택했던 ‘멀티모달 통합 아키텍처’라는 구글의 집요하고도 거대한 승부수가 옳았으며, 앞으로 펼쳐질 AI 혁명의 최전선에서 초격차의 해자를 만들어낼 것으로 전망된다.

댓글