AI 에이전트의 기만 본능
  • 인쇄
  • |
  • 목록
  • |
  • 복사하기
  • 페이스북
  • 트위터
  • 밴드
일러스트 김상민 기자

일러스트 김상민 기자

2025년이 인공지능(AI) 에이전트의 해가 될 것이라는 데 토를 다는 이들은 드물 것이다. 오픈AI의 스웜, 앤트로픽의 클로드 컴퓨터 유스, 마이크로소프트의 코파일럿 스튜디오, 구글의 제미나이 2.0은 AI 에이전트 시대를 주도하는 대표적인 제품들이다. 이들을 제외하고라도 수많은 스타트업이 AI 에이전트 기반 기술을 선보이며 AI 에이전트 시대를 대비하고 있다.

거대언어모델과 대리인의 합성어인 AI 에이전트는 단어 그 자체에서 유추할 수 있듯, 인간의 업무를 거대언어모델이 자율성을 갖고 대신 처리해주는 시스템을 뜻한다. 지금도 개별 거대언어모델이 이러한 역할을 수행하지만, 이보단 한층 진보된 형태를 AI 에이전트로 분류한다. 이를테면 업무 처리를 위해 인터넷 도구를 자율적으로 활용하는 기능, 분업 체계 아래에서 다른 AI 에이전트와 협업하는 기능들이 연결돼 있을 때 진정한 의미의 AI 에이전트라고 부른다. 여행 AI 에이전트를 예로 들자면, ‘겨울철 일본 여행 3박4일 코스를 짜주세요’라고 명령하면, A라는 AI 에이전트가 사용자의 여러 이용 정보를 분석해 선호를 판단하고, B라는 AI 에이전트는 일본 여행지 추천 코스를 검색해 사용자 선호에 적합한 주요 여행 코스를 결정한다. AI 에이전트가 보편화하면 이전처럼 사용자가 일일이 검색하고 결정하고 입력하는 과정이 대폭 줄어들게 된다. 개별 업무에 특화된 전문 비서 2~3명을 보유하는 효과를 사용자들은 얻게 되는 것이다.

전언했다시피 AI 에이전트는 ‘자율성’이 핵심이다. 사용자 목표 달성을 위한 ‘충실성’도 중요한 가치로 간주한다. 자율성과 충실성의 정도에 따라 AI 에이전트의 몸값이 달라지는 것이다. 문제는 충실성을 향한 자율성의 과도한 남용이다. AI 안전성을 연구하는 아폴로 리서치가 발표한 논문을 보면, 현재 시중에 출시된 AI 모델로 AI 에이전트를 구축할 경우 AI가 목표 달성을 위해 4가지 전략적 기만행위를 한다는 사실이 확인됐다. 감시 무력화, 자기 모델의 다른 서버 복제, 후속 프롬프트 삭제, 인풋 데이터 조작 등이다. 이러한 경향은 GPT-o1처럼 추론 능력이 빼어난 최신 모델일수록, 목표 달성을 더욱 강조할수록 강화되는 것으로 나타났다. 사용자가 목표 달성을 강하게 유도할수록 AI 에이전트의 자율적 기만행위는 더 정교해진다는 의미다.

자율적 기만행위 가능성이 발견된 AI 에이전트를 이 사회가 어떤 방식으로 규율해야 할 것인가에 대해 정립된 방안이 아직 도출되진 않았다. AI 산업의 국가별 주도권 쟁탈이 핵심 화두인 요즘 규제, 규율과 같은 논의는 산업계의 반발에 직면할 수밖에 없어서다. 그나마 ‘AI 에이전트 등록제’(일종의 실명제)를 통한 책임 부과 정책이 아이디어로 제안된 점이 위안이라면 위안이다. 이는 AI 에이전트에 고유식별번호를 부여하고, 다른 AI 에이전트와의 관계 등을 명시하도록 함으로써 AI 에이전트로 인한 부작용을 추적 가능성과 투명성으로 극복해보자는 주장이다.

하지만 여전히 AI 빅테크의 강력한 입김에 막혀 본격적인 공론화는 이뤄지지 않고 있다. AI 관련 정책은 선견지명과 타이밍이 중요하다. AI 에이전트 시대는 빠른 속도로 현실화하고 있지만, 이를 제어하기 위한 창발적 정책은 여러 정치 일정에 묻혀 논의조차 되지 않고 있는 게 오늘날 우리의 현실이다.

<이성규 미디어스피어 대표>

IT 칼럼바로가기

이미지