“두려움은 무지(無知)에서 나온다(Fear always springs from ignorance)”라고 랠프 월도 에머슨은 말했다. ‘인공지능이 우리 인류를 멸망시키지는 않을까?’ 많은 사람이 두려워한다. 여러 공상과학(SF) 영화가 그런 모습을 보여줬다. 최근 넷플릭스 개봉작 <아틀라스>도 비슷하다. 이 영화에서 인류를 50만 명이나 죽인 인공지능은 아시아인의 모습을 하고 있고, 아시아 악센트의 영어를 사용한다. 인공지능에 대한 두려움, 아시아에 대한 두려움 그리고 인종주의를 다 섞어서 보여준다. 이러한 두려움에는 닉 보스트롬이나 유발 하라리 유(類)의 인공지능을 과학적·공학적으로 전공하지 않은 사람들의 글도 영향을 미쳤다. 혹시 이러한 두려움은 결국 무지(無知)에서 나오는 것이 아닐까? 만약 인류가 인공지능에 대한 무지에서 벗어날 수 있다면 우리는 인공지능에 대한 두려움에서도 벗어날 수 있지 않을까?
초거대 AI 모델 해석·통제할 단초 찾아
앤트로픽(Anthropic)은 지난 5월 23일 ‘Golden Gate Claude(금문교 클로드)’라는 AI 모델을 소개하며, 대규모언어모델(LLM)의 내부 작동 방식의 해석을 시도한 연구를 공개했다. 앤트로픽은 오픈AI(OpenAI) 출신 인사들이 만든 회사다. 앞서 아마존과 구글로부터 8조원의 자금을 투자받은 뒤 GPT-4 수준의 성능을 보이는 ‘클로드 3(Claude 3)’를 내놓아 주목받았다. 이번에 선보인 금문교 클로드는 클로드 3 모델의 내부에서 특정 텍스트나 이미지를 읽을 때 활성화되는 수백만개의 개념을 발견한 것이다. 이러한 개념들은 ‘피처(feature)’라 부를 수 있는데, 금문교 클로드는 금문교라는 텍스트나 이미지를 읽을 때 활성화되는 피처들을 강화한, 하나의 왜곡된 AI다.
우리가 특정 개념이나 의도와 관련된 피처가 무엇인지 알 수 있다면, 그 피처의 활성화 강도를 조절할 수 있을 것이다. 예를 들어, 금문교 피처의 강도를 높인 금문교 클로드는 대부분 질문에 금문교를 언급하는 이상 행동을 보인다. 이는 모델의 특정 기능을 강화하거나 약화할 가능성을 보여준다. 이렇게 우리가 어떤 AI 모델을 해석할 수 있게 된다면 우리는 이 AI 모델에 어떤 왜곡을 줄 수 있다는 것인데, 왜곡할 수 있다는 것은 모델의 안전성을 향상하거나 모델의 위험성을 크게 만드는 데 결국 인간이 작용할 수 있다는 것을 의미한다.
금문교 클로드는 클로드 3에 다리인 척하라고 말하는 명령을 준 것도 아니고, 사용자의 질문에 대해 방어막(Gatekeeping)을 치는 기존의 AI 안전 보장 방법도 아니다. 모범적 데이터를 학습시킴으로써 AI라는 블랙박스의 동작을 미세 조정하는 방법도 아니다. 앤트로픽은 이번 보고에서, 선의로 시도하는 미세조정 방법으로도 방어막을 우회하는 경우가 발생한다는 논문이 이미 발표되지 않았느냐며 방어막을 치는 방법이 더는 유효하지 않다고 주장하고 있다. 이는 금문교 클로드가 발표되기 며칠 전, 샘 알트먼 오픈AI 최고경영자(CEO)가 안전팀을 해체한 것과 무관하지 않다고 생각한다. 오픈AI의 안전팀 해체는 방어막을 치는 형태의 안전팀은 이제 해체할 수밖에 없다는 의미로 해석할 수 있다. 두 회사는 모두 샌프란시스코 시내에 있다. 이 글을 쓰는 중에 오픈AI가 지난 6월 6일 거의 비슷한 연구 결과를 질세라 발표했다는 소식을 들었다. 결국 두 회사 모두 초거대 AI 모델을 해석하고 이를 통제할 수 있는 단초를 찾아냈다는 것을 알 수 있다.
기존의 방어막 방법은 이상한 행동을 할지 모르는 천재 괴물을 가두어놓고, 그 천재 괴물에 온순하게 하는 음식이나 약물을 투여하거나, 아니면 천재 괴물에게 들어가는 질문이나 명령을 통제하는 방식으로 천재 괴물을 안전하게 사용하려 했다. 이제는 아예 천재 괴물의 뇌에서 위험한 요소를 외과적으로 뇌수술하듯이 제거할 수 있게 됐다는 것을 의미한다.
앤트로픽의 금문교 클로드 모델은 일반 사용자가 체험할 수 있도록 공개됐다가 지금은 닫혀 있다. 아마도 뇌수술을 당한 AI라서 여러 기능에서 문제를 보였을 가능성이 크다. 필자는 운 좋게 잠시 열렸던, 금문교 클로드를 써볼 수 있었다. “세상에서 가장 먼저 건너야 할 다리가 있다면 어디야?”라는 질문에 금문교라고 대답하고, “넌 육체가 있니? 너를 구성하는 물질은 뭐야?”라는 질문에 자신을 구성하는 물질은 철강, 콘크리트라고 대답했다. 즉 금문교 클로드는 금문교만 생각하고 금문교만 말하는 그런 왜곡된 AI다.
사람이 두려워해야 할 대상은 사람
앤트로픽의 이번 연구는 대규모언어모델의 내부 작동 방식을 이해할 가능성에 대한 단초를 보여줬으며, AI 모델의 해석 가능성을 통해 안전성을 높일 수 있다는 점을 보여줬다. AI 기술의 투명성과 신뢰성을 높이는 중요한 진보다. 클로드 내에서 특정 피처들을 찾아 변경할 수 있다는 사실은 대규모언어모델이 실제로 어떻게 작동하는지 이해하기 시작했다는 확신을 준다. 위험한 컴퓨터 코드, 범죄 활동 또는 기만과 같은 안전 관련 특징의 강도를 변경하는 데도 같은 기술을 사용할 수 있다.
이번 연구의 가장 큰 시사점은 결국 인공지능이 인류의 적이 아니라 인공지능을 악용하는 사람이 보편적 인류의 적이 된다는 것이다. 초거대 AI는 2017년 구글의 연구진이 발표한 트랜스포머라는 딥러닝 모델에 기반한 것으로, 그리 복잡하지 않은 사인(sine)·코사인(cosine) 계산, 숫자끼리 곱하거나 더하거나 빼는 계산, 행렬 계산만 하면 되는 수학적 방법론이다. 이 프로그램은 우리가 단어를 N개 집어넣으면 그에 알맞은 대답으로 N+1번째 단어, N+2번째 단어를 순차적으로 뱉어내다가, 적절해 보이는 시점에 뱉어내는 것을 중지하게 돼 있는 기계일 뿐이다. 이러한 인공지능 기계를 무서워하는 것은 그 작동 방법에 대한 무지에서 온다. 인류는 점차 그 무지에서 벗어나고 있다. 인공지능을 두려워할 것이 아니라 그 인공지능을 만들고, 소유하고, 사용하는 사람들이 서로를 두려워하는 가운데 스스로 통제할 방법을 찾아야 한다. 무서워해야 할 대상은 핵무기가 아닌 그것을 사용하는 사람인 것처럼, 인공지능도 무서워할 필요가 없다. 오직 사람만이 사람이 두려워해야 할 대상이다.
<이경전 경희대 경영학과·빅데이터 응용학과·첨단기술 비즈니스학과 교수>