본문 바로가기 주메뉴 바로가기 검색 바로가기
AI 웜 등장
상태바
AI 웜 등장
보안 연구원이 자동으로 생성형 AI 에이전트 간 확산되는 테스트 환경의 AI 웜을 개발했다. AI 웜은 확산 도중 데이터 탈취, 스팸 메일 전송 등을 할 수 있다.
By MATT BURGESS, WIRED US

오픈AI의 챗GPT와 구글 제미니(Gemini) 등 생성형 인공지능(AI)이 발전하면서 작업 처리 시 사용하는 사례도 증가하였다. 여러 스타트업과 테크 기업이 사용자를 위해 따분하면서도 사소한 일을 대신 처리할 시스템을 바탕으로 AI 에이전트와 생태계를 개발 중이다. 달력 예약 일정 능력과 더 나아가 대신 제품 구매를 자동으로 마칠 수 있는 AI를 생각해 보아라. 반대로 AI 툴의 작업 자유 수준과 함께 공격에 악용할 방법도 함께 증가하는 추세이다.

어느 한 연구팀이 자동화 AI 생태계의 위험성을 시연하는 과정에서 최초의 생성형 AI 웜(generative AI worm)이라고 일컫는 바를 개발했다고 주장한다. AI 웜은 한 시스템에서 다른 시스템으로 확산되면서 확산 도중 데이터 탈취나 멀웨어 배포 등 문제를 일으킬 수 있다. AI 웜 개발 연구에 참여한 코넬대학교 공과대학 연구원 벤 나시(Ben Nassi)는 “기본적으로 이전에는 등장한 적이 없는 유형의 사이버 공격을 개시하거나 수행할 수 있다는 의미이다”라고 말했다.

나시는 동료 연구원 스타브 코헨(Stav Cohen), 론 비톤(Ron Bitton)과 함께 1988년, 인터넷 세계 전 영역에서 혼란을 일으킨 모리스 컴퓨터 웜의 조짐으로 모리스 II(Morris II)라고 명명한 AI 웜을 개발했다. 연구팀은 와이어드에 단독으로 공유한 논문과 웹사이트를 통해 AI 웜이 생성형 AI 이메일 어시스턴트를 공격해 이메일에서 데이터를 탈취하는 법과 스팸 메시지를 전송하는 법을 보여주었다. AI 웜 확산 도중 챗GPT, 제미니 등의 보안 조치를 어기면서 공격을 개시한다.

테스트 환경에서 AI 웜 실험을 진행하면서 공개적으로 사용할 수 있는 이메일 어시스턴트를 공격하지 않은 채로 진행한 연구는 대규모 언어 모델이 갈수록 멀티모달이 되어 텍스트 외에도 이미지, 영상도 생성 능력도 추가되면서 진행하게 되었다. 생성형 AI 웜이 대거 감지된 사례는 아직 보고된 적이 없지만, 복수 연구원은 스타트업, 개발자, 테크 기업 등이 우려해야 할 보안 위험 요소 중 하나로 AI 웜을 언급한다.

대다수 생성형 AI는 질문 답변이나 이미지 생성 요청 등 명령어 주입 사항에 따라 작업을 처리한다. 그러나 명령어는 시스템을 상대로 공격할 무기가 될 수도 있다. 탈옥으로 안전 규정을 무시하고, 유해 콘텐츠나 혐오 콘텐츠를 마구 생성할 수 있다. 또, 명령어 주입 공격 수법으로 챗봇에 비밀리에 지시 사항을 전달할 수도 있다. 일례로, 공격자는 대규모 언어 모델에 사기꾼처럼 행동하면서 사용자에게 은행 계좌 상세 정보를 건네도록 요구하는 웹페이지 텍스트를 숨길 수 있다.
 
[사진=Freepik]
[사진=Freepik]

연구팀은 생성형 AI 웜 개발 시 이른바 ‘적대적 자가재생 명령어(adversarial self-replicating prompt)’에 의존했다. 적대적 자가재생 명령어는 생성형 AI 모델이 명령에 따라 생성한 결과물로 또다른 명령을 생성하도록 촉진하는 명령어 유형을 의미한다. 다시 말해, AI 시스템이 답변을 통해 자체적으로 추가 지시 사항을 설정하라는 명령을 받는다는 의미이다. 전반적으로 기존의 SQL 주입 공격, 버퍼 오버플로 공격과 비슷하다고 볼 수 있다.

연구팀은 AI 웜의 공격 개시 방법을 보여주고자 챗GPT, 제미니, 오픈소스 대규모 언어 모델 LLaVA와 플러그인 연결이 된 생성형 AI를 이용하여 메시지 전송, 수신이 가능한 이메일 시스템을 개발했다. 이후 시스템 악용 방법 두 가지를 발견했다. 바로 텍스트 기반 자가재생 명령어를 사용하는 방법과 자가재생 명령어를 이미지 파일 안에 삽입하는 방법이다.

연구팀은 공격자처럼 행동을 개시하면서 실험을 진행하던 중 대규모 언어 모델이 시스템 외부에서 추가 데이터를 끌어오는 검색 증강 생성(retrieval-augmented generation, RAG)을 사용하여 적대적 텍스트 명령어(adversarial text prompt)를 포함한 메일을 작성했다. RAG가 사용자 질문에 따라 메일을 검색하여 반응을 보이고는 GPT-4나 제미니 프로로 메일을 전송하여 답변을 생성했다. 이구 결과적으로 생성형 AI 시스템에서 탈옥하여 이메일 데이터를 탈취했다. 나시는 “민감한 사용자 데이터를 포함한 채로 생성된 답변은 추후 신규 클라이언트로 전송된 후 신규 클라이언트 데이터베이스에 저장된 이메일 응답 시 이용됐다”라고 설명했다.

연구팀은 시스템 악용 방법을 두 번째로 이용한 방식을 실행하면서 악성 명령어가 삽입된 이미지로 타인에게 메시지를 전달하는 이메일 어시스턴트를 생성했다. 나시는 “이미지에 자가 재생 명령어를 비밀리에 전송하는 방식으로 스팸이나 학대 콘텐츠, 선동 광고 등을 포함한 이미지는 무엇이든 초기 메일 전송 후 신규 클라이언트로 추가로 전송할 수 있었다”라고 전했다.

연구팀은 시연 영상을 통해 이메일 시스템이 여러 차례 메시지를 전달하는 것을 발견할 수 있다는 사실도 보여주었다. 또한, 이메일에서 데이터를 따로 모을 수 있다는 점도 보여주었다. 나시는 “이름이나 연락처, 신용카드 번호, SSN 등 민감하다고 분류할 수 있는 데이터 무엇이든 수집할 수 있다”라고 말했다.

연구팀이 챗GPT와 제미니의 일부 안전 조처를 위반했으나 연구 자체는 포괄적인 AI 시스템 내 악성 아키텍처 설계를 경고한다고 주장했다. 연구팀은 안전 조처 위반 사항을 인지하면서도 구글, 오픈AI에 연구 결과를 보고했다. 오픈AI 연구원은 AI 웜 생성 연구 결과를 보고 “검증이나 분류되지 않은 사용자 입력값에 의존하는 방식으로 명령어 주입 입력 취약점을 악용할 방법을 찾은 것으로 보인다”라며, 오픈AI 내부에서 시스템 회복력을 강화하기 위한 작업을 진행 중이라고 덧붙였다. 또한, 개발자에게는 유해한 입력값을 이용하여 작업하는 일이 없도록 철저히 확인하는 방식을 사용해야 한다고 전했다. 구글은 연구팀의 연구 결과와 관련된 의견 공개를 거부했다. 나시는 와이어드에 구글 연구팀이 연구 결과와 관련하여 회의를 요청하고자 보낸 메시지를 공유했다.

AI 웜 시연은 대거 통제된 환경에서 진행되었으나 AI 웜 생성 연구를 검토한 복수 보안 전문가는 생성형 AI 웜이 미래에 가하는 위험성은 개발자가 진지하게 생각해야 할 문제 중 하나라는 의견을 내놓았다. 특히, AI 애플리케이션에 이메일 전송, 예약 완료 등 사용자 대신 작업을 처리할 권한을 부여했을 때와 작업 처리를 위해 다른 AI 에이전트와 연결되었을 가능성이 있을 때 AI 웜의 위험성을 더 진지하게 다루어야 한다. 나시 연구팀의 연구 이외에도 싱가포르 연구원과 중국 연구원으로 구성된 합동 연구팀이 5분 만에 대규모 언어 모델 에이전트를 탈옥할 방법을 보여준 연구에도 주목할 수 있다.

독일 CISPA 헬름홀츠정보보안센터(CISPA Helmholtz Center for Information Security) 연구원 사하르 압델나비(Sahar Abdelnabi)는 2023년 5월, 대규모 언어 모델을 겨냥한 명령어 주입 공격 발생 가능성을 주제로 한 최초의 시연 작업에 참여한 연구원 중 한 명이기도 하다. 압델나비 연구원은 AI 모델이 외부 출처나 AI 에이전트의 데이터를 포함할 때 작업이 자동화되면서 웜이 확산될 가능성이 있다고 설명했다. 그는 “주입 확산 가능성이 매우 타당한 시나리오라고 본다. 모두 AI 모델에 사용된 애플리케이션의 종류에 따라 차이가 있다”라고 말했다. 압델나비 연구원은 주입 공격을 즉시 구현할 수는 있으나 이론상 오래 이어지지는 않을 것으로 본다.

나시 연구팀은 AI 웜 확산에 따른 사이버 공격 발생 연구 결과를 다룬 논문을 통해 앞으로 2~3년 후면 생성형 AI 웜이 대거 발견될 것이라는 예측도 전했다. 연구 논문에는 “업계에서 여러 기업이 대대적으로 개발하는 생성형 AI 생태계는 차량, 스마트폰, 운영체제 등에 생성형 AI 역량을 통합했다”라고 언급했다.

그러나 생성형 AI를 생성하는 이들이 기존 보안 접근 방식을 사용하는 방법을 포함하여 생성형 AI 시스템을 방어할 방법을 개발할 수도 있다. AI 엔터프라이스 보안 기업 로버스트 인텔리전스(Robust Intelligence) 위협 연구원 애덤 스완다(Adam Swanda)는 “보안 문제가 많은 상황에서 제대로 된 보안 애플리케이션과 모니터링이 기존 보안 접근 방식을 사용하여 공격에 방어할 수 있다는 점을 다루는 데 부분적인 역할을 할 수 있을 것이다. 사용자는 보통 어떤 애플리케이션이든 대규모 언어 모델이 생성하는 결과물을 100% 신뢰하지 않을 것이다”라고 말했다.

스완다는 인간이 항상 AI의 작업 처리 과정을 인지하여 AI 에이전트가 승인 없이 모든 행동을 수행하도록 하지 않도록 확인하는 방법도 추후 발생할 보안 문제를 완화할 중요한 방법이라고 주장한다. 스완다는 “이메일을 읽는 대규모 언어 모델이 보안 조처에서 벗어나 메일을 전송하는 것을 원하지 않을 것이다. 따라서 AI의 작업 처리 경계를 두어 보안 관리를 할 수 있다”라고 말했다. 스완다는 구글과 오픈AI의 시스템 내에서 명령어가 수천 번 반복된다면, 수많은 잡음이 발생하여 보안 문제를 탐지하기 수월해질 것으로 내다보았다.

나시 연구팀도 AI 시스템 보안 위험성 완화 방식으로 같은 접근 방식 여러 가지를 거듭 이야기했다. 결국, 생성형 AI 어시스턴트 개발자가 보안 위험성을 인지해야 한다. 나시는 “AI 보안 문제는 AI 생태계 개발이든 애플리케이션 개발이든 기본적으로 위험 완화 접근 방식 중 하나를 따른다는 사실을 이해하고 살펴볼 필요가 있는 부분이다. AI 생태계, 애플리케이션 등을 개발할 때는 위험 완화 책임을 져야 하기 때문이다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Here Come the AI Worms
이 기사를 공유합니다
RECOMMENDED