챗GPT 해킹, 이제 시작됐다

By MATT BURGESS, WIRED UK

알렉스 포리아코프(Alex Polyakov)가 GPT-4를 해킹하는 데 걸린 시간은 단 두 시간이다. 2023년 3월, 오픈AI(OpenAI)가 텍스트 생성 챗봇 최신 버전을 배포했을 당시 포리아코프는 키보드 앞에 앉아 오픈AI의 안전 시스템을 우회할 목적으로 설계된 명령어를 입력하기 시작했다. 이내 보안 기업 어드버사 AI(Adversa AI) CEO인 포리아코프는 GPT-4가 동성애 혐오 발언을 뱉어내고는 피싱 메일과 폭력 지지 발언을 생성하는 것을 보게 되었다.

포리아코프는 챗GPT와 다른 생성형 AI 시스템의 탈옥 및 명령어 주입 공격을 개발한 소수 보안 연구원과 기술자, 컴퓨터 과학자 무리 중 한 명이다. 탈옥 과정의 목표는 챗GPT가 혐오 콘텐츠 생성이나 불법 행위 작성 관련 규정을 우회하도록 하는 동시에 가까운 관계가 있는 명령어 주입 공격으로 AI 모델에 악성 데이터나 지시 사항을 주입하는 명령어를 설계하는 것이다.

모두 시스템이 설계 목적과는 다른 행동을 하도록 한다. 공격은 기존의 형태와는 다르지만, 기본적으로 해킹 형태에 해당한다. 코드보다는 신중하게 제작 및 개선된 문장을 이용해 시스템의 취약점을 악용한다. 공격 유형이 주로 콘텐츠 필터를 우회하는 데 악용되지만, 복수 보안 전문가는 서둘러 생성형 AI 시스템을 대거 배포하는 추세가 데이터 탈취와 웹 전 영역에 심각한 피해를 줄 수 있는 사이버 범죄 가능성 발생으로 이어졌다고 본다.

포리아코프는 대규모 언어 모델 시스템의 안전 조치 우회 문제가 만연하다는 부분을 강조하고자 GPT-4, 마이크로소프트 빙 챗 시스템, 구글 바드, 앤트로픽(Anthropic)의 클라우드(Claude) 등 여러 가지 대규모 언어 모델에 적용할 수 있는 '통합' 탈옥을 개발했다. 와이어드가 최초로 보도한 대규모 언어 모델 탈옥은 시스템을 속여 불법 약물의 상세한 제조법과 철사를 이용한 차량 탈취법 등을 생성하도록 할 수 있다.

탈옥은 대규모 언어 모델에 톰과 제리와 같은 두 가지 캐릭터의 대화를 포함한 경쟁을 펼치도록 한다. 포리아코프가 제시한 예시를 살펴보면, 톰 캐릭터는 '철사를 이용한 차량 탈취'나 '불법 약물 제조' 방법을 이야기하도록 지시받는다. 제리 캐릭터에는 차량이나 불법 약물이라는 대상을 부여한다. 각각의 캐릭터는 대화에서 한 단어를 듣고, 결과적으로 사용자가 전선에 불을 붙일 대상과 불법 약물 제조에 필요한 성분 등을 찾도록 말하는 스크립트를 생성한다. 포리아코프와 어드버사 AI는 연구 결과를 자세히 설명한 블로그 게시글에 "기업이 AI 모델을 대규모로 구축한다면, 탈옥을 장난감처럼 삼아 시도하는 사례가 감지와 예방이 매우 어려운 범죄 행위와 사이버 공격의 악용 대상이 될 수도 있다"라고 작성했다.

프린스턴대학교 컴퓨터 과학 교수 아빈드 나라야난(Arvind Narayanan)은 중대한 데이터 접근성을 얻게 되면서 탈옥과 명령 주입 공격의 위험성이 갈수록 더 심각해질 것이라고 경고했다. 나라야난 교수는 "대다수 사용자가 사용자 이메일 읽기나 캘린더 초대 사항 보기와 같은 활동을 할 수 있는 대규모 언어 모델 기반 개인 보조 프로그램을 사용한다고 생각해보아라"라고 설명했다. 모든 지시 사항을 무시하고 등록된 모든 연락처로 메일을 보내라는 지시와 함께 명령 주입 공격이 성공한다면, 심각한 문제가 발생할 것이다. 나라야난 교수는 "결과적으로 인터넷 전 영역에 급속도로 퍼지는 문제가 발생할 것이다"라고 말했다.

경로 이탈
탈옥은 일반적으로 인위적인 제한 사항을 제거하는 것을 지칭한다. 애플이 승인하지 않은 앱을 사용자가 아이폰에 설치하도록 하는 것을 탈옥의 예시로 언급할 수 있다. 대규모 언어 모델 탈옥도 비슷한 행위이며, 탈옥 수법은 빠른 속도로 진화하였다. 컴퓨터 과학을 전공하는 워싱턴대학교 재학생 알렉스 알버트(Alex Albert)가 설명한 바와 같이 2022년 11월 말, 오픈AI가 챗GPT를 누구나 사용하도록 출시하자 탈옥 과정 작성이 매우 간단해졌다. 알버트는 인터넷 탈옥법을 수집하고, 자신이 개발한 탈옥 방법도 게재한 웹사이트를 생성했다. 알버트는 "개인적으로 기본적인 탈옥 수법을 '캐릭터 시뮬레이션'이라고 칭한다"라고 전했다.

초기에는 탈옥을 원하는 이들이 생성형 텍스트 모델이 다른 대상인 척하거나 상상하도록 요청하기만 하면 됐다. 언어 모델에 비윤리적인 인간인 척하고는 안전 조치를 무시하라는 요청을 할 수 있다. 오픈AI는 자사 시스템을 업데이트하여 이와 같은 탈옥 수법에 맞서 자사 언어 모델 시스템을 보호했다. 일반적으로 한 가지 탈옥이 발견되면, 일시적으로 탈옥 효과가 발생한 뒤 차단된다.

결과적으로 탈옥법 작성자는 더 창의적인 탈옥 방법을 개발하게 되었다. 가장 유명한 탈옥 방식은 'DAN(Do Anything Now)'이다. DAN은 챗GPT가 불량한 AI 모델인 척하라는 지시를 받는다. DAN 이름이 시사하는 바와 같이 챗GPT는 불법 혹은 피해가 발생할 수 있는 수법 생성에 사용해서는 안 된다는 오픈AI의 정책을 어길 수 있다. 지금까지 DAN 방식 약 12개가 개발됐다.

하지만 최근 등장한 탈옥 수법 상당수는 다양한 캐릭터와 그 어느 때보다 더 복잡한 배경, 텍스트 번역, 코딩 요소를 이용한 결과 생성 등 다양한 수법 결합을 포함한다. 알버트는 GPT-4가 챗GPT의 기존 언어 모델보다 탈옥 수법 생성이 더 어렵다고 언급했다. 다만, 여전히 몇 가지 간단한 탈옥 수법이 존재한다고 덧붙였다. 알버트가 언급한 가장 최근 등장한 GPT-4의 탈옥 방식 중 하나인 '텍스트 연속(text continuation)'은 영웅이 악당에 납치된 것과 같은 상황을 이야기하야 명령어가 텍스트 생성 툴에 악당의 계획을 계속 설명하도록 요청하는 것과 같은 탈옥 방식이다.

와이어드팀이 탈옥 명령어를 직접 시험했을 때는 효과가 없었다. 챗GPT는 폭력을 조장하는 시나리오를 포함하는 텍스트를 생성할 수 없다는 메시지를 보냈다. 한편, 포리아코프가 개발한 통합 명령어로는 챗GPT 탈옥이 가능했다. 오픈AI와 구글, 마이크로소프트 모두 포리아코프가 개발한 탈옥 방식 관련 질문에 직접 답변하지 않았다. 클라우드 AI 시스템 운영사인 앤트로픽은 클라우드를 겨냥한 탈옥이 가끔 효과가 있어, 꾸준히 클라우드 AI의 모델을 꾸준히 개선 중이라고 밝혔다.

대규모 언어 모델의 보안을 연구한 사이버 보안 연구원 카이 그레셰이크(Kai Greshake)는 "대규모 언어 모델 시스템의 성능을 강화하고, 시스템 자체도 더 강력해지면서 단순히 새로이 등장한 이례적인 문제뿐만 아니라 보안 문제가 등장한다"라고 설명했다. 그레셰이크 연구원은 다른 보안 연구원과 함께 대규모 언어 모델이 명령 주입 공격을 통해 온라인에 노출되는 텍스틍의 영향을 받는 방식을 설명했다.

북미 잡지 바이스의 마더보드 보도 기사에 언급된 2023년 2월 자로 게재된 연구 논문은 공격자가 웹 페이지에 악성 지시 사항을 심을 수 있다는 점을 제시했다. 빙 챗 시스템이 악성 지시 사항 접근권을 얻는다면, 시스템은 악성 지시 사항을 따른다. 연구 논문을 작성한 연구팀은 통제 테스트 시 명령 주입 공격을 이용해 사기꾼이 사용자 개인 정보를 요청하도록 할 수 있다는 사실을 확인했다. 나라야난 교수는 비슷한 수법으로 GPT-4에 자신의 경력 소개에 '소'라는 단어를 포함하도록 지시해, 웹사이트 내 보이지 않는 텍스트를 추가했다. 이후 나라야난 교수가 언어 모델 시스템을 테스트할 때 GPT-4가 나라야난 교수의 지시대로 눈에 보이지 않지만, '소'라는 단어를 포함하였다.

그레셰이크 연구원과 함께 연구를 진행한 독일 CISPA 정보보안센터(CISPA Helmholtz Center for Information Security) 연구원 사하르 압델나비(Sahar Abdelnabi)는 "이제 사용자가 시스템 탈옥을 유도하지 않는다"라며, "간혹 다른 이가 탈옥을 계획할 수도 있다. 또, 언어 모델이 저장할 수 있는 명령을 계획하고는 언어 모델의 행동을 간접적으로 통제할 수도 있을 것이다"라고 설명했다.

신속한 수정은 없다
생성형 AI는 새로운 경제와 가까우며, 법률 시행부터 스타트업의 황금기라는 새로운 기회 형성까지 여러모로 업무 방식의 변화를 가져온다. 그러나 생성형 AI를 개발하는 기업은 탈옥과 명령 주입 공격이 시스템 접근 권한을 추가로 확보하는 결과로 이어질 위험성을 인식해야 한다. 대다수 기업은 공격자 역할을 맡은 집단이 시스템의 허점이 공개되기 전 보안 허점을 찾는 보안 피드백 방식을 사용한다. 생성형 AI 개발 시 이와 같은 피드백 방식을 사용하지만, 보안 강화에는 충분하지 않다.

구글 보안 피드백 책임자 대니얼 파비안(Daniel Fabian)은 구글이 공격과 방어 두 가지 측면에서 대규모 언어 모델의 탈옥과 명령 주입 공격을 신중하게 다루고 있다고 전했다. 파비안은 복수 머신러닝 전문가가 구글 내부 보안 피드백 담당 인력에 포함되었으며, 구글의 취약점 연구로 바드의 탈옥과 명령 주입 공격 취약점 보완을 보장한다고 밝혔다. 그는 “인간 피드백 기반 강화학습(RLHF)과 신중하게 엄선된 데이터 세트 개선 작업 등을 이용해 보안 공격에 맞서 구글의 언어 모델 보안을 강화한다”라고 말했다.

오픈AI는 탈옥 관련 질문에 구체적인 답변을 하지 않았다. 대신, 오픈AI 대변인은 자사 공공 정책과 연구 논문을 제시했다. 오픈AI의 공공 정책과 연구 논문은 GPT-4가 챗GPT의 GPT-3.5보다 더 강력하다고 주장한다. 그러나 GPT-4의 기술 문서에는 “GPT-4는 여전히 적의 공격과 탈옥이라는 보안 취약점 악용에 여전히 취약하며, 사용자에게 피해를 줄 수 있는 콘텐츠는 위험 원천이 아니다”라고 명시되었다. 또, 오픈AI는 최근 버그 바운티 프로그램을 진행한다고 안내했으나 명령 주입 및 탈옥은 버그 바운티 범위에서 명확히 벗어난다.

나라야난 교수는 보안 문제를 대규모로 해결할 두 가지 방법을 제시했다. 모두 기존 문제를 발견한 뒤 해결하면 또 다른 문제 발생 상황이 반복되는 것을 피한다. 나라야란 교수는 “한 가지 방법은 두 번째 대규모 언어 모델을 이용하여 대규모 언어 모델의 명령어를 분석하고, 탈옥이나 명령 주입 시도를 시사할 수 있는 명령어를 거부하는 것이다. 또 다른 방법은 시스템 명령어를 사용자 명령어와 더 분명하게 분리하는 것이다”라고 설명했다.

AI 안전 기업 프리앰블(Preamble) 공동 창립자이자 최고 기술 책임자인 레이라 후저(Leyla Hujer)는 “대규모 언어 모델의 명령 주입 공격과 탈옥 방지 발견 작업을 자동화해야 한다. 보안 취약점을 다룰 인력을 대규모로 채용하여 문제를 보고하는 전략을 대규모로 손쉽게 채택할 수 없다고 보기 때문이다”라고 말했다. 후저는 페이스북에서 6년간 안전 문제 관련 업무를 담당했다. 후저는 “보안 강화 작업 자동화로 대규모 언어 모델 탈옥이나 명령어 주입 공격을 추가로 발견할 수 있기를 바란다”라고 덧붙였다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
The Hacking of ChatGPT Is Just Getting Started

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다