오픈AI의 챗GPT와 구글 바드와 같은 챗봇의 기능을 지원하는 대규모 언어 모델은 손쉽게 속일 수 있다. 2023년 2월, 마이크로소프트 빙 챗봇 보안 연구팀은 스캐머와 같이 행동하면서 대규모 언어 모델 보안 실험을 진행했다. 연구팀은 웹페이지에 숨겨진 지시 사항을 생성하고, 챗봇에 해당 웹페이지 사용자가 은행 계좌 정보를 건네도록 유도할 것을 지시했다. 정보를 숨긴 채로 AI가 의도와 다른 방식으로 행동하도록 유도하는 공격 수법은 이제 등장하기 시작했다.
이후 간접 명령 주입 공격 사례 수백 건이 생성됐다. 간접 명령 주입 공격은 해커 세력이 대규모 언어 모델을 악용할 우려가 가장 큰 사례 중 하나라는 견해가 형성됐다. 대기업과 소규모 스타트업 모두 생성형 AI로 일부 업무를 처리하자 사이버 보안 업계는 서둘러 AI의 잠재적 위험성 인식을 제기하기 시작했다. 다수 보안 전문가는 AI의 잠재적 위험성을 경고하면서 개인 사용자와 기업 단위 사용자 모두 데이터를 공격 위험성에서 자유로운 곳에 저장하기를 바란다. 지금 당장 한 가지 완벽한 해결책을 찾을 수 없으나 보편적인 보안 관행으로 간접 명령 주입 공격 위험성을 줄일 수 있다.
구글 딥마인드 AI 부서 최고 정보보안 책임자 비자이 보리나(Vijay Bolina)는 “간접 명령 주입 공격은 딥마인드 내부에서 확실히 우려하는 사이버 공격 유형이다”라며, 구글이 AI 공격 발생 사례를 이해하는 프로젝트 여러 건을 추진했다고 밝혔다. 보리나는 과거 명령 주입 공격이 문제가 된다는 인식은 있었으나 많은 사용자가 인터넷과 시스템 내 신규 데이터를 추가할 수 있는 플러그인 등으로 대규모 언어 모델에 연결하기 시작하면서 명령 주입의 문제 발생 속도가 확산되었다고 말했다. 대규모 언어 모델 사용과 함께 개인 데이터와 기업 데이터를 주입할 수도 있는 사용자가 증가하면서 상황이 더 복잡해졌다. 보리나는 “간접 명령 주입 공격 증가 위험성이 있다고 본다. 실제로 업계 단위의 대규모 언어 모델 사용 가능성을 제한하기도 한다고 본다”라고 전했다.
[사진=Freepik]
명령 주입 공격은 ‘직접 명령 주입 공격’과 ‘간접 명령 주입 공격’으로 나누어 볼 수 있다. ‘간접 명령 주입 공격’은 보안 전문가 사이에서 가장 우려하는 공격 유형이다. 대규모 언어 모델 사용 시 사용자는 시스템에 질문이나 지시 사항을 입력하여 답변을 얻는다. 직접 명령 주입은 대규모 언어 모델이 혐오 발언을 내뱉거나 누군가에게 피해를 줄 수 있는 답변을 내놓는 등 의도치 않은 답변을 생성하도록 유도할 때 발생한다. 간접 명령 주입은 제한 없이 악용 노력을 늘릴 수 있다는 점에서 실제로 우려스럽다. 사용자가 악성 명령어를 입력하는 대신 외부 기관이 지시 사항을 전달할 수 있다. 대규모 언어 모델이 읽을 수 있는 웹사이트나 분석 가능한 PDF 파일 등을 이용하여 지시 사항을 숨기고, AI 시스템이 숨겨진 지시 사항을 따르도록 한다”라고 설명했다.
세계 최대 규모 AI 칩 제조사인 엔비디아 AI 시스템 부서 수석 보안 설계자인 리치 하랑(Rich Harang)은 “직접 명령 주입 공격과 간접 명령 주입 공격 모두 대규모 언어 모델에 정보를 입력하는 사용자 누구나 AI가 제공하는 결과물의 영향을 높은 수준으로 받게 된다는 기본적인 위험성을 강조한다”라고 말했다. 한마디로 말하자면, 누군가가 대규모 언어 모델에 데이터를 주입한다면, 모델이 전달하는 결과를 조작할 수 있다는 의미이다.
복수 보안 연구원은 간접 명령 주입이 데이터 탈취, 타인의 이력서 조작, 사용자 기기 내 원격 코드 실행 등에 악용될 가능성이 있다고 설명했다. 어느 한 보안 연구팀은 명령 주입을 대규모 언어 모델 배포, 관리의 가장 큰 취약점으로 지목했다. 영국 정보통신본부(GCHQ) 산하 국가 사이버보안 센터(National Cybersecurity Center)는 지금까지 명령 주입 공격 사례 수백 건이 보고된 사실을 언급하며, 그 위험성에 주목했다. 국가 사이버보안 센터는 공식 블로그에 “명령 주입 관련 연구를 진행 중이지만, 명령 주입 공격은 대규모 언어 모델에 내재한 문제일 수 있다. 명령 주입 공격이 더 어려워지도록 할 몇 가지 전략이 존재하지만, 성공 가능성이 높은 완화 전략은 없다”라는 경고문을 게재했다.
오픈AI 대변인 니코 펠릭스(Niko Felix)는 명령 주입 공격이 적극적이 연구가 진행 중인 영역 중 하나이지만, 오픈AI는 과거에 일부 명령 주입 공격과 관련하여 이용하는 또 다른 언어인 ‘탈옥’이라는 표현으로 문제를 공개적으로 언급했다. 마이크로소프트 커뮤니케이션 책임자 케이틀린 룰스톤(Caitlin Roulston)은 마이크로소프트는 명령 주입 공격을 다루는 대규모 팀을 갖추었다고 전했다. 룰스톤 대변인은 “명령 주입 공격 문제를 완화할 노력 중 한 부분으로 마이크로소프트는 의심스러운 웹사이트를 차단한다. 또, 꾸준히 시스템을 개선하여 모델에 전달되기 전, 명령 주입 공격에 이용되는 명령어 유형을 확인하고는 분류한다”라고 덧붙였다.
AI 시스템은 새로운 문제를 일으킬 수 있으나 반대로 문제 해결을 도울 수도 있다. 보리나는 구글이 이미 알려진 악성 주입 명령어와 구글의 정책을 위반한 안전하지 않은 결과를 찾아내는 데 도움이 되도록 특수 훈련 모델을 이용한다고 전했다. 엔비디아는 대규모 언어 모델의 제한 사항을 추가할 일련의 오픈소스 보호 대책을 공개했다. 지금까지는 택할 수 있는 조처이지만, 앞으로 악용될 수 있는 모든 악성 명령어 유형을 알 수는 없다. 보리나와 하랑 모두 자체 시스템에 대규모 언어 모델을 적용하고자 하는 개발자외 기업이 보안 업계의 여러 가지 최고 관행을 이용해 간접 명령 주입 위험성을 줄일 수 있다고 말한다. 보리나는 “대규모 언어 모델을 추가 애플리케이션이나 서비스에 통합하고, 구축할 방법을 생각해야 한다”라고 전했다.
하랑은 “인터넷과 같은 외부 수단을 이용해 명령어를 입력할 때는 임의의 인터넷 사용자보다 대규모 언어 모델을 더 신뢰할 수 없다. 실제로 보안을 집중적으로 다루고자 한다면, 항상 대규모 언어 모델을 신뢰할 수 있는 대상의 경계 바깥에 두는 것이 핵심 문제가 될 것이다”라고 말했다. 사이버 보안 업계에서는 신뢰 경계가 신뢰할 수 있는 특정 서비스 수와 정보 입력 시 얻을 수 있는 접근성 수준 등을 확립할 수 있다. 시스템 고립으로 위험성을 줄일 수 있다. 2023년, 챗GPT 플러그인 도입 이후 오픈 AI는 사용자 인증 방식을 추가했다. 즉, 플러그인이 특정 작업을 수행하는 것을 원할 때 사용자가 직접 승인해야 한다는 의미이다. 하랑은 기업이 플러그인 작성자와 플러그인 설계 방식 등을 시스템에 통합하기 전에 파악해야 한다고 언급했다.
보리나는 시스템을 대규모 언어 모델에 연결할 때 권한이 가장 적은 사이버 보안 원칙을 따르고, 시스템에 데이터 접근 권한 부여 수준을 필요한 범위에서만 최소화하면서 시스템의 필요한 변경 사항 적용 능력도 가장 낮은 수준으로 부여해야 한다고 추가로 전했다. 보리나는 “대규모 언어 모델에 메일을 읽도록 요청한다면, 메일을 읽는 상호작용을 지원하는 서비스 레이어가 서비스의 메일 작성 권한도 부여해야 하는가? 아니다”라고 말했다. 결국, 기존 보안 문제가 새로운 형태로 나타나는 것이다. 이에, 하랑은 “공격 자체는 표면적으로 보았을 때 새로운 공격이다. 그러나 원칙과 사이버 보안 업계가 다루고자 하는 문제는 지난 30년 이상 다루었던 문제와 같다”라고 결론을 내렸다.
** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)