본문 바로가기 주메뉴 바로가기 검색 바로가기
AI를 이용해 다른 AI를 속이는 법
상태바
AI를 이용해 다른 AI를 속이는 법
영어 단어 하나만 조작해도 AI 문장 이해도 90%에서 10%로 떨어져

/ By Will Knight, Wired US

인공지능의 언어 이해 기술은 크게 발전했다. 그러나 (큰 그림을 보지 못한 채) 단편적 시각을 가진 알고리즘은 여전히 골칫덩어리이다.

여기서 소개하는 연구 내용은 정교하게 다듬어진 문구가 인공지능 프로그램을 어떻게 기만하고 속이는지 잘 보여준다. 심지어 사람은 그 뜻을 쉽게 간파하고 해석하는 문구이지만, 인공지능 알고리즘은 간단한 문장이나 단어 변형 만으로 그 뜻을 이해 못하고 잘못된 해석을 내놓는다.

현재 텍스트를 분석하는 인공지능 프로그램은 구직자 서류를 심사하거나 의료비용 청구, 법률 문서를 검토하는데 늘리 쓰인다. 그런데 단어 몇 개만 조작하면 인공지능의 탐지 기능을 피해 갈 수 있다. 부당 거래를 탐색 중인 인공지능 알고리즘을 무력화시키고, 심지어 건강보험 청구액을 부풀려 받을 수도 있다. 

디 진 (Di Jin) 美 매사추세츠 공대 대학원생은 홍콩대와 싱가포르의 과학기술청(Agency for Science, Technology, and Research) 연구자들과 함께 텍스트 기반 인공지능 프로그램을 속이는 기술인 ‘적대적 사례’(Adversarial Example)’을 개발했다.

이런 유형의 공격은 실제 굉장히 위험하다. 진은 이 방법이 금융이나 헬스케어 자동화 프로그램에 적용되면 큰 피해를 유발한다고 경고했다. 그는 “이 분야들에 변화를 조금만 주어도 큰 문제를 야기할 수 있다”고 언급했다.

진과 그의 동료들은 텍스트의 의미를 바꾸지 않고 인공지능 시스템을 속일 수 있는 ‘텍스트 풀러 (TextFooler)’라는 알고리즘을 개발했다. 이 알고리즘은 인공지능을 사용해 다른 인공지능을 속이려 할 때  어떤 단어를 대체하면 되는지를 알려준다.

텍스트 풀러는 영화 리뷰를 심사하고자 만들어진 알고리즘을 속이고자 문장을 바꿨다. 예를 들어, “생각해 내기조차 불가능한(contrived) 상황에 내던져진 등장인물들은 현실로부터 완전히(totally) 동떨어졌다”라는 문장을 “아주 어렵게 만들어진(engineered) 상황에 내던져진 등장인물들은 현실로부터 전적으로(fully) 멀어져 있다”고 변형했다. 알고리즘은 이 단어 변화를 통해 문장 성격을 부정에서 긍정으로 바꿨다. 

이 예시는 인공지능에 관한 불편한 진실을 말해준다. 인공지능이 몹시 똑똑하기도 하지만 놀랍도록 멍청하다는 점 말이다.

연구자들은 여러 일반적인 알고리즘과 데이터를 사용해 그들의 가설을 시험했고, 인공지능의 문장 이해 정확도를 90% 이상에서 10% 미만으로 떨어트렸다. 사람은 변화된 문구가 동일한 의미를 가지는 것으로 얼마든지 판단할 수 있지만 말이다. 
 

영어 단어 철자 하나를 바꾸면 인공지능 프로그램이 의료 비용 청구 내역을 심사하는 방법이나 구직자를 평가하는 방식까지 바꿀 수 있다. [사진=UNSPLASH]
영어 단어 하나를 바꾸면 인공지능 프로그램이 의료 비용 청구 내역을 심사하는 방법이나 구직자를 평가하는 방식까지 바꿀 수 있다. [사진=UNSPLASH]

인공지능은 머신러닝을 통해 데이터에서 인간이 감지할 수 없는 미세한 패턴을 찾는 게 가능하다. 그런데 머신 러닝에 기반한 이 인공지능은 조그마한 혼란이 있어도 제대로 작동하지 못한다.

머신 러닝은 데이터에서 미묘한 패턴을 찾아서 작동하지만 인간은 대부분 인식할 수 없다. 이것은 머신 러닝 기반 시스템을 이상한 혼란에 취약하게 만듭니다. 예를 들어, 이미지 인식 프로그램은 사람의 눈에 완전히 정상인 이미지에 의해 속을 수 있다. 예를 들어 헬리콥터 이미지의 픽셀을 미세하게 조정하면 프로그램이 개를보고 있다고 생각하도록 속일 수 있다. AI를 통해 가장기만적인 조정은 알고리즘을 처음 훈련하는 데 사용되는 프로세스와 관련된 프로세스를 사용하여 식별 할 수 있습니다.

머신 러닝은 데이터에서 미묘한 패턴을 찾아서 작동하지만 인간은 대부분 인식할 수 없다. 이것은 머신 러닝 기반 시스템을 이상한 혼란에 취약하게 만든다. 예를 들어, 이미지 인식 프로그램은 사람의 눈에 완전히 정상인 이미지에 의해 속을 수 있다. 예를 들어 헬리콥터 이미지 중 픽셀을 조금만 수정하면 인공지능이 이 이미지를 개라고 인식하도록 할 수 있다. 머신러닝 이전 인공지능은 원본 이미지 픽셀을 가장 많이 보정한 이미지는 을 통해 확인할 수 있다. 속이기 쉽게 수정한 내용들은 인공지능을 통해 발견할 수 있다. 왜냐하면 인공지능 알고리즘은 이러한  미세한 패턴을 감지하도록 처음부터 훈련받았기 때문이다.

연구자들은 알고리즘이 가진 잠재적 위험 요소와 약점을 파악하고자 노력 중이다. 약점은 대부분 이미지, 음성 인식 기술에서 드러난다. 컴퓨터 보안, 군 관련 분야에서 인공지능을 속이고자 또 다른 인공지능을 활용하게 되는데 이는 심각한 문제를 일으킬 수 있다.

스탠퍼드 대학 내 ‘사람 중심 인공지능 연구소’에서 2월 발표한 보고서에 따르면, 인공지능 알고리즘을 속일 수 있는 적대적 사례 기술이 특히 주목았다. 이 기술을 활용하면 대규모 탈세도 가능하다. 

동시에 인공지능은 새로운 머신러닝 기술과 대량의 훈련용 데이터 덕분에 발전 중이다. 2019년, 오픈 AI는 웹에서 추출한 대용량의 텍스트 파일을 이용해 그럴싸한 뉴스를 만드는 프로그램 GPT-2를 선보였다. 인공지능을 이용해 만든 알고리즘은 텍스트 하나하나의 의미를 이전보다 더 정확하게 파악할 수 있었다.

관련 주제 연구를 한 경험이 있는 사미얼 싱(Sameer Singh) 어바인 캘리포니아주립대 조교수는 “디 진 매사추세츠 공대(MIT) 대학원생 팀의 텍스트 수정 방법이 좋은 적대적 사례를 만들어내는 데 효과적이다”고 말했다. 사미얼 싱과 동료들은 무작위로 나열된 단어들이 대용량 언어 알고리즘에 어떤 식으로 오작동하는지 설명했다. 잘못 기입된 단어들은, 예를 들어 오픈 AI의 알고리즘은 인종 차별적인 문구가 들어간 명령어에 반응하게 된다.

그러나 싱은 매사추세츠 공대 팀이 보여준 접근법(적대적 방식의 모델해킹)은 실제로 성공시키기는 어렵다고 말했다. 왜냐하면 의심을 받기 쉽고 인공지능 시스템을 조사하면 곧 탄로나기 때문이다.

인공지능과 보안 전문가인 던 송(Dawn Song) 버클리 캘리포니아 대학 교수는 컴퓨터의 눈에 해당하는 카메라 인지(컴퓨터 비전) 자체를 속이는 적대적 머신러닝을 이용해 도로표지판을 잘못 인식하도록 작업했다. 그녀는 “MIT 팀의 연구가 어떻게 알고리즘이 잘못된 판단을 내리는지를 보여주는 사례”이며 “모든 상용 시스템은 특정 공격 유형에 취약할 수밖에 없다”고 말했다.


** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다.


<관련기사>

This Technique Uses AI to Fool Other AIs

와이어드 코리아=문재호 기자 jmoon@wired.kr
이 기사를 공유합니다
RECOMMENDED