인공지능으로 생성한 음성 딥페이크, 아직은 무서울 정도로 뛰어나지 않다

By LILY HAY NEWMAN, WIRED US

최근 몇 개월간 생성형 인공지능(AI) 열풍이 이어지는 가운데, 사이버 보안 업계에서는 AI가 생성한 음성인 음성 딥페이크 우려를 다시 제기했다. 타인이 진짜 음성이라고 믿도록 속이기 쉬운 데다가 사기꾼이 음성 딥페이크를 손쉽게 생성하여 대거 사용하기 시작할 수 있기 때문이다.

지난 몇 년간 사이버 범죄 세력이 기업 CEO의 음성 딥페이크를 이용해 거액을 탈취하는 등 악명 높은 사이버 보안 범죄가 몇 차례 보고되었다. 안소니 부르댕(Anthony Bourdain)이 사망한 뒤 그의 음성 딥페이크를 제작한 다큐멘터리는 두말할 것도 없다. 그러나 사이버 범죄 세력이 언제든지 스팸 전화가 걸릴 때 피해자 자매의 목소리를 가짜로 복제하여 인질의 몸값을 요구하는 데 성공할 정도로 큰 전환점을 맞이할 수 있을까? 이에, 복수 연구원이 적어도 현재는 음성 딥페이크가 사기 피해 급증으로 이어질 정도로 심각하지는 않다고 답한다.

진짜 음성이라고 믿을 정도로 강력한 음성 딥페이크를 생성하는 기술은 뛰어나며, 날이 갈수록 광범위한 인간의 음성을 접할 수 있는 제어된 설정이나 상황이 만연해지는 추세이다. 2023년 2월 말, 마더보드의 조셉 콕스(Joseph Cox) 기자는 5분 동안 자기 목소리를 녹음한 뒤 공개적으로 사용할 수 있는 생성형 AI 서비스인 일레븐 랩스(ElevenLabs)를 이용해 은행 음성 인증 시스템 보안을 해제한 음성 딥페이크 생성에 성공한 사실을 담은 기사를 보도했다. 그러나 텍스트 생성 챗봇의 한계를 비롯해 다른 수단의 생성형 AI의 단점과 마찬가지로 음성 딥페이크 서비스는 여전히 일관성을 유지한 채로 완벽한 결과를 생성하지는 못한다.

독일 CISPA 정보보안센터(CISPA Helmholtz Center for Information Security) 보안 및 역머신러닝 연구원인 레아 쇤헤르(Lea Schönherr) 박사는 “공격 상황에 따라 실시간 역량과 탈취한 음성 샘플의 품질을 고려해야 한다. 종종 단 몇 초 분량의 탈취한 음성 샘플만 있어도 음성 딥페이크 생성이 가능하다고 주장하지만, 품질과 분량이 음성 딥페이크 생성 결과에 큰 영향을 미친다”라고 설명했다.

피싱과 같은 디지털 사기와 소셜 엔지니어링 공격이 갈수록 심각해지는 위협이 되는 듯하지만, 많은 연구원은 공격 세력이 피해자에게 전화를 걸고는 피해자 지인을 사칭한 사기는 수십 년 동안 존재했으며 AI는 필요하지 않았다는 사실에 주목한다. 타인을 사칭한 사기가 장기간 존재했다는 사실은 사칭 수법이 적어도 타인을 속여 돈을 갈취하는 데 어느 정도 효과가 있었음을 의미한다.

전직 미국 연방수사국(FBI) 디지털 행동 애널리스트이자 오랫동안 소셜 엔지니어링 연구원으로 활동한 크레인 하솔드(Crane Hassold)는 “타인을 사칭한 사기 수법은 평생 존재한 수법이다. 대부분 효과가 없었으나 간혹 이유가 무엇이든 피해자가 사기꾼을 자신의 지인이라고 믿는 사례가 있다. 대다수 피해자는 지인을 사칭한 사기꾼을 믿는다. 사실, 피해자의 뇌가 사기꾼의 사칭에서 의심스러운 부분의 정보를 자체적으로 보완하여 사기꾼을 믿는 것이다”라고 설명했다.

하솔드는 자신의 할머니께서 2000년대 중반 사칭 행위를 동원한 사기 수법으로 피해를 본 적이 있다고 밝혔다. 당시 사기꾼은 전화를 통해 하솔드라고 사칭하고는 1,500달러를 송금하도록 유도했다.

하솔드는 “할머니께서 피싱 전화를 받으셨을 당시 사기꾼은 처음 자기 정체를 밝히지 않고, 캐나다 음악 축제에 참석하던 중 체포돼 석방을 위한 돈이 필요하다고 주장했다. 당시 할머니께서는 내가 맞는지 물어보셨다. 이후 사기꾼은 제대로 속이기 위해 필요한 정보를 얻었다. 사기꾼은 기본적으로 피해자가 스스로 믿고자 하는 부분을 믿도록 준비한다”라고 설명했다.

다수 소셜 엔지니어링 사기 사례와 마찬가지로 음성을 이용한 사칭 사기는 기껏해야 피해자가 긴급한 상황에 휘말려 누군가를 돕거나 직접 책임을 져야 한다고 믿는 일을 완료하도록 한다.

하솔드는 “할머니께서는 내가 출근 도중 차를 운전하던 중 음성 메시지로 ‘무사하기를 바란다. 걱정마라. 돈을 보내주고, 아무에게도 알리지 않겠다’라는 말씀을 하셨다”라고 전했다.

사이버 보안 기업 세트 솔루션스(Set Solutions) 연구·개발국장 저스틴 허친스(Justin Hutchens)는 딥페이크 음성 사기 우려가 갈수록 커지는 추세이지만, AI 기반 사기가 갈수록 자동화될 가능성도 우려한다.

허친스는 오픈AI의 챗GPT와 같은 AI 플랫폼을 언급하며, “머지않아 사이버 공격 세력이 딥페이크 음성 기술을 대규모 언어 모델이 지원하는 대화형 상호작용 요소와 통합하는 사례가 등장하기 시작할 것으로 예상한다”라고 전했다.

그러나 하솔드는 현재 딥페이크가 음성 사칭 사기를 이끌 것이라고 가정하기에는 이르다고 본다. 어찌 되었든 오래전부터 널리 동원된 사기 수법이 지금도 존재하며, 지금도 적절한 시기에 적절한 피해자를 지정한 사기 개시 관심이 끊이지 않기 때문이다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
AI-Generated Voice Deepfakes Aren’t Scary Good—Yet

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다