본문 바로가기 주메뉴 바로가기 검색 바로가기
딥페이크 음성, 트랜스젠더 게이머 돕는다
상태바
딥페이크 음성, 트랜스젠더 게이머 돕는다
온라인 게임 사용자 누구나 자신의 목소리와 성 정체성이 일치하지 않는다면 괴롭힘의 대상이 된다. 이제 새로이 등장한 AI를 적용한 소프트웨어가 트랜스젠더를 돕는다.
By TOM SIMONITE, WIRED US

트랜스젠더 남성인 프레드(Fred)는 마우스를 클릭하고 테너처럼 높은 목소리 톤을 갑자기 더 낮은 톤으로 바꾼다. 프레드는 즉석 음성 코드 이식을 한 것처럼 들리는 기능을 제공하는 음성 변경 알고리즘으로 목소리를 변경했다. 프레드는 줌을 통해 대화를 나누는 기자에게 “낮은 음성으로 말하는 이 사람의 이름은 ‘세스’이다”라며 자신의 또 다른 자아를 소개했다. 그리고, 콧소리와 함께 긍정적인 인상을 주는 목소리를 지닌 ‘조’라는 인물의 목소리로 바꾸어 말했다.

프레드의 친구이자 트랜스젠더 여성인 제인(Jane)도 음성 변조 소프트웨어 시제품을 시험하면서 조용히 웃으면서 자신이 좋아하는 여성적인 목소리를 들려주었다. “밝고 유쾌한 목소리로 말하는 이 인물은 ‘코트니(Courtney)’이다. 목소리 톤이 매우 높은 이 사람은 ‘마야(Maya)’이다. 그리고 이 목소리는 개인적으로 목소리를 바꿀 때 가장 많이 사용하는 ‘앨리사(Alicia)’의 목소리이다”라며, 부드러운 어조로 설명했다. 비정기적으로 바뀌는 목소리는 프레드와 제인이 처음부터 진짜 자신의 목소리로 타인과 대화에 함께 할 필요성을 즉시 없앨 정도로 충분했다.

프레드와 제인 모두 음성 기술 스타트업 모듈레이트(Modulate)가 개발한 기술의 초기 테스트 참가자이다. 모듈레이트는 온라인 사회 활동에 재미와 개인 신변 보호, 복합성 등을 모두 새로이 추가할 수 있다. 와이어드는 프레드와 제인의 신변을 위해 가명을 사용했다는 사실을 밝힌다. 트랜스젠더가 종종 온라인 괴롭힘 대상이 되기 때문이다. 모듈레이트의 음성 변조 소프트웨어는 이른바 ‘딥페이크’라는 이름으로 알려진 진짜와 같이 보이는 영상이나 음성을 합성할 수 있는 인공지능(AI)의 복잡성을 보여주는 예시이다.

모듈레이트의 공동창립자인 마이크 파파스(Mike Pappas)와 카터 허프만(Carter Huffman)은 이른바 ‘보이스 스킨(voice skins)’이라고 칭한 음성 변도 기술로 사용자가 캐릭터의 음성을 듣도록 하면서 게임의 재미를 더한다는 생각을 하고 기술 개발에 나섰다. 파파스와 허프만이 스튜디오 인수 경쟁에 나서면서 초기 기술 시험 참가지를 모집하면서 프라이버시 보호 목적의 보이스 스킨 사용에  관심을 나타낸 여러 시험자의 의견을 듣게 되었다. 100명 이상이 보이스 스킨을 음성과 성 정체성 간의 불일치 때문에 발생하는 불쾌한 경험을 완화할 수 있다면 좋을 것이라고 제시했다.

모듈레이트의 CEO이기도 한 파파스는 “많은 이들이 개인의 목소리 때문에 위험에 노출돼 온라인 공동체에 참가할 수 없다고 느낀다는 사실을 깨닫게 되었다”라고 밝혔다. 현재 모듈레이트는 다수 게임 기업과 협력해 재미와 프라이버시 옵션을 함께 선사하는 보이스 스킨을 제공하는 동시에 보이스 스킨 자체를 사기나 괴롭힘 수단으로 악용하는 사례를 막겠다고 약속한다.

포트나이트(Fortnite)를 비롯한 게임과 디스코드(Discord)와 같은 소셜 앱 모두 인터넷에서 타인과의 음성 채팅 기능을 보편적으로 제공한다. 인터넷에 문자 입력 기능이 도입되었던 초기와 같이 음성 채팅 열풍은 기쁨과 공포라는 반응을 모두 불러일으켰다.
 
“많은 이들이 개인의 목소리 때문에 위험에 노출돼 온라인 공동체에 참가할 수 없다고 느낀다.”
마이크 파파스, 모듈레이트 CEO

명예훼손 반대 동맹(ADL)은 2020년, 게임 사용자 중 약 50%가 문자 메시지보다는 음성 채팅 기능을 이용하면서 게임을 실행하던 중 괴롭힘을 당한 사례가 더 많다는 사실을 확인했다. 게임 문화의 남성우월주의라는 오랜 특성 때문에 여성과 성 소수자가 특정 괴롭힘 대상으로 지목되었다. 2020년, 라이어트 게임스(Riot Games) 팀 기반 슈팅 게임인 발로란트(Valorant)가 출시되었을 당시 게임 최고 제작자인 안나 돈론(Anna Donlon)은 게임 내 남성우월주의적 희롱 문제가 순식간에 우후죽순으로 등장한 것에 충격을 받았다고 밝혔다. 돈론은 와이어드에 “개인적으로 혼자 게임을 한다면, 음성 채팅 기능은 사용하지 않을 것”이라고 말했다.
 
[사진=Pixabay]
[사진=Pixabay]

모듈레이트의 기술은 아직 널리 활용할 수 없으나 파파스는 보이스 스킨에 관심을 보이는 여러 게임 기업과 협상 중이라고 밝혔다. 보이스 스킨을 사용할 한 가지 가능한 접근 방식은 게임이나 커뮤니티에서 거친 괴물 캐릭터든 무기로 무장한 기사든 각자 사용하는 게임 캐릭터와 일치하는 보이스 스킨을 받는 것이다. 게임 캐릭터와 같은 기본 음성 이외 대체 목소리는 임의로 받게 된다.

2021년 6월, 모듈레이트의 음성 2종이 생방송이나 음성 통화에 디지털 아바타를 사용하는 애니메이즈(Animaze)라는 앱에 사전 검토 목적으로 출시되었다. 애니메이즈 개발사인 홀로테크 스튜디오스(Holotech Studios)는 음성을 프라이버시 기능으로 사용할 수 있으며, 그와 동시에 개인의 음성을 자신의 실제 나이나 성별, 신체 형태와 다른 음성으로 변조하는 데도 사용할 수 있다고 홍보했다.

모듈레이트의 보이스 스킨은 인간의 목소리가 지닌 음성의 패턴을 변형해 타인의 목소리처럼 들리도록 하는 머신러닝 알고리즘을 제공한다. 모듈레이트는 보이스 스킨 기술에 최대한 다양한 목소리 톤과 특성을 가르치고자 광범위한 어조와 감정을 구현하도록 작성된 스크립트를 읽는 배우 수백만 명의 오디오 수집과 분석 과정을 거쳤다.

파파스는 음성 변조 과정에는 단 15밀리초의 지연이 발생해, 음성 변조 사실을 눈치채지 못하도록 한다고 설명했다. 모듈레이트는 보이스 스킨의 목소리에 인간의 귀로는 들을 수 없으나 사기 방지의 안전한 수단이 될 확실한 오디오 소프트웨어로 설계된 디지털 워터마크를 추가했다고 덧붙였다.

음성 변조 소프트웨어 자체는 새로운 개념이 아니지만, 기존 기술은 종종 다른 점이 분명하게 드러나거나 불쾌한 음성을 제작하면서 인간의 음성을 대체하는 대신 들리지 않도록 감추기만 했다. 음성 채팅 기능에 사용하면 원치 않는 주목을 받을 수밖에 없다. 2021년 8월, 인기 트위치 스트리머인 포키메인(Pokimane)은 자신이 음성 변조 기술을 이용해 종종 여성 게이머를 공격 대상으로 삼는 희롱 공격을 피하고자 했다는 사실을 밝혔다. 그러나 효과는 없었다. 포키메인은 트위터에 “내 목소리는 로봇 음성처럼 들렸다. 하하”라는 트윗을 게재했다.

모듈레이트의 보이스 스킨은 모듈레이트 직원과 초기 테스트 참가자 모두에게서 놀라울 정도로 현실적인 음성을 구현한다는 평가를 받았다. 대다수 음성 변조 요소가 기존 휴대 전화 도중 듣게 되는 일시적인 로봇의 음성 메모나 더 낮은 어조 등 보편적인 음성 왜곡과 비슷하다. 다만, 보이스 스킨의 음성은 인간이 연습을 통해 기술을 이용한 음성 변조 여부를 식별할 수 있는 것처럼 느껴진다.

모듈레이트 측은 테스트 목적으로 보이스 스킨 소프트웨어 버전을 공유해달라는 요청을 거부했다. 다만, 보이스 스킨을 사전 배포한 앱인 애니메이즈 측은 와이어드가 이미 사용할 수 있는 하드웨어와 같은 음성 변조 수준이라고 설명했다. 파파스는 보이스 스킨으로 줌 화상회의를 시작한 뒤 진짜 자신의 목소리로 이야기를 하면서 투자자를 사로잡았다고 주장했다. 공식 음성 대화에서 보이스 스킨을 테스트한 직원 모두 대화 상대에게 기술로 음성 변조한 사실을 들키지 않았다.

프레드와 제인이 모듈레이트의 초기 테스트에 참여하게 된 이유는 음성 변조 알고리즘을 온라인에서 인지하는 성별을 새로이 통제할 방법이라고 판단했기 때문이다. 프레드와 제인 모두 디스코드를 통해 처음 친구가 되었으며, 일상속에서 음성 채팅 기능을 사용하면서 게임을 즐기고 성전환 이후 겪은 일을 공유하는 것이 일상이 되었다.

프레드와 제인은 각각 남성과 여성이라는 성 정체성과 더 가깝게 변환할 수 있는 음성 기술을 성공적으로 사용하면서 부분적인 만남만 이어왔다. 호르몬 시술을 받은 프레드는 “목소리를 바꾸었으나 지금까지는 내가 원하는 대로 완벽하게 목소리를 바꾸지는 못했다”라고 밝혔다. 음성 변조 오디오 장비에 거액을 투자했으나 그동안 결과에 실망만 했던 제인은 “그동안 음성 채팅 기능을 사용하는 것을 피하고는 했다. 듣기에는 약간 거북한 정도로 높은 톤의 음성만 더해졌다”라고 말했다.

프레드와 제인은 모듈레이트의 기술이 더 유쾌하면서도 신뢰할 수 있다는 사실을 깨닫게 되었다. 프레드는 “보이스 스킨의 음질은 그동안 사용한 다른 음성 변조 기술보다 실제로 더 인상적이었다”라고 평가했다. 자신의 실제 정체성과 일치하는 목소리와 알고리즘 중첩을 이용해 억양을 투입하는 방법을 찾는 데 시간이 걸린다. 기침이나 웃음소리 등 비언어적 음성은 AI 음성으로 자신의 목소리를 변조한 사실을 의도치 않게 드러내는 요소가 될 수 있다.

모듈레이트는 테스트 참가자에게 보이스 스킨을 많은 사람이 사용하는 공공 인터넷 공간에서 사용하지 않을 것을 요청했다. 그러나 프레드와 제인은 자신이 알고 있는 다른 트랜스젠더도 보이스 스킨이 인상적이라고 평가한 사실을 언급했다. 프레드와 제인은 음성 채팅으로 서로 대화할 때마다 일상적으로 보이스 스킨을 사용한다. 제인은 “프레드와 나 자신 모두 보이스 스킨 덕분에 더 멋진 목소리를 가진 듯하다”라고 말했다.

인간과 컴퓨터 간의 상호작용을 연구하는 노터데임대학교 교수인 티 쵼로마니(Tee Chuanromanee)는 트랜스젠더는 종종 정체성을 변경하거나 숨길 수 있는 기술 사용에 앞장섰다고 설명한다. 가상 세계인 세컨드라이프(Second Life)는 트랜스젠더가 새로운 기술을 남들보다 먼저 사용한 사례이다.

쵼로마니 교수는 “기술이 자신의 새로운 측면을 탐색하고 타인과 연결할 수많은 길을 열어주었다”라며, 보이스 스킨 기술 사용이 매우 유망한 듯하다고 평가했다. 그와 동시에 신기술 채택 사실이 트랜스젠더가 디지털 세계이든 물리적 세계이든 공공장소를 경계하는 이유의 기반이 되는 이유를 바꾸지는 않는다고 덧붙였다. 쵼로마니 교수는 “안전과 프라이버시 우려는 항상 기본적으로 존재할 것이다. 공개적인 공간으로 나아갈 수 있을 것인가?”라고 말했다.

프레드와 제인 모두 모듈레이트의 보이스 스킨이 결국 스트리밍과 같은 공공 온라인 공간에 더 편안하게 더 나아가는 데 도움이 되기를 바란다. 그러나 프레드와 제인 모두 기존의 음성 변조 기술 사용을 중단하지는 않을 것이라고 밝혔다. 제인은 “자신의 실제 목소리를 이용하는 것이 중요하다. 보이스 스킨은 개인적으로 원하는 것과 달리 슈퍼마켓과 같은 공간에서 사용할 수 없기 때문이다”라고 언급했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
These Deepfake Voices Can Help Trans Gamers
이 기사를 공유합니다
RECOMMENDED