사용자 음성 숨기기 연구 경쟁 현장 속으로

By MATT BURGESS, WIRED UK

개인의 음성은 실제 인식한 것보다 더 많은 정보를 담고 있다. 특정 인물의 음성은 꾸준히 해당 인물의 감정을 인간의 귀로 전달하는 역할을 한다. 예를 들어, 목소리만 들어도 흥분 상태인지 혹은 분노한 상태인지 쉽게 판단할 수 있다. 그러나 기계는 그보다 훨씬 더 많은 정보를 파악할 수 있다. 말하는 사람의 나이와 성별, 민족, 사회 경제적 지위, 건강 상태 등 인간이 짐작하기 어려운 각종 정보까지 파악한다. 또한, 많은 전문가가 개인 음성 데이터를 포함한 정보를 바탕으로 해당 인물의 얼굴 이미지를 생성할 수 있다.

기계의 인간 음성을 통한 정보 이해 수준이 향상되면서 많은 기업이 사용자 음성 데이터를 수익 창출 수단으로 이용하려 한다. 시리와 알렉사 등 음성 비서부터 사용자 음성을 패스워드로 사용하는 시스템까지 음성 인식 시스템은 인공지능(AI)과 머신러닝이 사용자가 말하는 바를 넘어 사용자 정체까지 이해할 능력을 갖추면서 지난 몇 년간 대대적으로 확산되었다. 전 세계 음성 시장은 수년 후면 200억 달러 규모의 시장이 될 전망이다. 시장 성장세와 함께 프라이버시 전문 연구원이 사용자 개인의 음성 데이터 보호 방안을 열심히 모색하고 있다.

음성 위협
프랑스 국립 디지털과학기술연구원(Inria)의 음성 기술 전문 수석 연구원인 에마뉘엘 빈센트(Emmanuel Vincent)가 지적한 바와 같이 사용자가 말하는 내용과 기계에 말하는 방식 모두 개인 정체를 파악하는 데 사용할 수 있다. 그러나 이는 시작에 불과하다. 빈센트 연구원은 “감정이나 의학적 상태를 파악할 추가 정보도 발견할 수 있다”라고 덧붙였다.

빈센트 연구원은 “추가 정보는 완성도가 더 높은 프로필 제작을 돕는 수단이 되며, 모든 맞춤 광고에 동원한다”라고 언급했다. 음성 데이터가 개인 정보를 온라인 광고 시장에 보여줄 다량의 데이터를 제공하는 역할만 하는 것이 아니다. 해커 세력이 음성 데이터 저장 위치정보에 접근하고는 해당 사용자를 사칭할 수도 있다. 음성 데이터를 악용한 일부 피해자 모방 사건은 실제로 발생한 적이 있으며, 개인이 보유한 음성 데이터의 가치를 증명했다. 단순한 로보콜 스캠으로도 사용자가 “예”라고 짧게 답변한 것을 녹음하고는 결제 사기에서 확인 수단으로 악용할 수 있다.

2021년, 틱톡은 프라이버시 정책을 변경해, 미국 사용자를 대상으로 얼굴 프린트를 포함한 다른 생체 데이터와 함께 음성 프린트를 수집하기 시작했다. (사용자 음성에 포함된 데이터를 다루는 모호한 조건이다.) 더 광범위한 영역에서 보면, 콜센터에서는 통화 도중 AI를 사용해 고객의 행동과 감정을 분석한다. 그리고 모든 단어의 어조와 속도, 억양 등을 평가해 사용자 개인의 프로필을 생성하고는 판매 실적을 높인다. 옥스퍼드대학교에서 음성 시스템 보안을 연구한 적이 있는 헨리 터너(Henry Turner) 연구원은 “시스템이 사용자 개인 신원을 알아내고는 존재하는 모든 개인 정보를 연결할 수 있는 수준에 이르렀다. 그러나 음성 데이터 사용 보호 조치는 전혀 없다. 활용할 준비가 된 음성 데이터 보호 조치도 없다”라고 설명했다.

숨겨진 의미
폐와 후두, 목, 코, 입, 부비강 등을 동원해 이루어지는 복잡한 과정을 통해 개인의 음성이 완성된다. MIT 미디어 랩(MIT Media Lab) 소속 음성 연구원인 레베카 클레인버거(Rébecca Kleinberger)는 말을 할 때마다 100개 이상의 근육이 활성화된다고 설명했다. 클레인버거 연구원은 “뇌와 매우 비슷하다”라고 언급했다.

음성학을 연구한 경험이 있는 프랑스 아비뇽대학교 연구원 나탈리아 토마셴코(Natalia Tomashenko)는 많은 연구원이 개인 음성 프라이버시를 강화할 네 가지 방안을 연구 중이라고 밝혔다. 토마셴코 연구원은 음성 프라이버시 공학의 난제라는 결과를 다룬 연구 논문의 제1 저자이기도 하다. 음성 데이터 프라이버시 보호 방법 네 가지 모두 완벽하지 않지만, 음성 데이터 처리 인프라에서 프라이버시를 최대한 강화할 방법을 모색할 것이다.

첫 번째 방안으로 말하는 사람의 정체를 완벽히 숨길 방법인 혼동을 이용하는 것이다. 할리우드 영화에 등장하는 해커가 음성 통화 도중 악의적인 음모나 인질을 설명할 때, 목소리를 완벽하게 왜곡하는 것을 떠올려 보아라. (혹은 해커 집단 어나니머스의 홍보 영상을 생각해 보아라.) 음성 변조 하드웨어만으로 누구나 순식간에 음성 변조를 할 수 있다. 음성을 텍스트로 변환한 뒤 이를 음성으로 재변환하는 시스템이 더 발전할수록 사용자가 말하는 바를 더 자세히 자막으로 작성하고는 음성 전달 과정을 번복하여 새로운 음성으로 말하는 바를 전달할 수 있다.

토마센코 연구원이 제시한 두 번째 방법으로 많은 연구원이 모색하는 분산학습과 연합학습을 언급할 수 있다. 사용자 데이터가 기기 정보를 담지는 않지만, 머신러닝 모델이 더 넓은 영역의 시스템으로 훈련한 바를 공유하면서 음성 인식 방법을 학습할 수 있다. 또 다른 접근 방식으로 암호화 인프라 구축을 통한 사용자 음성 감시 보호 능력 확보를 제시할 수 있다. 그러나 대다수 노력은 음성 익명화에 초점을 맞춘다.

익명화는 사용자 음성을 인간의 음성처럼 들리도록 하면서도 개인 정보를 파악할 요소를 최대한 제거하려는 과정이다. 현재 음성 익명화 노력은 파일에 포함된 민감한 단어 삭제나 대체를 통해 누군가가 말하는 내용의 콘텐츠를 익명화하고는 데이터를 보관하는 방안이 있다. 또한, 음성 자체를 익명화하는 과정도 있다. 대다수 음성 익명화 노력은 다른 인물의 음성처럼 변경하기 위해 음성 신호에서 몇 가지 요소를 변경하는 실험 소프트웨어를 통해 사용자 음성을 건네는 과정이 포함될 때 이루어진다. 억양 변경과 다른 목소리의 정보로 음성 일부를 대체하는 방법, 최종 음성 생성 결과를 합성하는 방법 등이 포함될 수 있다.

익명화 기술이 효과가 있을까? 2020년, 음성 프라이버시 챌린지(Voice Privacy Challenge)의 일환으로 익명화한 남성과 여성의 음성 클립 모두 확연히 다른 인물의 음성처럼 들렸다. 익명화 기술이 적용된 음성은 원본 음성보다 로봇과 더 비슷하면서도 적어도 듣는 사람이 느끼기에는 약간 더 고통스럽고 다른 사람의 음성과 더 가까웠다. 빈센트 연구원은 “익명화 기술 적용 시 현재처럼 아무것도 하지 않을 때보다 프라이버시 보호 수준을 훨씬 더 높일 수 있다”라고 설명했다. 빈센트 연구원은 익명화 기술 연구 과정에서 음성 데이터를 이용해 개인의 신원을 식별하기 매우 쉽다는 사실을 확인했다. 그러나 인간만 사용자의 음성을 듣는 것이 아니다. 라타 싱(Rita Singh) 카네기멜론대학교 언어기술연구소 부교수는 음성 신호의 신원 파악 요소를 100% 제거할 수 없다고 주장한다. 어떤 상황에서든 기계가 인간이 항상 분명히 확인할 수 없을 때도 음성 데이터와 개인을 연결할 수 있기 때문이다. 스리 나라야난(Shri Narayanan) 서던캘리포니아대학교 전기 및 컴퓨터 에엔지니어링 교수는 “인간의 귀로만 신원 파악이 어렵도록 익명화 기술을 적용하는 것인가? 아니면, 기계가 음성으로 신원을 파악하지 못하도록 익명화 기술을 적용하는 것인가?”라며, 의문을 제기했다.

싱 부교수는 “진정한 익명화 기술은 음성 변조가 100% 이루어질 때 가능하다. 100% 음성 변조를 한다면, 원본 음성 데이터와 절대로 같은 음성을 생성할 수 없다”라고 말했다. 그러나 싱 부교수는 여전히 음성 프라이버시 기술을 개발할 가치가 있다고 주장한다. 음성 데이터 보호에 적용할 프라이버시 시스템이나 보안 시스템 중 완벽한 보안 수준을 갖춘 시스템이 없기 때문이다. 과거, 아이폰 지문 인식과 안면 인식 시스템 모두 모방된 사례가 있다. 그러나 전반적으로 사용자 프라이버시를 보호할 효과적인 수단이라고 평가할 수 있다.

안녕, 알렉사
사용자 음성을 개인 신원 검증 수단으로 사용하는 사례가 갈수록 증가한다. 예를 들어, 은행을 비롯한 여러 기업이 사용자 승인 후 개인 음성 지문으로 기존 패스워드를 대체하는 사례가 늘어나는 추세이다. 다른 건강 이상 징후가 분명하게 드러나기 전, 음성 분석으로 질병을 감지할 수도 있다. 그러나 개인 음성 복제 혹은 모방 기술도 빠른 속도로 발전하고 있다.

단 몇 분 혹은 몇 초 동안 타인의 목소리를 녹음할 수 있다면, 머신러닝으로 음성을 재생성할 수 있다. 일례로, 심슨 가족의 성우 목소리를 딥페이크 복제 음성으로 대체할 수 있다. 음성 재생성 상용화 툴도 온라인에서 접할 수 있다. 터너 연구원은 “첨단 기술로부터 사용자 음성 데이터를 보호할 수단 개발 작업보다 사용자 음성 식별 및 음성과 텍스트 변환 및 텍스트와 음성 간 변환 기술 개발 적업이 더 많이 이루어지고 있다”라고 말했다.

지금까지 개발된 음성 익명화 기술 대부분 현실 세계에서 활용하려면 갈 길이 멀다. 사용자가 음성 익명화 기술을 사용 준비가 되었더라도 많은 기업이 여전히 관련 기술을 자체적으로 구축해 고객 프라이버시를 보호할 준비를 해야 할 확률이 높다. 현재 음성 프라이버시를 직접 보호할 수 있는 개인 사용자는 드물다. 콜센터나 음성 기술을 사용하는 기업과의 통화를 피하면서 음성 비서를 사용하지 않는다면, 음성 녹음량을 제한할 수 있다. 결과적으로 음성 데이터를 악용한 공격 기회도 줄일 수 있다.

그러나 최대 규모의 보호 조치는 법률 사건과 보호 규정이 될 것이다. 유럽연합의 개인정보보호 규정(GDPR)은 프라이버시 보호 관련 조항에서 음성 데이터를 포함한 생체 데이터 보호 규정을 명시했다. GDPR 지침은 사용자가 데이터 사용 방식을 안내받아야 하며, 데이터를 사용한 개인 정보 식별을 진행할 때 당사자 동의를 구해야 한다는 규정을 포함했다. 또한, 개인 맞춤화에 적용하는 것을 어느 정도 제한한다. 반면, 미국에서 가장 강력한 생체 데이터 법률을 갖춘 일리노이주 법원의 사용자 음성 데이터 사용 사례 조사 건수가 증가하는 추세이다. 맥도날드와 아마존, 구글 모두 고객 음성 데이터 사용 문제와 관련, 일리노이주 법원의 조사 대상이 되었다. 각각의 사건 판결은 사용자 음성 데이터 보호를 보장할 새로운 법률을 형성할 수 있다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
The Race to Hide Your Voice

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다