본문 바로가기 주메뉴 바로가기 검색 바로가기
인공지능, 나의 최애 팟캐스트 진행자 목소리까지 복제한다
상태바
인공지능, 나의 최애 팟캐스트 진행자 목소리까지 복제한다
가상 음성은 아직 소름끼칠 정도로 실제 인간 음성과 같지는 않다. 그러나 조만간 인간의 음성과 AI 음성을 구분하기 어려워질 것이다.
By BOONE ASHWORTH, WIRED US

2023년 중으로 팟캐스트를 듣고 무언가 이상하다고 느끼기 시작할 것이다. 그동안 팟캐스트를 자주 청취하면서 익숙했던 진행자의 목소리가 다르게 들릴 것이다. 간혹 부자연스럽고 딱딱한 느낌의 문장을 말하거나 일부 단어의 어조가 이상하다고 느낄 수도 있을 것이다. 그리고 인공지능(AI)으로 복제한 팟캐스트 진행자의 음성을 듣는 것인지 의문을 제기할 것이다.

AI가 실제와 같은 이미지와 효과적인 영상, 설득력 있는 글 생성 능력 모두 능숙하다는 점을 입증하자 이와 비슷한 생성형 AI 기술이 팟캐스트 진행자와 콘텐츠 크리에이터, 기타 미디어 전문가의 음성을 실제 음성이라고 믿을 수 있을 정도로 흉내 낼 수 있는 수준까지 발전했다. 갈수록 증가하는 여러 스타트업이 개발하는 새로운 유형의 툴이 머지않아 AI가 더 빠른 속도로 오디오 피드를 장악하도록 할 것으로 보인다.

인간의 귀는 이미 컴퓨터가 생성한 음성에 익숙해졌다. DJ 역할을 하는 AI 음성과 통화에 응답하는 음성을 그 예시로 언급할 수 있다. 많은 기술자가 살아있는 유명인과 고인이 된 유명인의 음성을 복제하고, 질병 때문에 목소리를 잃은 이들의 음성을 재구성하였다. 머지않아 AI 기반 음성 생성 툴이 고인이 된 친척의 목소리를 다시 듣도록 할 것으로 보인다.

팟캐스트 생성과 연결 지어 보면, 기계는 편집실에서 인간의 작업에 도움을 줄 수 있다는 사실이 입증됐다. 디스크립트(Descript)와 같은 편집 툴은 어색한 대화 중단이나 ‘음…’과 같은 추임새를 제거하면서 인간의 음성 오디오 녹음본을 정교하게 편집하는 머신러닝 기능을 제공한다.

최근에는 팟캐스트 제작 시 엉망인 부분을 신경 쓸 수 있는 더 많은 옵션이 등장했다. 바로 대화이다. 디스크립트는 팟캐스트 편집 시 사용할 수 있는 가상 음성을 제작하는 ‘오버덥(Overdub)’이라는 기능을 제공한다. 진행자가 타인의 이름을 잘못 발음하거나 날짜를 잘못 말하는 등 실수를 하면, 제작자가 기계에 잘못 말한 부분을 교정하라는 임무를 부여하고는 기계가 구현한 음성을 붙여 넣는 방식으로 진행자의 실수를 교정할 수 있다.

새로운 툴의 활용 범위는 넓어진다. 2023년 1월, 팟캐스트 제작 소프트웨어 세트를 제공하는 스타트업 팟캐슬(Podcastle)은 ‘리보이스(Revoice)’라는 이름의 AI 기반 음성 복제 툴을 배포했다. 리보이스는 인간 진행자의 디지털 음성을 제공한다. 팟캐슬은 리보이스를 가상 진행자가 말할 내용을 입력하여 광고 음성부터 보이스커버, 오디오북까지 제작자가 오디오 제작 시 모든 측면을 만들 수단이라고 소개했다.

개인 음성의 디지털 사본 복제 제작도 어느 정도 가능하다. 일부 AI 서비스는 개인의 음성을 담은 오디오 클립을 연구하여 오디오 파일 속 인물의 목소리를 모방하는 기능을 구현한다. 반면, 팟캐슬은 사용자가 70개 구문으로 구성된 스크립트를 읽도록 한 뒤 다양한 입 모양과 음소를 포착하고자 선택한다. 전체 과정을 완료하는 데 소요되는 시간은 30~45분이다. 소요 시간은 사용자의 억양 이해 수준에 따라 달라진다.
 
[사진=Freepik]
[사진=Freepik]

팟캐슬 CEO 아타바즈드 예리츠얀(Artavazd Yeritsyan)은 “항상 기계가 복제하고자 하는 인간의 원본 음성과 매우 비슷해야 한다는 점을 염두에 두었다. 복제하고자 하는 음성을 미화하거나 실제보다 더 나은 음성으로 변경하는 것이 아니라 실제 단어 발음 특성을 정확하게 구현하는 것을 중시한다”라고 말했다.

올바른 목표이지만, AI 음성이 항상 실제 인간의 음성처럼 아름답게 들리지는 않는다. 적어도 필자가 AI 음성 복제 기능을 시범 사용했을 때, AI 음성의 어조는 단조로운 로봇 음성처럼 들렸다. 게다가 이상하게 특정 단어를 반복하고 합성 잡음이 종종 들린다.

사기 방지 목적 오디오 및 통화 음성 분석 전문 기업 핀드롭(Pindrop) CEO 비자이 바라수프라미니얀(Vijay Balasubramaniyan)은 AI 음성의 음성 패턴과 어조가 완벽하지 않은 점은 어쩔 수 없는 일이라고 말한다. 그는 “실제 음성은 1만 년에 걸쳐 진화한 요소이다. 따라서 개인의 목소리는 기계가 복제하기 매우 어렵다”라고 설명했다.

오디오 AI는 현재 AI 영상보다 미세한 차이로 조금 더 현실처럼 보일 수 있지만, 현재 AI 음성 복제 툴이 제공하는 결과물은 보안 전문가 사이에서 긴장할 정도로 실제 인간의 음성과 비슷한 수준이다. 보안과 프라이버시 때문에 개인의 목소리를 숨기고자 하는 것은 매우 타당하다. 개인 음성이 신원 인증 수단이 될 수도 있으며, 기계는 개인의 대화 음성을 듣고 나이와 민족, 성별, 경제적 지위까지 판단할 수 있다.

바라수프라미니얀은 AI 음성 서비스가 금융 정보나 의학 정보와 같은 다른 개인 정보를 보관하는 기업과 같은 수준의 보안을 제공할 필요성이 있다고 주장한다.

바라수프라미니얀은 “AI 음성 기업에 개인의 AI 음성 저장 방식과 실제 음성 오디오 저장 여부, 암호화 여부, 개인 음성 데이터 접근 권한을 보유한 대상 등을 문의해야 한다. AI 음성은 부분적으로 개인의 자아와 매우 밀접한 관련이 있다. 따라서 AI로 복제한 개인의 음성 데이터도 보호해야 한다”라고 말했다.

팟캐슬은 음성 모델에 단대단 암호화를 적용했으며, 팟캐슬은 음성 모델 생성 후 어떠한 음성도 녹음하지 않는다고 밝혔다. 음성을 녹음한 계정 소유주만이 음성 데이터에 접근할 수 있다. 또, 팟캐슬은 리보이스에 다른 오디오를 게재하거나 분석하지 않는다. 음성 사본을 복제하는 이는 리보이스 앱에서 사전 작성된 글을 직접 녹음해야 한다. 사전 녹음된 파일을 앱에 게재할 수 없다.

예리츠얀은 “사용자가 콘텐츠 접근 권한 허가와 제작을 담당한다. 딥페이크 음성이 아니라면, 원본 음성과 AI 음성 모두 사용자가 직접 리보이스에 주입하는 음성은 사용자 개인 음성이다. 보안 측면에서 문제가 될 부분이 없다고 본다”라고 말했다.

팟캐슬은 사용자의 AI 복제 음성 사용 동의 시에만 오디오를 생성하도록 하여 악의적인 의도로 AI 음성 복제 기능을 사용하지 않도록 유도하기를 바란다. 현재 팟캐슬의 서비스에는 콘테늧 관리 기능이나 특정 단어, 구문 제한 기능이 없다. 예리츠얀은 각각의 플랫폼에 주입되는 콘텐츠 관리는 스포티파이, 애플 팟캐스트, 유튜브 등 다른 오디오 서비스나 플랫폼 기업의 몫에 달려있다고 주장한다.

예리츠얀은 “SNS 플랫폼이나 스트리밍 플랫폼 모두 대규모 관리팀을 운영한다. 따라서 사용자가 가짜 음성을 이용하여 어리석거나 비윤리적인 콘텐츠를 제작하고 유포하는 일을 막는 것은 플랫폼 자체의 몫이다”라는 견해를 피력했다.
 
팟캐스트는 개인과 밀접한 수단이다. 청취자가 팟캐스트 진행자와 출연자의 대화나 이야기 설명을 들으면서 느끼는 인간의 감정은 로봇이 마이크를 쥐게 되면서 손쉽게 잃을 수 있는 특성이다.

음성 딥페이크와 당사자 동의 없는 AI 음성 복제라는 까다로운 문제를 해결하더라도 사용자가 컴퓨터로 복제한 음성을 인간을 대체할 음성으로 받아들일지는 불확실하다.

2023년 3월 말, 코미디언 드류 캐리(Drew Carey)가 또 다른 AI 음성 서비스인 일레븐랩스(ElevenLabs)의 기술을 이용해 라디오 에피소드 전체를 제작했다. 해당 에피소드의 라디오 음성은 모두 캐리가 직접 복제한 AI 음성이다. 대다수 청취자가 AI 음성에 부정적인 반응을 보였다. 팟캐스트는 개인과 밀접한 수단이다. 청취자가 팟캐스트 진행자와 출연자의 대화나 이야기 설명을 들으면서 느끼는 인간의 감정은 로봇이 마이크를 쥐게 되면서 손쉽게 잃을 수 있는 특성이다.

AI 음성 복제 기술이 인간과 AI의 음성 간 차이점을 말할 수 없는 수준으로 발전한다면, 어떤 일이 발생할까? 팟캐스트 청취 도중 실제로 듣는 목소리가 가장 좋아하는 팟캐스트 진행자의 목소리가 아니더라도 상관이 없는가? AI 복제 음성이 인간의 음성과 구분할 수 없는 수준이 되기 전 발전 방향이 다양하다. 그러나 인간의 음성과 똑같은 수준으로 발전하는 속도가 빠를 것이라는 점은 확실하다. 불과 1년 전, AI가 생성한 이미지는 만화처럼 보였으나 이제는 수백만 명이 교황의 AI 합성 사진을 보고 멋진 패딩 재킷을 착용했다고 속을 정도로 합성과 실제 이미지를 구분할 수 없을 정도로 발전했다. AI 음성도 AI 생성 이미지와 같은 방향으로 발전할 가능성을 상상하기 쉽다.

게으름이라는 또 다른 인간의 특성도 AI 기반 툴 관심도 증가라는 추세를 이끌었다. AI 음성 기술이 인간의 실제 음성을 정확하게 흉내 낼 순간이 올 것이라고 가정했을 때, 팟캐스트 스튜디오에 진행자가 없더라도 손쉽게 편집하거나 재녹음이 가능해질 것이다.

바라수프라미니얀은 “결과적으로 크리에이터 경제에 이익이 될 것이다. 윤리적 여파를 얼마나 생각하느냐를 떠나 인간의 삶을 한결 더 간단하게 만든다는 점에서 크리에이터 경제에 득이 될 것이다”라고 예상했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
AI Can Clone Your Favorite Podcast Host’s Voice
이 기사를 공유합니다
RECOMMENDED