By Vittoria Elliott, WIRED US
최근, 유죄 선고를 받은 도널드 트럼프 전 미국 대통령이 팝스타 테일러 스위프트 팬이 자신의 2024년 미국 대통령 선거 출마를 지지하는 모습을 담은 사진을 여럿 게재했다. 해당 사진은 인공지능(AI)으로 생성된 듯한 모습이었다. 와이어드도 비영리 단체 트루미디어(True Media)의 AI 탐지 툴을 활용하여 상당수 조작되었다는 증거를 확인할 수 있었다.
AI 생성 콘텐츠를 잡아내는 일이 항상 쉬운 것만은 아니다. 정치적 목적을 포함한 여러 목적으로 생성형 AI를 사용하는 사례가 갈수록 일반적인 추세가 되고 있으며, 와이어드도 전 세계 선거 일정에 따라 생성형 AI 사용 사례를 추적했다. 그러나 미국과 유럽 일부 국가를 제외한 여러 국가에서는 AI 생성 콘텐츠를 탐지하는 데 어려움이 있다. 생성형 AI 훈련 시스템에 주입된 선입견 때문이다. 결과적으로 사실 검증 자료가 부족한 언론인과 연구원은 직접 거짓 정보를 잡아낼 방법을 찾아 나서야 한다.
AI로 생성하거나 조작한 미디어 콘텐츠 탐지 분야는 여전히 빠른 속도로 성장하는 분야이다. 생성형 AI 기업이 갑자기 우후죽순으로 탄생한 추세의 대응에 해당한다. (2023년 한 해 동안 AI 스타트업이 조달한 투자금은 210억 달러를 넘었다.) 빈곤국과 신흥경제국이 다수 밀집한 남반구의 테크 정책을 집중적으로 연구하는 국책연구소인 테크글로벌 연구소(Tech Global Institute) 창립자 샤바나즈 라쉬드 디야(Sabhanaz Rashid Diya)는 “실제로 합성 미디어 탐지보다는 합성 미디어 생성이 가능한 툴과 기술 접근이 훨씬 더 수월하다”라고 말했다.
인권 옹호를 위한 기술 활용을 돕는 비영리단체 위트니스(Witness)의 프로그램 책임자 샘 그레고리(Sam Gregory)는 현재 시장에 출시된 툴 대부분 AI 콘텐츠 판단 정확도가 85%~90% 수준이라고 전했다. 그러나 방글라데시나 세네갈 등 백인 인구가 없거나 영어를 모국어로 구사하지 않는 국가의 AI 생성 콘텐츠 탐지 정확도는 훨씬 더 하락한다. 그레고리는 “AI 툴 개발 과정에서 특정 시장에만 집중했다”라며, “AI 모델 훈련 과정에서 사용한 데이터에서 주로 영어, 그중 특히 미국식 영어나 서양 국가에서 흔히 볼 수 있는 백인 얼굴 식별을 우선순위로 삼았다”라고 설명했다.
AI 모델이 주로 서양 시장의 데이터로, 서양 시장 사용자를 위해 훈련되어 서양 시장에 해당하지 않는 국가의 데이터와 AI 생성 콘텐츠를 인식하지 못한다는 의미이다. 간혹 AI 개발 기업은 인터넷에서 비교적 손쉽게 접할 수 있는 데이터를 주된 훈련 데이터로 이용했다. 인터넷에서 손쉽게 확보한 훈련 데이터는 영어 콘텐츠 비중이 압도적으로 높다. 아프리카 대륙을 포함한 남반구 여러 국가의 디지털 위협에 주력하는 비영리 시민 기술 단체 쓰레트(Thraets) 창립자 리차드 은가미타(Richard Ngamita)는 “실제로 아프리카에서 수집한 데이터 대부분 인쇄 매체 사본이다”라고 전했다. 데이터를 디지털로 전환하지 않는다면, AI 모델이 훈련 데이터로 사용할 수 없다는 의미이다.
AI 모델 훈련 과정에 필요한 데이터 대부분 AI로 생성하거나 합성한 데이터를 비교적 정확하게 잡아내지만, 종종 거짓 양성 반응을 보여 실제 콘텐츠를 AI 생성 콘텐츠로 경고할 수 있다. 혹은 거짓 음성 반응으로 AI 생성 콘텐츠를 실제 콘텐츠로 인식할 수도 있다. 디야는 “즉시 사용할 수 있는 AI 툴 중 AI로 작성한 글을 탐지할 수 있는 툴을 사용한다면, 비영어권 사용자가 직접 작성한 글을 탐지하고는 AI가 생성한 글로 추측하는 경향이 있다는 사실을 발견할 수 있다. 훈련 시 특정 데이터를 이용하지 않았기 때문에 거짓 양성 반응을 보이는 것이다”라고 말했다.
하지만 AI 모델이 억양, 언어, 구문이나 서양 국가에서는 비교적 흔하지 않은 표현을 인식하지 못한다는 의미만은 아니다. 그레고리는 “초기 딥페이크 탐지 툴 대부분 고급 미디어로 훈련받았다”라고 말했다. 그러나 아프리카 대륙을 포함한 여러 국가에서는 일부 기능을 줄인 저가 중국산 스마트폰 브랜드가 시장을 장악했다. 은가미타는 저가 중국산 스마트폰으로 저품질 사진과 영상을 생성할 수 있다는 점도 AI 탐지 모델이 거짓 콘텐츠 구분 시 혼란을 추가로 유발한다고 지적했다.
그레고리는 일부 AI 모델은 오디오 파일이나 SNS 업로드용 압축 영상 속 배경 소음도 파일이나 영상 속 음성의 일부분으로 인식할 정도로 매우 민감하거나 거짓 양성, 거짓 음성 반응을 보일 수 있다고 설명했다. 이와 관련, “실제 세계에서 AI를 사용하면, AI 생성 혹은 거짓 콘텐츠 탐지가 매우 어려운 상황을 직면하게 된다”라고 전했다. 이어, “언론인과 사실 검증 전문가, 시민단체 구성원 다수가 사용하는 무료 공개 접근 툴은 훈련 데이터에서 대변하는 대상에 따른 불평등 문제를 나타내며, 저품질 콘텐츠를 다루는 데 큰 어려움이 있다”라고 덧붙였다.
생성형 AI 외에 다른 방법으로도 거짓 미디어를 생성할 수 있다. 잘못된 라벨을 추가하거나 오디오와 영상 재생 속도를 줄이거나 편집하는 방식으로 미디어를 조작하는 이른바 칩페이크(cheapfake)도 남반구 여러 국가에서는 흔하다. 그러나 결함이 있는 AI 모델이나 제대로 훈련받지 못한 연구원이 칩페이크 콘텐츠를 AI로 조작한 콘텐츠로 잘못 분류할 수도 있다.
디야는 AI 탐지 툴을 사용하는 집단이 미국, 유럽 등 AI 기업의 주요 목표 시장 외 국가의 콘텐츠를 AI 콘텐츠로 분류한다면, 정책에 심각한 파장이 이어져 현지 국회의원이 허구의 문제를 단속할 가능성을 우려한다. 이에, “AI 생성, 조작 콘텐츠 문제 실제 사례를 부풀린다는 측면에서 위험성이 크다”라고 전했다. AI 콘텐츠 탐지 정확도 불평등 문제를 개선한 새로운 툴 개발은 간단한 문제가 아니다.
AI의 모든 요소와 마찬가지로 AI 거짓 콘텐츠 개발, 테스트, 운영 과정에는 세계 여러 국가에서 접하기 어려운 에너지와 데이터센터 접근성이 필요하다. 가나에 거주하는 은가미타는 “AI와 가나 현지에서 택할 해결 방안을 논의하고자 한다면, 컴퓨터와 컴퓨터에 필요한 자원 접근 문제를 해결해야만 앞으로 출시될 AI 모델을 실행하게 될 가능성도 있다”라고 말했다. 현지에서 대체 수단을 확보하지 못한다면, 은가미타와 같은 연구원은 거액의 사용료를 청구하는 AI 툴 공급사 리얼리티디펜더(Reality Defender)의 AI 거짓 정보 탐지 툴처럼 별도의 자원 없이 즉시 접근할 수 있는 툴 접근 비용을 부담하는 수밖에 없다. 혹은 학술 연구 기관을 통해 AI 거짓 정보 탐지 툴에 접근해야 한다.
은가미타의 연구팀은 현재 유럽 대학과 협력 관계를 맺고, 검증이 필요한 콘텐츠를 협력 대학에 보내는 방식으로 사실 검증 작업을 진행한다. 연구팀은 딥페이크를 사용한 것으로 추정되는 아프리카 전역의 콘텐츠를 데이터세트로 압축한다. 데이터세트 압축은 AI 모델 데이터세트 다각화를 시도하는 학술 기관과 연구원에게 귀중한 자료이다.
그러나 데이터세트를 외부로 전송할 때는 단점이 뒤따른다. 디야는 “데이터세트를 외부로 전송하여 AI 생성 콘텐츠를 탐지할 때는 오랜 시간이 지연된다. 외부의 신뢰할 수 있는 이가 AI 생성 콘텐츠임을 확인하는 데 최소 몇 주가 걸린다. 시간이 지나면, 사실 검증이 필요했던 콘텐츠가 이미 피해를 초래한 사례도 적지 않다”라고 설명했다.
그레고리는 위트니스에서 자체 신속 대응 탐지 프로그램을 운영하여 AI 거짓 콘텐츠 탐지 의뢰가 쏟아진다고 전했다. 그는 “이미 분쟁 지역 최전선을 취재하는 종군 기자가 사실을 검증하는 데 걸리는 시간이 촉박하다. 게다가 사실 검증이 필요한 정보를 다량으로 접한다”라고 말했다.
반면, 디야는 AI 거짓 정보 탐지에 주력한다면, 전반적으로 가장 회복력이 뛰어난 정보 생태계를 형성하는 기관과 연구소 운영 자금 제공 및 지원이 분산될 가능성을 우려한다. 대신, 자금은 대중적 신뢰를 형성할 수 있는 언론 기관과 시민사회 단체에 집중적으로 지원해야 한다고 본다. 디야는 “공신력이 있는 기관에 자금이 지원되지 않고, AI 콘텐츠 탐지에 더 집중되는 추세라고 생각한다”라고 전했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
AI-Fakes Detection Is Failing Voters in the Global South
최근, 유죄 선고를 받은 도널드 트럼프 전 미국 대통령이 팝스타 테일러 스위프트 팬이 자신의 2024년 미국 대통령 선거 출마를 지지하는 모습을 담은 사진을 여럿 게재했다. 해당 사진은 인공지능(AI)으로 생성된 듯한 모습이었다. 와이어드도 비영리 단체 트루미디어(True Media)의 AI 탐지 툴을 활용하여 상당수 조작되었다는 증거를 확인할 수 있었다.
AI 생성 콘텐츠를 잡아내는 일이 항상 쉬운 것만은 아니다. 정치적 목적을 포함한 여러 목적으로 생성형 AI를 사용하는 사례가 갈수록 일반적인 추세가 되고 있으며, 와이어드도 전 세계 선거 일정에 따라 생성형 AI 사용 사례를 추적했다. 그러나 미국과 유럽 일부 국가를 제외한 여러 국가에서는 AI 생성 콘텐츠를 탐지하는 데 어려움이 있다. 생성형 AI 훈련 시스템에 주입된 선입견 때문이다. 결과적으로 사실 검증 자료가 부족한 언론인과 연구원은 직접 거짓 정보를 잡아낼 방법을 찾아 나서야 한다.
AI로 생성하거나 조작한 미디어 콘텐츠 탐지 분야는 여전히 빠른 속도로 성장하는 분야이다. 생성형 AI 기업이 갑자기 우후죽순으로 탄생한 추세의 대응에 해당한다. (2023년 한 해 동안 AI 스타트업이 조달한 투자금은 210억 달러를 넘었다.) 빈곤국과 신흥경제국이 다수 밀집한 남반구의 테크 정책을 집중적으로 연구하는 국책연구소인 테크글로벌 연구소(Tech Global Institute) 창립자 샤바나즈 라쉬드 디야(Sabhanaz Rashid Diya)는 “실제로 합성 미디어 탐지보다는 합성 미디어 생성이 가능한 툴과 기술 접근이 훨씬 더 수월하다”라고 말했다.
인권 옹호를 위한 기술 활용을 돕는 비영리단체 위트니스(Witness)의 프로그램 책임자 샘 그레고리(Sam Gregory)는 현재 시장에 출시된 툴 대부분 AI 콘텐츠 판단 정확도가 85%~90% 수준이라고 전했다. 그러나 방글라데시나 세네갈 등 백인 인구가 없거나 영어를 모국어로 구사하지 않는 국가의 AI 생성 콘텐츠 탐지 정확도는 훨씬 더 하락한다. 그레고리는 “AI 툴 개발 과정에서 특정 시장에만 집중했다”라며, “AI 모델 훈련 과정에서 사용한 데이터에서 주로 영어, 그중 특히 미국식 영어나 서양 국가에서 흔히 볼 수 있는 백인 얼굴 식별을 우선순위로 삼았다”라고 설명했다.
AI 모델이 주로 서양 시장의 데이터로, 서양 시장 사용자를 위해 훈련되어 서양 시장에 해당하지 않는 국가의 데이터와 AI 생성 콘텐츠를 인식하지 못한다는 의미이다. 간혹 AI 개발 기업은 인터넷에서 비교적 손쉽게 접할 수 있는 데이터를 주된 훈련 데이터로 이용했다. 인터넷에서 손쉽게 확보한 훈련 데이터는 영어 콘텐츠 비중이 압도적으로 높다. 아프리카 대륙을 포함한 남반구 여러 국가의 디지털 위협에 주력하는 비영리 시민 기술 단체 쓰레트(Thraets) 창립자 리차드 은가미타(Richard Ngamita)는 “실제로 아프리카에서 수집한 데이터 대부분 인쇄 매체 사본이다”라고 전했다. 데이터를 디지털로 전환하지 않는다면, AI 모델이 훈련 데이터로 사용할 수 없다는 의미이다.
AI 모델 훈련 과정에 필요한 데이터 대부분 AI로 생성하거나 합성한 데이터를 비교적 정확하게 잡아내지만, 종종 거짓 양성 반응을 보여 실제 콘텐츠를 AI 생성 콘텐츠로 경고할 수 있다. 혹은 거짓 음성 반응으로 AI 생성 콘텐츠를 실제 콘텐츠로 인식할 수도 있다. 디야는 “즉시 사용할 수 있는 AI 툴 중 AI로 작성한 글을 탐지할 수 있는 툴을 사용한다면, 비영어권 사용자가 직접 작성한 글을 탐지하고는 AI가 생성한 글로 추측하는 경향이 있다는 사실을 발견할 수 있다. 훈련 시 특정 데이터를 이용하지 않았기 때문에 거짓 양성 반응을 보이는 것이다”라고 말했다.
하지만 AI 모델이 억양, 언어, 구문이나 서양 국가에서는 비교적 흔하지 않은 표현을 인식하지 못한다는 의미만은 아니다. 그레고리는 “초기 딥페이크 탐지 툴 대부분 고급 미디어로 훈련받았다”라고 말했다. 그러나 아프리카 대륙을 포함한 여러 국가에서는 일부 기능을 줄인 저가 중국산 스마트폰 브랜드가 시장을 장악했다. 은가미타는 저가 중국산 스마트폰으로 저품질 사진과 영상을 생성할 수 있다는 점도 AI 탐지 모델이 거짓 콘텐츠 구분 시 혼란을 추가로 유발한다고 지적했다.
그레고리는 일부 AI 모델은 오디오 파일이나 SNS 업로드용 압축 영상 속 배경 소음도 파일이나 영상 속 음성의 일부분으로 인식할 정도로 매우 민감하거나 거짓 양성, 거짓 음성 반응을 보일 수 있다고 설명했다. 이와 관련, “실제 세계에서 AI를 사용하면, AI 생성 혹은 거짓 콘텐츠 탐지가 매우 어려운 상황을 직면하게 된다”라고 전했다. 이어, “언론인과 사실 검증 전문가, 시민단체 구성원 다수가 사용하는 무료 공개 접근 툴은 훈련 데이터에서 대변하는 대상에 따른 불평등 문제를 나타내며, 저품질 콘텐츠를 다루는 데 큰 어려움이 있다”라고 덧붙였다.
생성형 AI 외에 다른 방법으로도 거짓 미디어를 생성할 수 있다. 잘못된 라벨을 추가하거나 오디오와 영상 재생 속도를 줄이거나 편집하는 방식으로 미디어를 조작하는 이른바 칩페이크(cheapfake)도 남반구 여러 국가에서는 흔하다. 그러나 결함이 있는 AI 모델이나 제대로 훈련받지 못한 연구원이 칩페이크 콘텐츠를 AI로 조작한 콘텐츠로 잘못 분류할 수도 있다.
디야는 AI 탐지 툴을 사용하는 집단이 미국, 유럽 등 AI 기업의 주요 목표 시장 외 국가의 콘텐츠를 AI 콘텐츠로 분류한다면, 정책에 심각한 파장이 이어져 현지 국회의원이 허구의 문제를 단속할 가능성을 우려한다. 이에, “AI 생성, 조작 콘텐츠 문제 실제 사례를 부풀린다는 측면에서 위험성이 크다”라고 전했다. AI 콘텐츠 탐지 정확도 불평등 문제를 개선한 새로운 툴 개발은 간단한 문제가 아니다.
AI의 모든 요소와 마찬가지로 AI 거짓 콘텐츠 개발, 테스트, 운영 과정에는 세계 여러 국가에서 접하기 어려운 에너지와 데이터센터 접근성이 필요하다. 가나에 거주하는 은가미타는 “AI와 가나 현지에서 택할 해결 방안을 논의하고자 한다면, 컴퓨터와 컴퓨터에 필요한 자원 접근 문제를 해결해야만 앞으로 출시될 AI 모델을 실행하게 될 가능성도 있다”라고 말했다. 현지에서 대체 수단을 확보하지 못한다면, 은가미타와 같은 연구원은 거액의 사용료를 청구하는 AI 툴 공급사 리얼리티디펜더(Reality Defender)의 AI 거짓 정보 탐지 툴처럼 별도의 자원 없이 즉시 접근할 수 있는 툴 접근 비용을 부담하는 수밖에 없다. 혹은 학술 연구 기관을 통해 AI 거짓 정보 탐지 툴에 접근해야 한다.
은가미타의 연구팀은 현재 유럽 대학과 협력 관계를 맺고, 검증이 필요한 콘텐츠를 협력 대학에 보내는 방식으로 사실 검증 작업을 진행한다. 연구팀은 딥페이크를 사용한 것으로 추정되는 아프리카 전역의 콘텐츠를 데이터세트로 압축한다. 데이터세트 압축은 AI 모델 데이터세트 다각화를 시도하는 학술 기관과 연구원에게 귀중한 자료이다.
그러나 데이터세트를 외부로 전송할 때는 단점이 뒤따른다. 디야는 “데이터세트를 외부로 전송하여 AI 생성 콘텐츠를 탐지할 때는 오랜 시간이 지연된다. 외부의 신뢰할 수 있는 이가 AI 생성 콘텐츠임을 확인하는 데 최소 몇 주가 걸린다. 시간이 지나면, 사실 검증이 필요했던 콘텐츠가 이미 피해를 초래한 사례도 적지 않다”라고 설명했다.
그레고리는 위트니스에서 자체 신속 대응 탐지 프로그램을 운영하여 AI 거짓 콘텐츠 탐지 의뢰가 쏟아진다고 전했다. 그는 “이미 분쟁 지역 최전선을 취재하는 종군 기자가 사실을 검증하는 데 걸리는 시간이 촉박하다. 게다가 사실 검증이 필요한 정보를 다량으로 접한다”라고 말했다.
반면, 디야는 AI 거짓 정보 탐지에 주력한다면, 전반적으로 가장 회복력이 뛰어난 정보 생태계를 형성하는 기관과 연구소 운영 자금 제공 및 지원이 분산될 가능성을 우려한다. 대신, 자금은 대중적 신뢰를 형성할 수 있는 언론 기관과 시민사회 단체에 집중적으로 지원해야 한다고 본다. 디야는 “공신력이 있는 기관에 자금이 지원되지 않고, AI 콘텐츠 탐지에 더 집중되는 추세라고 생각한다”라고 전했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
AI-Fakes Detection Is Failing Voters in the Global South
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다