본문 바로가기 주메뉴 바로가기 검색 바로가기
AI 툴, 비밀리에 아동의 실제 이미지 훈련
상태바
AI 툴, 비밀리에 아동의 실제 이미지 훈련
인권 운동가 단체가 인기 AI 훈련 데이터세트가 당사자에게 알리거나 허락을 받지 않은 상태에서 브라질 아동의 얼굴 이미지를 탈취하여 무기화했다고 주장한다.
By VITTORIA ELLIOTT, WIRED US

어느 한 오픈소스 데이터세트가 당사자가 인지하지 못한 사이에 허락도 구하지 않고 브라질의 170명이 넘는 아동 사진과 개인 상세 정보를 수집했다. 국제 인권감시기구(Human Rights Watch)는 신규 발행 보고서를 통해 수집된 아동 사진과 정보가 인공지능(AI) 훈련에 동원되었다고 발표했다.

수집 대상이 된 아동의 사진 중 가장 최근의 사진은 2023년도 사진이며, 가장 오래된 사진은 인터넷 사용자가 자신의 사진이나 정보가 AI 훈련에 동원될 가능성을 인지하기 훨씬 전인 1990년대 중반에 촬영된 사진이다. 국제 인권감시기구는 AI 훈련 목적으로 무단 수집된 아동 개인 상세 정보가 사진 URL 링크와 함께 AI 스타트업의 인기 훈련 데이터 출처가 된 데이터세트 LAION-5B에 포함되었다고 주장했다.

아동 데이터 무단 수집 문제를 발견한 국제 인권감시기구 아동 권리 및 기술 연구원인 한혜정 연구원은 “먼저, 사진이 수집되어 즉시 AI 훈련 데이터세트에 포함되었다는 점에서 사진 속 아동 프라이버시가 침해되었다. AI 툴은 무단 수집된 아동 사진과 개인 정보가 담긴 데이터로 훈련받는다. 결과적으로 매우 현실적인 아동 이미지를 생성하게 된다”라며, “AI 기술은 온라인에 게재된 사진이나 영상이 단 하나라도 있는 아동 누구나 AI 훈련 목적의 무단 데이터 수집 대상이 될 수 있다. 악의를 지닌 사용자가 온라인에서 발견할 수 있는 아동 사진을 이용하고는 AI 툴을 원하는 대로 조작할 수 있기 때문이다”라고 설명했다.

LAION-5B는 웹 수집으로 제작되어 연구원이 접근할 수 있는 데이터 저장소인 커몬크로울(Common Crawl)을 기반으로 하며, 그동안 스테이빌리티AI(Stability AI)의 이미지 생성 AI 툴인 스테이블디퓨전을 포함한 여러 AI 모델 훈련에 동원되었다. 독일 비영리 단체 LAION이 개발한 LAION-5B는 공식 웹사이트 안내에 따르면, 공개 접근이 가능하다. 현재 저장된 이미지는 총 58억 5,000만 장이 넘는다.
 
[사진=Freepik]
[사진=Freepik]

국제 인권감시기구 연구팀이 발견한 아동 사진은 조회 수가 적은 유튜브 영상 스틸 이미지는 물론이고, 어린 자녀를 둔 엄마의 블로그나 임신부, 육아 블로그 등 개인 블로그 등 가족, 친구와 공유할 목적으로 게재한 사진임을 확인했다.

한 연구원은 “무단 수집 대상이 된 사진이 게재된 맥락을 살펴보면, 사진을 게재한 이들은 기대 사항과 프라이버시 대책을 누린다. 대다수 사진은 역 이미지 검색을 통해 온라인에서 발견할 수 없다”라고 말했다.

네이트 타일러(Nate Tyler) LAION 대변인은 이미 데이터 무단 수집 대응에 나섰다고 밝혔다. 타일러 대변인은 “공공 웹에서 불법 콘텐츠를 지목하는 데이터세트의 링크를 발견한 스탠퍼드대학교의 연구 보고서 내용에 따라 LAION-5B를 폐쇄했다”라고 전했다. LAION는 현재 인터넷 감시 재단(Internet Watch Foundation), 캐나다 아동보호센터(Canadian Centre for Child Protection), 스탠퍼드대학교, 국제 인권감시기구 등과 협력하여 불법 콘텐츠의 알려진 출처 제거 작업을 진행 중이라고 덧붙였다.

유튜브 서비스 약관에는 특정 상황을 제외한 스크랩 행위를 허용하지 않는다고 명시되었다. 국제 인권감시기구가 발견한 영상 스틸 이미지 속 아동 이미지 무단 수집은 서비스 약관 위반 사항에 해당한다. 잭 마온(Jack Maon) 유튜브 대변인은 “공식 인증되지 않은 유튜브 콘텐츠 수집 행위는 서비스 약관 위반 사항임을 분명하게 밝혔다. 따라서 관련 약관 위반 행위에는 꾸준히 대응할 것이다”라고 전했다.

2023년 12월, 스탠퍼드대학교 연구팀은 LAION-5B에 수집된 AI 훈련 데이터 중 아동 성 착취 콘텐츠도 포함된 사실을 확인했다. 노골적인 딥페이크 문제는 미국 학교에서 여학생을 위주로 딥페이크를 동원하여 동급생을 괴롭힌 사례가 보고될 정도로 증가하는 추세이다. 이에, 한 연구원은 아동 사진을 이용한 아동 성 착취 게시물 생성 문제 이외에도 아동 사진을 포함한 데이터베이스가 위치나 의료 데이터 등 민감 정보를 유출할 가능성도 우려한다. 2022년, 미국에서 어느 한 아티스트가 LAION 데이터세트에서 자신의 이미지를 발견하고는 의료 기록에 포함된 사진이 데이터세트에 포함된 사진 출처라는 사실을 발견한 사례가 있었다.

한 연구원은 “아동이 자신의 사진이 탈취되어 불리한 방향으로 무기화될 일을 우려하면서 생활하는 일은 없어야 한다”라고 말했다. 한 연구원은 자신이 발견한 문제가 시작에 불과하다는 사실을 우려한다. 한 연구원의 연구팀이 발견한 데이터는 무단 수집된 아동 데이터 전체 중 빙산의 일각에 불과하다. 실제로 연구팀이 보고서에서 다룬 아동 데이터는 LAION-5B의 전체 데이터 중 0.0001% 미만이다. 한 연구원은 전 세계 모든 데이터세트에도 비슷한 아동 이미지를 발견할 수 있을 것으로 추측한다.

2023년, AI 생성 딥페이크로 제작한 광고 캠페인이 부모에게 온라인에 자녀 사진을 게재하는 행위를 두고 경각심을 일깨워주며, 아동 이미지가 아동 괴롭힘이나 아동 성 착취 게시물 생성 목적으로 동원될 수 있다고 경고했다. 그러나 해당 광고는 이미 온라인에 게재된 아동 이미지나 수십 년 전 게재되어 지금도 온라인 공간에 남아있는 아동 이미지 문제를 다루지는 않는다.

타일러 대변인은 “LAION 데이터세트에서 링크를 삭제해도 웹에 이미 게재된 콘텐츠 자체는 제거할 수 없다”라고 언급했다. 실제로 LAION-5B에 포함된 무단 수집된 아동 이미지는 LAION이 아닌 다른 곳에서도 찾을 수 있다. 타일러 대변인은 “아동 이미지 수집 문제는 매우 광범위하면서도 심각한 문제이다. LAION는 비영리 자원봉사 단체인 만큼 문제를 해결하기 위한 부분적인 노력을 돕고자 한다”라고 말했다.

한 연구원은 아동 보호와 부모를 아동 이미지 악용 사례 보호책임이 정부 기관과 규제 당국에 놓여 있다고 본다. 현재 브라질 의회는 딥페이크 콘텐츠 제작 규제 법률 도입을 고려하는 중이며, 미국에서는 알렉산드리아 오카시오 코르테즈(Alexandria Ocasio-Cortez) 뉴욕주 하원의원이 동의가 이루어지지 않은 채로 자신의 모습과 유사한 딥페이크 콘텐츠 제작 사실을 입증할 수 있다면, 딥페이크 콘텐츠 제작 문제로 소송을 제기할 권리를 인정하는 법률을 발의했다.

한 연구원은 “아동과 부모가 근본적으로 아동 보호를 위해 맞설 수 없는 기술을 대상으로 한 아동 보호 책임을 부담해서는 안 된다고 생각한다. 아동 데이터가 무단 수집되어 악용되는 문제는 아동과 부모의 잘못이 아니다”라고 주장했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
AI Tools Are Secretly Training on Real Images of Children
이 기사를 공유합니다
RECOMMENDED