챗GPT, 프라이버시 문제 심각

By MATT BURGESS, WIRED UK

2020년 7월, 오픈AI(OpenAI)가 GPT-3를 출시했을 당시 대규모 언어 모델 훈련에 사용한 데이터를 볼 수 있는 정보를 제공했다. GPT-3 기술 문서에는 웹과 레딧 게시물, 책 등 여러 출처에서 수집한 수백 페이지 상당의 데이터를 텍스트 생성 시스템 제작에 사용한 사실이 언급되었다. GPT-3의 훈련 데이터를 확보하면, 온라인에 사용자가 스스로 공유한 개인 정보가 일부 포함된 사실을 확인할 수 있다. 바로 지금 오픈AI가 문제에 휘말리게 된 원인이다.

3월 31일(현지 시각), 이탈리아 데이터 규제 당국은 오픈AI를 대상으로 훈련 데이터에 포함된 이탈리아 국민 수백만 명의 개인 정보 사용 중단을 요구하며, 오픈AI 서비스 긴급 임시 사용 중단 결정을 발표했다. 이탈리아 개인정보 감독기구(Garante per la Protezione dei Dati Personali)는 오픈AI가 챗GPT에 사용자 개인 정보를 이용할 권리가 없다고 지적했다. 오픈AI는 이탈리아 규제 당국의 요구에 맞서 이탈리아인을 대상으로 자사 챗봇 서비스 접근을 중단하는 동시에 현재 오픈AI의 개인 정보 수집 및 사용 문제를 조사 중인 현지 관료에 대응할 정보를 제공 중이다.

서양 규제 당국이 챗GPT 사용을 중단한 사례는 이탈리아가 처음이며, 거대한 생성형 AI 모델 제작을 둘러싼 프라이버시 긴장감을 부각한다. 생성형 AI는 종종 광범위한 영역에서 수집한 인터넷 데이터를 바탕으로 훈련한다. 아티스트와 언론 기업 단체가 작품 및 출판물을 허락 없이 무단으로 사용한다는 점에서 생성형 AI 개발사에 대한 불만의 목소리를 낸 가운데, 이탈리아 데이터 규제 당국이 사용자 개인 정보 수집 문제에도 똑같이 비판의 목소리를 내고 있다.

이탈리아의 선례를 따라 유럽 전역에서도 비슷한 조처를 할 수도 있다. 이탈리아 당국이 오픈AI 조사를 발표한 날 프랑스와 독일, 아일랜드 데이터 당국은 이탈리아 개인정보 감독기구에 연락하여 추가로 발견한 문제점을 문의하였다. AI 개발 감독 기관인 노르웨이 데이터 보호 당국의 국제부사장 토비아스 주딘(Tobias Judin)은 “인터넷 사용자가 인터넷에서 찾아내는 모든 정보를 복사하기만 하는 것이 오픈AI의 사업 모델이라면, 사업 모델에 매우 심각한 문제가 존재할 것이다”라고 설명했다. 주딘은 오픈AI의 모델이 불법 수집 가능성이 있는 데이터를 기반으로 개발되었다면, 사용자 누구나 데이터를 합법적으로 사용할 수 있는지 의문을 제기할 수 있을 것이라고 덧붙여 전했다.

이탈리아의 오픈AI 조사 및 챗GPT 사용 금지는 대규모 AI 모델 검증이 꾸준히 증가하는 시점에 발표됐다. 3월 29일(현지 시각), 테크 업계의 복수 지도자는 AI가 미래에 미칠 영향을 우려해, 챗GPT와 같은 시스템 개발 잠정 중단을 촉구했다. 주딘은 이탈리아의 오픈AI 조사 및 챗GPT 사용 금지 결정은 즉각 발생할 수 있는 우려를 강조한다고 본다. 그는 “기본적으로 지금까지 개발된 AI가 심각한 문제를 일으킬 수도 있다”라고 진단했다.

이탈리아 개인정보 감독기구의 역할
유럽의 개인정보보호 규정(GDPR)은 여러 기관의 사용자 개인 데이터 수집, 저장, 사용 방법을 다루면서 4억 명이 넘는 유럽 시민의 데이터를 보호한다는 취지로 시행된다. 사용자 이름부터 IP주소까지 무엇이든 개인 데이터에 포함될 수 있다. 누군가의 신원을 확인하는 데 이용할 수 있다면, 개인 정보로 볼 수 있다. 균일하게 적용되지 않는 미국의 주 단위 프라이버시 법률과 달리 개인 정보를 온라인에서 자유롭게 사용할 수 있다면, 모두 GDPR 보호 대상에 해당한다. 요약하자면, 누군가의 정보가 공개되었다고 해서 마구 수집하고는 원하는 곳에 마음껏 사용할 수 있다는 뜻이 아니다.

이탈리아 개인정보 감독기구는 챗GPT가 GDPR의 네 가지 규정을 위반했다고 확신한다. 오픈AI는 13세 이하 아동이 챗GPT를 사용할 수 없도록 할 연령 제한 정책을 두지 않았다. 챗GPT는 정확하지 않은 정보를 제공할 위험성도 있다. 또, 사용자에게 개인 데이터가 수집될 수 있다는 점을 안내하지 않은 것도 GDPR 위반 문제가 될 수 있다. 가장 중요한 점은 챗GPT 훈련 시 사용한 다량의 데이터에 개인 데이터를 수집할 법적 근거가 없다는 사실이다.

영국 뉴캐슬대학교 법학, 혁신 및 사회학 교수 릴리안 에드워즈(Lilian Edwards)는 “이탈리아 개인정보 감독기구는 챗GPT의 거짓 주장을 지적했다. 유럽연합에서는 데이터보호법 위반이 성립된다는 점을 확실히 이해할 수 있다”라고 말했다.

전반적으로 설명하자면, GDPR 규정에 따라 사용자 정보 수집, 사용 행위를 하는 기업은 사용자의 정보 접근 허가부터 계약의 일부분에 사용자 정보가 필요하다는 조건까지 총 6가지 법적 타당성 중 한 가지 조건에 의존해야 한다. 에드워즈 교수는 오픈AI의 사례에서는 기본적으로 두 가지 조건에 따를 수 있다고 설명했다. 그중 하나는 사용자의 동의를 구하는 것이지만, 오픈AI는 사용자 몰래 정보 수집 및 이용 관행을 이어왔다. 혹은 사용자 데이터 사용의 정당한 이익을 주장할 수 있다. 그러나 에드워즈 교수는 오픈AI가 정당한 이익을 주장하기는 어려울 것이라고 본다. 이탈리아 개인정보 감독기구는 와이어드에 에드워즈 교수가 언급한 두 가지 조건 모두 오픈AI의 관행을 정당화하기에는 적절하지 않다고 전했다.

오픈AI의 프라이버시 정책은 훈련 데이터에 사용자 개인 정보를 사용할 법적 타당성을 직접 제시하지 않았다. 그러나 서비스 개발 시 정당한 이익에 의존한다고 주장한다. 오픈AI는 와이어드의 문의에 답변하지 않았다. 오픈AI는 GPT-3와 달리 챗GPT의 훈련 데이터 관련 상세 정보를 일절 공개하지 않았다. GPT-4는 GPT-3보다 훈련 데이터 규모가 몇 배 더 큰 것으로 추정된다.

그러나 GPT-4의 기술 문서에는 프라이버시 섹션이 포함되었다. 해당 섹션은 훈련 데이터에 여러 출처를 통해 공개적으로 접근할 수 있는 개인 정보를 포함할 가능성을 언급했다. 문서는 오픈AI가 사용자의 개인 정보 질문 중단과 상용화 성공이 가능한 시스템의 훈련 데이터 내 개인 정보 제거 등 모델을 정교하게 수정하는 과정을 포함하여 사용자 프라이버시 보호를 위한 조처를 했다고 주장한다.

다국적 법무법인 로엡 앤 로앱(Loeb and Loeb) 파트너 제시카 리(Jessica Lee)는 “일반 알고리즘부터 첨단 AI까지 모든 부문에 사용할 훈련 데이터세트를 구성할 데이터를 합법적으로 수집할 방법은 지금 당장 해결할 필요가 있는 중요한 문제이다. 지금 바로 사용자 개인 정보로 훈련받은 AI 기술 전환의 중대한 변화의 순간에 이르렀기 때문이다”라고 말했다.

챗봇 레플리카(Replika)도 금지한 이탈리아 개인정보 감독기구는 여러 사건에서 오픈AI의 데이터 관행을 조사할 첫 번째 규제 당국이 될 수도 있다. GDPR은 유럽에 본거지를 둔 기업이 자사의 불만 사항을 다룰 국가 한 곳을 지정하도록 허용한다. 아일랜드는 구글과 트위터, 메타 관련 불만 사건을 처리한다. 그러나 오픈AI는 유럽 지사가 없다. 이는 GDPR 규정에 따라 유럽연합 내 모든 국가가 오픈AI의 문제를 조사할 수 있다는 의미이다.

데이터 생성
사용자 개인 정보를 이용한 AI 모델 훈련과 관련하여 이탈리아 규제 당국이 제기한 문제는 오픈AI만의 문제가 아니다. 복수 전문가는 이탈리아 규제 당국이 제기한 문제 대부분 머신러닝, 생성형 AI 시스템 개발 모든 과정에 깊이 관여할 수 있다고 진단했다. 유럽연합은 AI 규제를 제정 중이지만, 지금까지 프라이버시와 관련하여 머신러닝 시스템 개발에 대응한 사례는 비교적 적은 편이다.

옥스퍼드 AI 윤리 연구소 수석 연구원인 엘리자베스 레니에리스(Elizabeth Renieris)는 “AI 기술 규제 형성 기반에 문제가 있다. 해결하기 매우 어려운 문제라고 본다”라고 말했다. 레니에리스는 머신러닝 시스템 훈련 과정에 사용하는 다수 데이터세트가 다년간 존재했으며, 데이터세트를 모두 종합할 때 프라이버시 고려 사항은 거의 없을 것이라고 지적했다.

레니에리스는 “결과적으로 데이터가 자체적으로 GPT-4와 같은 시스템을 구성할 방식을 둘러싼 공급망의 복잡성과 계층 문제가 있다. 시스템 설계나 기본 단계에서 어떠한 종류든 데이터 보호가 적용된 사례는 절대 없다”라고 설명했다. 2022년, 수십 년 동안 AI 훈련을 돕는 등 널리 사용된 어느 한 이미지 데이터베이스 제작자는 데이테세트에 포함된 인물의 얼굴이 제대로 보이지 않도록 흐리게 처리하는 방안을 제시했다.

유럽과 캘리포니아는 프라이버시 규정으로 사용자에게 정확하지 않은 정보 삭제나 수정 요청을 할 권한을 부여한다. 그러나 AI 시스템에서 정확하지 않은 사항이나 사용자가 훈련 데이터에 포함되는 것을 원하지 않는 사항을 삭제하는 일은 복잡하다. 특히, 데이터 원출처가 분명하지 않을 때는 더 복잡하다. 레니에리스와 에드워즈 교수 모두 GDPR이 장기적으로 사용자 개인 권리 보호를 포함하여 AI 훈련 데이터에서 정확하지 않거나 사용자가 원하지 않는 정보를 간단하게 삭제하도록 할 가능성에 의문을 제기한다. 에드워즈 교수는 “대규모 언어 모델에서 사용자가 특정 데이터 삭제를 위해 대응할 방법을 제시할 단서가 없다. GDPR에는 사용자의 데이터 삭제 조항이 없다"라고 말했다.

지금까지 사용자의 AI 훈련 데이터 삭제 권한과 관련하여 과거, 미국 연방거래위원회(FTC)가 웨이트 워처스(Weight Watchers)라는 기업에 사용 허가를 받지 않고 생성한 알고리즘 삭제 명령을 내린 한 가지 사례를 제시할 수 있다. 주딘은 “기술 인프라에 따라 훈련 시 사용한 모든 개인 데이터를 완벽히 제거하기 어려울 수도 있다. 만약, 불법으로 수집한 개인 데이터로 모델을 훈련했다면, 기본적으로 해당 모델을 사용할 수 없을 수도 있다”라고 설명했다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
ChatGPT Has a Big Privacy Problem

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다