생성형 AI 분쟁, 근본적 결함 존재

By WILL BEDINGFIELD, WIRED US

2023년 7월, 작가 길드(Authors Guild)가 세계 최대 생성형 인공지능(AI) 기업 지도자에게 공개서한을 보냈다. 조지 손더스(George Saunders), 마가렛 애트우드(Margaret Atwood) 등 유명 소설가를 포함하여 작가 9,000명 이상이 서명한 해당 서한은 알파벳, 오픈AI, 메타, 마이크로소프트 등 대기업에 “AI 훈련 시 저작권이 있는 작품 사용에 대해 동의와 허락을 받고, 공정한 대가를 보상하라”라는 내용을 요청한다. 서한의 요청 사항은 작품 창작자가 생성형 AI 시스템 훈련 시 자신의 창작 작품의 기여 사항과 보상을 확보하려 가장 최근 펼친 시도 중 하나이다.

대규모 언어 모델과 기타 생성형 AI 시스템에 사용하는 훈련 데이터는 비공개 상태로 유지된다. 그러나 사용하게 되는 시스템이 증가할수록 개인의 고유한 작품과 AI 시스템의 결과물 간 비슷한 점을 알아차리게 되는 작가와 비주얼 아티스트도 많아질 것이다. 많은 이들이 생성형 AI 기업을 대상으로 데이터 출처를 공개하도록 요청했으며, 작가 길드와 마찬가지로 훈련 데이터로 사용된 작품 창작자에게 보상해야 한다는 요구도 이어졌다. 일부는 요구 사항을 공개서한과 SNS 게시글로 공개되었으나 갈수록 소송을 제기하는 이들이 증가하는 추세이다.

바로 저작권법이 중요한 역할을 하게 되는 부분이다. 생성형 AI 툴은 오래전부터 제기된 고용 문제, 인터넷의 기반이 되는 세계 보상 문제이든 프라이버시와 개인적 특성 및 저작권이 인정되지 않는 문제이든 예술가의 우려 범위 전체를 없애기에는 부족하다. 주로 저작권으로 제시할 수 있는 답변은 제한적이었다. 테크 블로그 테크더트(Techdirt) 에디터 마이크 마스닉(Mike Masnick)은 “AI가 사회의 대다수 측면을 형성하는 것과 관련하여 수많은 질문이 있었다. 하지만 생성형 AI 툴의 문제를 다루려 저작권이라는 좁은 범위에 주목하는 것은 잘못되었다”라고 주장했다.

생성형 AI의 저작권과 관련하여 최근 제기된 소송 중 가장 유명한 소송은 코미디언 사라 실버맨(Sarah Silverman)이 별도의 소송 두 건으로 다른 작가 4명과 함께 오픈AI를 제소한 사건이다. 원고 측은 오픈AI가 선풍적인 인기를 얻은 챗GPT 시스템 훈련 시 원고의 작품을 허락받지 않은 상태에서 사용했다고 주장했다. 오픈AI를 상대로 제기한 집단 소송 두 건 모두 반독점 사건 전문 법무법인인 조셉 사베리 로펌(Joseph Saveri Law Firm)이 소장을 제출했다. 조셉 사베리 로펌은 비슷한 이유로 제소된 스테이빌리티 AI(Stability AI), 미드주어니(Midjourney), 데비안트아트(DeviantArt) 사건도 담당한다. 2023년 7월, 미국 지방법원의 윌리엄 오릭(William Orrick) 판사는 증언 도중 대다수 소송을 기각할 가능성을 시사하며, AI 시스템이 50억 가지 압축 이미지로 훈련되므로 저작권 침해 소송 시 아티스트가 더 많은 사실을 제공하는 과정이 개입되어야 한다고 설명했다.

실버맨 사건은 여러 가지 의혹 중에서 오픈AI가 불법 복제 전자첵과 학술 논문에 대거 접근하는 온라인 데이터베이스를 이용해 실버맨의 회고록인 베드웨터(Bedwetter) 내용을 수집했다는 의혹을 제기한다. 매튜 사그(Matthew Sag) 에머리대학교 법학 교수가 설명한 바와 같이 법원에서 실버맨과 함께 소송을 제기한 원고의 손을 들어준다면, 판결은 AI 모델 훈련 시 사용하는 데이터의 법적 관점과 관련하여 새로운 선례를 정하게 될 것이다. 사그 교수는 실버맨의 소송을 두고 “이번 소송으로 제기된 의문의 결과를 두고 전망을 제기하지 않을 것이다. 하지만 실버맨의 소송은 그동안 제기된 소송 중 가장 흥미로운 사건이 될 것이다”라는 견해를 전했다. 오픈AI는 의견 공개 요청에 답변하지 않았다.

사그 교수는 소송의 핵심은 대규모 언어 모델이 작가의 저작권 보호가 인정된 작품 복제라는 대다수 사례와 같은 일반적인 가정 사항이라고 설명했다. 하지만 사그 교수가 7월 초 진행된 미국 상원 소위원회 청문회 증언 도중 설명한 바와 같이 GPT-3.5, GPT-4와 같은 대규모 언어 모델은 기존 출처에서 작품을 복사하지 않는다. 기존 작품의 텍스트를 ‘소화’한다고 표현하는 것이 더 적합하다고 할 수 있다. 대규모 언어 모델이 훈련 데이터를 소화하고는 다음에 배열하기 가장 적합한 단어 예측이라는 기능을 수행한다. 사그 교수는 상원 소위원회 증언을 통해 “대규모 언어 모델이 수도원의 필경사와 같이 훈련 데이터를 복사한다고 생각하기보다는 학생과 같이 훈련 데이터로 배운다고 생각하는 것이 더 적합하다”라고 말했다.

미국 저작권법상 일반적으로 학문 및 연구와 같은 목적으로 저작권 보호 작품의 라이선스 없는 사용 권한을 인정하는 조건의 공정한 사용과 관련성이 있다. 유추 사항이 정확하다면, 다음에 이어질 상황은 검색 엔진의 인덱스 구축 방법과 비슷할 것이다. 이 부분에서 구글이 오랫동안 탈취 주장에 맞서 자사 사업 모델을 옹호할 때, 펼친 주장을 살펴볼 수 있다. 2006년, 구글은 구독자 전용 포르노 하이퍼링크와 썸네일을 검색 결과로 보여준 것을 두고 이어진 성인 엔터테인먼트 사이트 퍼펙트 10(Perfect 10)과의 소송에서 패소했다. 2013년, 구글은 뉴욕 법원에서 서적 수백만 권을 스캔하고는 온라인에서 접근할 수 있는 스니펫을 제작하므로 공정한 사용 행위에 해당한다고 설득했다. 데니 친(Denny Chin) 미국 순회 재판 판사는 “구글 북(Google Books)이 상당한 공공의 이익을 제공한다고 본다”라는 내용을 담은 판결문을 작성했다. 2014년, 친 판사는 비슷한 소송에서 구글 북의 스핀오프 기업인 하티트러스트 디지털 라이브러리(HathiTrust Digital Library)의 손을 들어주었다.

사그 교수는 앞서 언급한 생성형 AI 소송 사건 피고도 구글과 비슷한 주장을 펼칠 것으로 예상한다. 물론, 데이터를 시스템에 주입했으나 시스템이 생성하는 결과는 차이가 크다. 따라서 인간의 읽기와 기계의 읽기 모두 본질적으로 다른 활동이지만, 법원이 같은 방식으로 판단할 가능성은 확실하지 않다. 테네시주 내슈빌 소재 밴더빌트대학교 지식 재산권 및 AI법 교수인 대니얼 저바이스(Daniel Gervais)는 기계가 파생 작품 자체를 제작할 가능성도 오랫동안 제기된 질문이라고 지적했다. 미국 저작권청(US Copyright Office)은 인간만 작품을 생산할 수 있다는 견해를 유지한다.

피고의 주장을 받아들이지 않는다면, 도서 내용의 출처가 쟁점이 될 것이다. 와이어드의 취재에 응한 전문가 여러 명은 오픈AI가 자사 모델을 훈련할 의도로 사용한 것으로 의심되는 훈련 데이터세트를 중심으로 한 주장이 더 주목할 만한 주장 중 하나라는 점에 동의했다. 최근 오픈AI를 상대로 제기한 소송 두 건 모두 도서 29만 4,000권의 내용을 포함한 것으로 추산된 데이터세트인 북스2(Books2)가 불법 복제 작품을 대거 보유했다는 표현을 똑같이 사용했다. 두 건의 소송 모두 “북스2와 같이 대규모 콘텐츠를 제공한 적이 있는 인터넷 기반 말뭉치는 라이브러리 제네시스(LibGen), Z-라이브러리(Z-Library), Sci-허브(Sci-Hub), 바이블리오틱(Bibliotik) 등 합법적인 경로로 접근하기 어려운 것으로 악명 높은 온라인 데이터베이스 웹사이트뿐이다”라고 주장했다.

오픈AI가 불법 복제 데이터를 탈취한 이유는 다음과 같이 간단하다. 불법 복제 콘텐츠의 온라인 데이터베이스는 질적으로 가장 우수한 작품을 대거 포함했으며, 다양한 주제로 다양한 작가 집단이 작성하였기 때문이다. 사그 교수는 도서와 같은 저작권 인정 대상을 사용 공개 서한한다면, 대규모 언어 모델이 더 훌륭한 균형을 갖추는 데 도움이 될 수도 있다고 말한다. 그동안 레딧 게시글, 위키피디아 글만 이용하여 훈련했다면, 달성하기 어려웠을 부분이다.

미국에서는 저작권 보호 작품의 합법적 취득 여부를 공정한 목적으로 직접 데이터를 사용하도록 지시한 사례가 없다. 하지만 사그 교수는 콘텐츠 불법 접근이 생성형 AI의 훈련 데이터 저작권 위반 소송에서 불법 접근을 정확히 말한 사례도 없다고 덧붙였다. (유럽연합에서는 데이터 수집 기업을 대상으로 사용하고자 하는 정보를 합법적인 경로로 접근하도록 명령한다.)

AI 시스템의 훈련 데이터 접근성의 불법 접근 관련 문제를 살펴볼 한 가지 방법은 합법 접근이 동기와 관련이 없다는 사실을 주장하는 것이다. 바로 마스닉이 최근, 테크더트에서 주장한 바이기도 하다. 마스닉은 “음악가가 특정 장르의 불법 복제 음악을 듣고 같은 장르의 음악 제작 영감을 받는다면, 그에 따라 생성하는 음악이 저작권을 침해한다고 주장할 수 있는가?”라는 질문을 던졌다.

마스닉은 더 엄격한 저작권 침해 사례 상상으로 생성형 AI 통제를 목표로 삼는 일이 의도치 않게 창의적 작업 부문의 낙심 효과를 낳을 가능성을 우려한다. 2023년 초, 미국 저작권청은 AI 문제 조사 계획을 발표했다. 마스닉은 “인간이 아티스트에게 보상을 지급하지 않더라도 다른 아티스트에게서 작품을 학습할 수 있다는 주장이 제기되었다. 하지만 이와 같은 주장이 예술을 제작한 뒤 콘텐츠 크리에이터가 학습할 수 있다는 중대한 문제를 일으킬 것을 우려한다. 일반적으로 모든 종류의 콘텐츠 크리에이터가 자체 콘텐츠 크리에이터 시스템을 학습하는 방식은 타인을 보고 영감을 받는 것과 같다고 본다”라고 말했다.

반면, 누군가가 수년간 시간을 들여 소설을 작성했다면, 타인이 해당 작품을 상업적 목적으로 사용했을 때 저작권으로 보상을 보장할 수 없는가? 사그 교수는 “저작권 체계의 혜택 저하라고 표현할 수 있다”라고 말했다. 간단하게 말하자면, 생성형 AI 시스템이 작가에게 지급하는 보상 없이 저작권이 있는 작품을 수집하고는 비슷한 문제로 다른 작품을 대거 생성할 때 원작 작성자의 혜택이 줄어든다는 의미인지 의문을 제기할 수 있다.

생성형 AI 시스템의 저작권 소송은 원고가 패소하더라도 생성형 AI 기업이 소송 문제를 피할 단계에 돌입할 상황을 촉발할 확률이 높다. 아티스트가 달가워하지 않을 만한 소식이다. 생성형 AI 기업은 훈련 데이터에 저작권이 있는 작품을 사용하기 위한 라이선스 합의 계약을 취득할 수 있다. 논란이 있는 표현이지만, 원본 음악 제작자가 라이선스를 제공하지 않은 방식으로 스포티파이가 음원 라이선스를 부여하는 방식으로 비유할 수 있다. 예를 들어, 드레이크는 자신의 음잔 라이선스를 제공하여 팬이 드레이크와 같은 형태의 AI 생성 음악을 자체 제작하도록 할 수 있다.

아티스트가 직면할 수 있는 또 다른 미래 상황은 아티스트가 직접 자신의 작품을 AI 훈련 데이터로 사용하도록 선택하는 것이다. 내부 툴 사용 시 신중한 태도를 보여 온 로블록스는 생성형 AI와 같은 모델과 관련하여 사용자가 제작한 콘텐츠 사용 시 당사자가 허락한 콘텐츠를 사용하는 방안을 고려한다. 어도비도 어도비 스톡(Adobe Stock) 이미지와 공개 도메인 콘텐츠로 훈련한 파이어플라이(Firefly) 툴과 관련하여 마찬가지로 신중한 태도를 보였다. AP는 최근, 오픈AI와 신규 기사 보도 내용 라이선스 공급 계약을 체결했다.

하지만 궁극적으로 생성형 AI는 사라지지 않을 것이다. 저작권은 생성형 AI의 결과 중 일부분에만 해결책을 제시할 수 있을 것이다. 비영리 단체 파트너십 온 AI(Partnership on AI) 연구 펠로 스테파니 벨(Stephanie Bell)이 제시한 전례와 같이 창의적 작품을 신뢰할 수 없는 데이터처럼 다루는 것은 매우 우려스러운 일이다. 생성형 AI의 저작권 문제를 완벽하게 다루기 위한 AI 규제 필요성은 아직 법률에 포함되지 않았다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
The Generative AI Battle Has a Fundamental Flaw

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다