By Kate Knibbs, WIRED US
육아와 관련한 모호한 주제를 생각하면, 오랫동안 거대한 규모로 운영된 논란의 영국판 맘카페와 같은 육아 포럼인 맘스넷(Mumsnet)을 언급할 수 있다. 20년 이상 운영된 맘스넷은 참여도가 매우 높은 사용자층이 작성한 단어 60억 개 이상 보관했다. 사용자가 지금껏 작성한 주제는 더러워진 기저귀부터 게으른 남편 문제까지 다양하다. (돌고래 소리처럼 큰 소리로 비명을 지르는 듯한 글은 두말할 것도 없다.)
2024년 봄, 맘스넷은 인공지능(AI) 기업 여러 곳이 맘스넷의 데이터를 수집한 사실을 확인한 뒤 오픈AI를 포함한 일부 거물급 기업과 데이터 공급 라이선스 계약을 체결하려 했다. 맘스넷은 초기에 AI 기업에 접촉한 뒤 라이선스 계약 협상을 이어갈 방안을 모색했다. 그러나 2024년 7월, 오픈AI와의 협상이 결렬되자 맘스넷 측은 법적 대응에 나서기 시작했다.
맘스넷 측이 설명한 바에 따르면, 초기 협상 도중 오픈AI의 전략적 협력 책임자는 10억 단어가 넘는 데이터세트에 관심이 있다고 전했다. 당시 맘스넷 경영진도 오픈AI와의 데이터 공급 라이선스 계약이 흥미롭다고 생각했다. 맘스넷 창립자 겸 CEO 저스틴 로버츠(Justine Roberts)는 와이어드와의 인터뷰에서 “맘스넷은 오픈AI와 데이터 공급 건을 두고 맥락에 따른 협상을 이어가는 데 어느 정도 시간을 투자했다. 맘스넷은 오픈AI와 비밀유지계약(NDA)에도 서명했다. 오픈AI는 맘스넷을 통해 다량의 정보를 얻고자 했다”라고 말했다.
그러나 와이어드가 입수한 양사 관계자의 메일을 확인한 결과, 한 달이 넘게 지난 시점에 오픈AI는 맘스넷 측에 데이터 라이선스 계약에 관심이 없다고 통보했다. 이에, 맘스넷 측이 이유를 묻자 오픈AI 직원은 맘스넷의 60억 단어로 구성된 데이터세트가 라이선스 계약을 체결하기에는 규모가 너무 작다고 주장했다. 또, 오픈AI는 처음부터 대중이 온라인으로 접근할 수 없는 대규모 데이터세트에 관심이 있었으며, 포괄적인 인간 경험을 담은 데이터세트를 원한다는 이유를 덧붙였다.
오픈AI 측의 포괄적인 주제를 다룬 대규모 데이터세트에 관심이 있다는 정서는 오픈AI 측이 와이어드에 보낸 의견을 통해서도 확인할 수 있었다. 카일라 우드(Kayla Wood) 와이어드 대변인은 “오픈AI는 인간 사회를 반영한 대규모 데이터세트와의 협력을 원한다. 단순히 공개적으로 접근할 수 있는 정보만 제공하는 업체, 기관 등과의 협력은 추구하지 않는다”라며, “오픈AI는 출판 기업과 크리에이터의 선택을 지지하며, 검색 결과에서 AI와의 작업 지원 방식, 생성형 AI 기반 모델 훈련 과정에서 사이트와 콘텐츠 사용 방식 선호도를 직접 선택할 권한을 제공한다”라고 주장했다.
로버츠는 오픈AI 측의 AI 개발 방식에 화가 났다고 밝혔다. 오픈AI가 처음에는 맘스넷에 여성이 작성한 콘텐츠가 압도적으로 많다는 이유로 맘스넷에 특별히 관심이 있다고 밝힌 사실을 떠올렸다. 로버츠는 “맘스넷 데이터는 품질이 우수한 대화형 데이터이다. 맘스넷 데이터 90%는 여성 대화로 구성되었다는 점이 독특하다”라고 말했다.
오픈AI는 지난 1년간 여러 언론사, 플랫폼과 데이터 라이선스 계약을 체결했다. 그동안 복스 미디어, 디 애틀랜틱, 악셀스프링어, 타임, 와이어드 모기업인 콘데나스트(Condé Nast) 등 여러 언론 기관은 물론이고, 레딧처럼 사용자가 생성한 콘텐츠가 가득한 여러 플랫폼과의 계약 체결 소식을 발표했다. 워드프레스와 텀블러(Tumblr) 모기업인 오토매틱(Automattic)도 2024년 초반, 오픈AI와 훈련 데이터 공급을 두고 라이선스 계약을 논의했다. 구체적인 계약 조건은 공개된 바가 없으나 오픈AI의 협력사마다 제공하는 언어 데이터 규모는 분명하지 않다.
와이어드가 상업적 라이선스 계약과 관련한 데이터세트 규모를 문의했을 당시 오픈AI는 관련 정보 공유를 거부했다. 다만, 우드 대변인은 오픈AI와 언론사, 콘텐츠 출판 기업과의 협력이 오픈AI 제품에 협력사의 콘텐츠를 보여주어 협력사의 트래픽 증가를 견인하는 데 주력한다고 강조했다.
음원 저작권 관리 기업 라이트사이파이(Rightsify) CEO 악셀 베스톨(Alex Bestall)은 오픈AI가 대규모 데이터세트에 관심을 보이는 것이 사실이더라도 놀랄 것이 없다고 본다. 그는 “스타트업은 융통성이 훨씬 더 우수하다. 하지만 대규모 연구소는 그 종류가 무엇이든 계약을 고려하기에는 보유한 데이터양이 최소한의 수준일 뿐이다”라고 말했다.
이제 오픈AI는 영국에서 저작권 침해 문제로 처음 법적 책임을 지게 될 상황을 직면했다. 맘스넷은 저작권과 함께 오픈AI가 자사 사용 약관과 데이터베이스 권리를 침해했다고 주장한다. 맘스넷의 모든 데이터 수집 혹은 대규모 데이터베이스 수집 모두 사용자 동의 없이 이루어졌다는 의미이다.
맘스넷은 2024년 7월 처음으로 법적 대응을 고려한다는 서한을 보냈다. 비교적 최근에는 오픈AI 측이 의문 사항 목록을 나열한 답변을 보냈다. 로버츠는 “오픈AI는 맘스넷 데이터를 수집한 사실을 부인하지 않았다”라고 전했다. 현재 맘스넷 측은 소송을 이어갈 계획이다. 아직 영국 고등법원에 소장을 제출할 것인지 혹은 지식재산권 전문 법원에서 소송을 제기할 것인지 결정하지 않았다. (오픈AI는 와이어드의 문의에 맘스넷의 항의 서한을 받고 답변을 보낸 사실을 인정했다. 그러나 맘스넷이 소장을 통해 주장한 바와 관련한 의견은 공개하지 않았다.)
반면, 맘스넷은 다른 AI 기업과의 라이선스 계약에 적극적으로 임한다. 로버츠는 현재 구글과 데이터 라이선스 계약 협상을 논의 중이라고 밝혔다. 또, 데이터 라이선스 계약 체결이 수월하게 이루어지도록 돕는 계약 중개 스타트업 여러 곳과도 협상 중이다. (구글은 와이어드의 데이터 라이선스 계약 논의 관련 문의에 답변하지 않았다.)
로버츠는 “대규모 언어 모델이 영세 출판 기업에 접근하여 자체 모델을 개발하고, 사용자가 웹사이트 자체에 접속할 필요성을 줄이는 AI 생태계를 우려한다. 사용자와 사용자의 콘텐츠 작업 보상 모두 만족할 만한 합의가 필요하다”라는 견해를 피력했다.
와이어드는 맘스넷 콘텐츠 대부분 사용자가 생성했다는 점을 고려하여 라이선스 계약 체결 시 사용자를 위한 일종의 결제 시스템 도입을 고려하는가 질문했다. 로버츠는 현재 관련 시스템 도입을 고려하지 않는다고 전했다. 다만, 추후 AI가 사용할 데이터 라이선스 계약으로 거액의 수익을 기록할 때 사용자에게 대가를 지급하는 시스템 도입을 고려할 것이라고 덧붙였다.
또한, 맘스넷이 오픈AI를 대상으로 법적 대응을 모색한다고 밝힌 뒤 받은 답변을 바탕으로 사용자 대부분 맘스넷의 데이터 라이선스 계약 목적을 이해한다고 언급했다. 로버츠는 “맘스넷은 AI의 성별 선입견이 심하다는 점을 우려한다. 검증된 여성의 목소리로 AI를 훈련해야 할 필요성을 주장할 수 있다”라고 말했다.
로버츠는 맘스넷의 법적 대응이 전개될 때의 상황을 낙관적으로 본다. 로버츠는 “맘스넷이 오픈AI를 상대로 한 소송에서 좋은 기회를 얻을 것으로 예상한다”라고 말했다. 미국에서는 이미 AI 기업을 상대로 한 저작권 침해 소송 수십 건이 제기되었다. 현재 진행 중인 여러 소송에서 AI 기업은 데이터 수집 행위가 특정 상황에서는 저작권 침해를 허용하는 ‘공정한 사용’ 원칙으로 보호할 수 있는 행위라는 점을 내세워 변론한다. 영국에서도 ‘공정한 거래’라는 이름으로 비슷한 원칙을 채택한다. 하지만 그 범위는 미국보다 훨씬 더 제한적이다.
로버츠는 소송 판결을 떠나 맘스넷이 AI 기업에 맞서 제 목소리를 낸다는 사실을 기쁘게 생각한다. 로버츠는 “그 무엇보다도 공정한 거래 원칙이 이번 사건의 쟁점이라고 볼 수 있다”라고 말했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
OpenAI Messed With the Wrong Mega-Popular Parenting Forum
육아와 관련한 모호한 주제를 생각하면, 오랫동안 거대한 규모로 운영된 논란의 영국판 맘카페와 같은 육아 포럼인 맘스넷(Mumsnet)을 언급할 수 있다. 20년 이상 운영된 맘스넷은 참여도가 매우 높은 사용자층이 작성한 단어 60억 개 이상 보관했다. 사용자가 지금껏 작성한 주제는 더러워진 기저귀부터 게으른 남편 문제까지 다양하다. (돌고래 소리처럼 큰 소리로 비명을 지르는 듯한 글은 두말할 것도 없다.)
2024년 봄, 맘스넷은 인공지능(AI) 기업 여러 곳이 맘스넷의 데이터를 수집한 사실을 확인한 뒤 오픈AI를 포함한 일부 거물급 기업과 데이터 공급 라이선스 계약을 체결하려 했다. 맘스넷은 초기에 AI 기업에 접촉한 뒤 라이선스 계약 협상을 이어갈 방안을 모색했다. 그러나 2024년 7월, 오픈AI와의 협상이 결렬되자 맘스넷 측은 법적 대응에 나서기 시작했다.
맘스넷 측이 설명한 바에 따르면, 초기 협상 도중 오픈AI의 전략적 협력 책임자는 10억 단어가 넘는 데이터세트에 관심이 있다고 전했다. 당시 맘스넷 경영진도 오픈AI와의 데이터 공급 라이선스 계약이 흥미롭다고 생각했다. 맘스넷 창립자 겸 CEO 저스틴 로버츠(Justine Roberts)는 와이어드와의 인터뷰에서 “맘스넷은 오픈AI와 데이터 공급 건을 두고 맥락에 따른 협상을 이어가는 데 어느 정도 시간을 투자했다. 맘스넷은 오픈AI와 비밀유지계약(NDA)에도 서명했다. 오픈AI는 맘스넷을 통해 다량의 정보를 얻고자 했다”라고 말했다.
그러나 와이어드가 입수한 양사 관계자의 메일을 확인한 결과, 한 달이 넘게 지난 시점에 오픈AI는 맘스넷 측에 데이터 라이선스 계약에 관심이 없다고 통보했다. 이에, 맘스넷 측이 이유를 묻자 오픈AI 직원은 맘스넷의 60억 단어로 구성된 데이터세트가 라이선스 계약을 체결하기에는 규모가 너무 작다고 주장했다. 또, 오픈AI는 처음부터 대중이 온라인으로 접근할 수 없는 대규모 데이터세트에 관심이 있었으며, 포괄적인 인간 경험을 담은 데이터세트를 원한다는 이유를 덧붙였다.
오픈AI 측의 포괄적인 주제를 다룬 대규모 데이터세트에 관심이 있다는 정서는 오픈AI 측이 와이어드에 보낸 의견을 통해서도 확인할 수 있었다. 카일라 우드(Kayla Wood) 와이어드 대변인은 “오픈AI는 인간 사회를 반영한 대규모 데이터세트와의 협력을 원한다. 단순히 공개적으로 접근할 수 있는 정보만 제공하는 업체, 기관 등과의 협력은 추구하지 않는다”라며, “오픈AI는 출판 기업과 크리에이터의 선택을 지지하며, 검색 결과에서 AI와의 작업 지원 방식, 생성형 AI 기반 모델 훈련 과정에서 사이트와 콘텐츠 사용 방식 선호도를 직접 선택할 권한을 제공한다”라고 주장했다.
로버츠는 오픈AI 측의 AI 개발 방식에 화가 났다고 밝혔다. 오픈AI가 처음에는 맘스넷에 여성이 작성한 콘텐츠가 압도적으로 많다는 이유로 맘스넷에 특별히 관심이 있다고 밝힌 사실을 떠올렸다. 로버츠는 “맘스넷 데이터는 품질이 우수한 대화형 데이터이다. 맘스넷 데이터 90%는 여성 대화로 구성되었다는 점이 독특하다”라고 말했다.
오픈AI는 지난 1년간 여러 언론사, 플랫폼과 데이터 라이선스 계약을 체결했다. 그동안 복스 미디어, 디 애틀랜틱, 악셀스프링어, 타임, 와이어드 모기업인 콘데나스트(Condé Nast) 등 여러 언론 기관은 물론이고, 레딧처럼 사용자가 생성한 콘텐츠가 가득한 여러 플랫폼과의 계약 체결 소식을 발표했다. 워드프레스와 텀블러(Tumblr) 모기업인 오토매틱(Automattic)도 2024년 초반, 오픈AI와 훈련 데이터 공급을 두고 라이선스 계약을 논의했다. 구체적인 계약 조건은 공개된 바가 없으나 오픈AI의 협력사마다 제공하는 언어 데이터 규모는 분명하지 않다.
와이어드가 상업적 라이선스 계약과 관련한 데이터세트 규모를 문의했을 당시 오픈AI는 관련 정보 공유를 거부했다. 다만, 우드 대변인은 오픈AI와 언론사, 콘텐츠 출판 기업과의 협력이 오픈AI 제품에 협력사의 콘텐츠를 보여주어 협력사의 트래픽 증가를 견인하는 데 주력한다고 강조했다.
음원 저작권 관리 기업 라이트사이파이(Rightsify) CEO 악셀 베스톨(Alex Bestall)은 오픈AI가 대규모 데이터세트에 관심을 보이는 것이 사실이더라도 놀랄 것이 없다고 본다. 그는 “스타트업은 융통성이 훨씬 더 우수하다. 하지만 대규모 연구소는 그 종류가 무엇이든 계약을 고려하기에는 보유한 데이터양이 최소한의 수준일 뿐이다”라고 말했다.
이제 오픈AI는 영국에서 저작권 침해 문제로 처음 법적 책임을 지게 될 상황을 직면했다. 맘스넷은 저작권과 함께 오픈AI가 자사 사용 약관과 데이터베이스 권리를 침해했다고 주장한다. 맘스넷의 모든 데이터 수집 혹은 대규모 데이터베이스 수집 모두 사용자 동의 없이 이루어졌다는 의미이다.
맘스넷은 2024년 7월 처음으로 법적 대응을 고려한다는 서한을 보냈다. 비교적 최근에는 오픈AI 측이 의문 사항 목록을 나열한 답변을 보냈다. 로버츠는 “오픈AI는 맘스넷 데이터를 수집한 사실을 부인하지 않았다”라고 전했다. 현재 맘스넷 측은 소송을 이어갈 계획이다. 아직 영국 고등법원에 소장을 제출할 것인지 혹은 지식재산권 전문 법원에서 소송을 제기할 것인지 결정하지 않았다. (오픈AI는 와이어드의 문의에 맘스넷의 항의 서한을 받고 답변을 보낸 사실을 인정했다. 그러나 맘스넷이 소장을 통해 주장한 바와 관련한 의견은 공개하지 않았다.)
반면, 맘스넷은 다른 AI 기업과의 라이선스 계약에 적극적으로 임한다. 로버츠는 현재 구글과 데이터 라이선스 계약 협상을 논의 중이라고 밝혔다. 또, 데이터 라이선스 계약 체결이 수월하게 이루어지도록 돕는 계약 중개 스타트업 여러 곳과도 협상 중이다. (구글은 와이어드의 데이터 라이선스 계약 논의 관련 문의에 답변하지 않았다.)
로버츠는 “대규모 언어 모델이 영세 출판 기업에 접근하여 자체 모델을 개발하고, 사용자가 웹사이트 자체에 접속할 필요성을 줄이는 AI 생태계를 우려한다. 사용자와 사용자의 콘텐츠 작업 보상 모두 만족할 만한 합의가 필요하다”라는 견해를 피력했다.
와이어드는 맘스넷 콘텐츠 대부분 사용자가 생성했다는 점을 고려하여 라이선스 계약 체결 시 사용자를 위한 일종의 결제 시스템 도입을 고려하는가 질문했다. 로버츠는 현재 관련 시스템 도입을 고려하지 않는다고 전했다. 다만, 추후 AI가 사용할 데이터 라이선스 계약으로 거액의 수익을 기록할 때 사용자에게 대가를 지급하는 시스템 도입을 고려할 것이라고 덧붙였다.
또한, 맘스넷이 오픈AI를 대상으로 법적 대응을 모색한다고 밝힌 뒤 받은 답변을 바탕으로 사용자 대부분 맘스넷의 데이터 라이선스 계약 목적을 이해한다고 언급했다. 로버츠는 “맘스넷은 AI의 성별 선입견이 심하다는 점을 우려한다. 검증된 여성의 목소리로 AI를 훈련해야 할 필요성을 주장할 수 있다”라고 말했다.
로버츠는 맘스넷의 법적 대응이 전개될 때의 상황을 낙관적으로 본다. 로버츠는 “맘스넷이 오픈AI를 상대로 한 소송에서 좋은 기회를 얻을 것으로 예상한다”라고 말했다. 미국에서는 이미 AI 기업을 상대로 한 저작권 침해 소송 수십 건이 제기되었다. 현재 진행 중인 여러 소송에서 AI 기업은 데이터 수집 행위가 특정 상황에서는 저작권 침해를 허용하는 ‘공정한 사용’ 원칙으로 보호할 수 있는 행위라는 점을 내세워 변론한다. 영국에서도 ‘공정한 거래’라는 이름으로 비슷한 원칙을 채택한다. 하지만 그 범위는 미국보다 훨씬 더 제한적이다.
로버츠는 소송 판결을 떠나 맘스넷이 AI 기업에 맞서 제 목소리를 낸다는 사실을 기쁘게 생각한다. 로버츠는 “그 무엇보다도 공정한 거래 원칙이 이번 사건의 쟁점이라고 볼 수 있다”라고 말했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
OpenAI Messed With the Wrong Mega-Popular Parenting Forum
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다