본문 바로가기 주메뉴 바로가기 검색 바로가기
AI 봇, 최고 뉴스 웹사이트서는 차단...우익 언론은 환영
상태바
AI 봇, 최고 뉴스 웹사이트서는 차단...우익 언론은 환영
뉴욕타임스를 포함한 최고 인기 언론사 웹사이트 약 90%는 오픈AI를 포함한 여러 AI 기업의 AI 데이터 수집 봇을 차단한다. 반대로 뉴스맥스, 브레이트바트 등 우익 언론 웹사이트는 대부분 AI 봇을 허용한다.
By KATE KNIBBS, WIRED US

언론사가 훈련 데이터 수집을 절실히 원하는 오픈AI를 비롯한 거물급 인공지능(AI) 기업과 라이선스 계약을 두고 실랑이를 벌이는 가운데, 여러 언론사가 AI 기업의 데이터 수집을 막을 디지털 장벽을 형성했다. 새로운 데이터 분석 결과, 미국 내 최고 언론 기관 88%는 AI 기업이 자사 챗봇과 여러 AI 프로젝트에 사용할 훈련 데이터 수집 목적으로 이용하는 웹 크롤러를 차단한 것으로 나타났다. 그러나 특정 분야의 언론사는 AI 기업의 웹 크롤러 차단과는 거리가 먼 행보를 보인다. 바로 우익 언론 기관이다. 우익 언론 기관은 자유주의 언론사보다 AI 봇 차단률이 현저히 낮은 것으로 드러났다.

2024년 1월 중순, 온타리오 AI 탐지 스타트업 오리지널리티 AI(Originality AI)가 최고 뉴스 언론사 40여 곳에서 수집한 데이터 분석 결과, 뉴욕타임스, 워싱턴포스트, 가디언 등 유력 언론사와 디 애틀랜틱을 비롯한 종합 잡지사, 블리처 리포트(Bleacher Report) 등 특수 관심 분야 전문 매체 등 대다수 언론사가 AI 웹 크롤러를 차단한 것으로 확인됐다. 오픈AI의 GPT봇(GPTBot)이 가장 많이 차단된 웹 크롤러로 확인됐다. 그러나 폭스뉴스, 데일리 콜러(Daily Caller), 브레이트바트(Breitbart) 등 오리지널리티 AI가 조사한 유력 우익 언론 웹사이트 중 유명한 AI 웹 크롤러 대다수를 차단한 곳은 단 한 곳도 없다. 우익 언론 기관은 구글 AI 데이터 수집 봇도 차단하지 않았다. 정치 평론가 바리 바이스(Bari Weiss)가 운영하는 뉴스 웹사이트인 프리프레스(The Free Press)도 AI 데이터 스크랩 봇을 일절 차단하지 않은 것으로 확인됐다.

우익 언론 대부분 AI 크롤러 전략 관련 의견 공개 요청에 답변하지 않았다. 그러나 와이어드가 이번 기사 취재를 위해 연락한 연구원 대부분 우익 언론과 다른 주요 언론사의 AI 웹 크롤러 차단 수준 차이를 설명할 몇 가지 추측 사항을 이야기했다. 가장 흥미로운 추측 사항은 널리 인식된 정치적 편견 퇴치 전략이 될 가능성이었다. 오리지널리티 AI 창립자 겸 CEO 존 길험(Jon Gillham)은 “AI는 주로 훈련 데이터의 편견을 반영한다. 좌익 언론 대부분 AI 크롤러를 차단했다면, AI 툴에 동원될 훈련 데이터 대부분 우익 콘텐츠로 구성될 것이다”라고 설명했다.

오리지널리티 AI는 자동화 웹 크롤러가 차단된 웹사이트와 수집 활동을 허가하는 웹사이트 정보를 파악하는 데 이용하는 파일인 robots.txt을 조사하는 방식으로 GPT봇을 포함한 여러 AI 스크랩 툴을 차단한 웹사이트를 조사했다. 오리지널리티 AI는 인터넷 아카이브 데이터를 활용해 각각의 웹사이트가 AI 웹 크롤러를 차단하기 시작하는 시점도 확인했다. 다수 웹사이트는 2023년 8월, 오픈AI가 자사 웹 크롤러의 robots.txt 중요성을 이야기한 때부터 AI 웹 크롤러를 차단했다. 오리지널리티 AI의 웹 트래픽 추산 결과를 기준으로 보았을 때 초기 분석 결과는 미국 내 유력 언론사 웹사이트의 AI 웹 크롤러 차단 실태를 집중적으로 조사했다. 오리지널리티 AI가 처음 조사한 언론사 중 우익 성향이 짙은 언론사는 단 한 곳이었다. 따라서 오리지널리티 AI는 인지도가 가장 높은 우익 언론사 9곳을 추가로 조사했다. 오리지널리티 AI가 조사한 언론사 중 GPT봇을 차단한 곳은 단 한 곳도 없다.
 
[사진=Freepik]
[사진=Freepik]

봇의 선입견
미국 내 보수 성향인 지도자와 일론 머스크는 챗GPT를 비롯한 여러 주요 AI 툴이 진보주의나 좌익 편향적인 정치 선입견을 제시할 것이라는 우려를 제기했다. 최근, AI 관련 청문회에서 마샤 블랙번(Marsha Blackburn) 상원의원은 AI가 생성한 조 바이든 대통령을 극찬한 시를 AI 봇의 좌익 편향성을 우려할 증거로 제시하며, 챗GPT가 트럼프를 칭찬하는 시 창작 요청은 응하지 못했다고 주장했다. 우익 언론사는 우익 이념의 적이 AI 웹 크롤러를 차단한 행동을 잘못된 선입견을 바로잡을 고유의 기회라고 보았다.

챗GPT에서 파악한 편견을 탐구할 목적으로 AI 모델인 라이트윙GPT(RightWingGPT)를 개발한 뉴질랜드 데이터 과학자 데이비드 로자도(David Rozado)는 언론사의 웹 크롤러 차단을 이용한 AI의 편견을 바로잡는 노력이 합리적인 전략이라고 주장했다. 그는 “기술적 관점에서 자사 콘텐츠를 AI 훈련 데이터에 포함하도록 한 언론사는 모델의 변수에 어느 정도 영향을 미칠 수 있다”라고 말했다.

그러나 UCLA 소속 AI 윤리 연구원인 제레미 바움(Jeremy Baum)은 우익 언론사의 AI 스크랩 행위 차단 거부가 챗봇 등 최종 AI 시스템의 결과에 두드러지는 영향을 미칠 가능성을 비관적으로 평가했다. 그 부분적인 이유로 주요 언론사가 AI 웹 크롤러를 차단하기 전 AI 기업이 수집한 오래된 데이터양이 많다는 점을 언급했다. AI 기업이 진보주의 성향의 직원을 채용하는 경향이 있다는 점도 또 다른 이유로 언급했다.

바움 연구원은 “현재 AI의 응답 수준을 개선하고자 모든 AI 모델에 인간의 피드백을 바탕으로 한 강화학습 기법을 활용한다”라고 설명했다. 대다수 AI 기업은 중립을 지키는 시스템을 개발하고자 한다. 인간이 AI가 우익 콘텐츠의 과도한 증가를 피하면서도 안전하지 않거나 잘못되었다고 판단한다면, AI에 특정 관점을 주입하여 편향된 정보를 제공하지 않도록 할 수 있다.

카일라 우드(Kayla Wood) 오픈AI 대변인은 오픈AI가 모든 문화권과 산업, 이념, 언어를 반영한 AI 모델 개발을 추구하여 광범위한 영역에서 수집한 훈련 데이터를 활용한다고 답변했다. 우드 대변인은 “뉴스를 포함한 특정 부문과 단 한 언론사의 콘텐츠가 전체 데이터에서 차지하는 비중은 극소수이다. 따라서 AI 모델이 의도한 학습과 결과물에는 현저한 영향을 미치지 않는다”라고 말했다.

우익 언론의 AI 웹 크롤러에 맞선 다툼
언론사가 AI 웹 크롤러를 차단하는 행위는 저작권 관련 이념 갈등을 나타내기도 한다. 뉴욕타임스는 오픈AI를 저작권 위반으로 제소하며, AI 기업의 데이터 수집 행위가 불법이라고 주장했다. 다른 주류 언론사 지도자도 AI 웹 스크랩 행위가 탈취 행위라고 본다. 와이어드를 소유한 기업인 콘데나스트(Condé Nast) CEO 로저 린치(Roger Lynch)는 최근, 미 상원 의회 청문회에서 다수 AI 툴이 탈취 상품을 바탕으로 개발되었다고 주장했다. 반면, 우익 언론 기관 대표는 대부분 AI 웹 크롤러의 저작권 침해 논쟁에 개입하지 않았다. 우익 언론사가 데이터 스크랩 행위를 허용하는 이유가 AI 툴 개발 목적의 데이터 스크랩 행위를 공정한 사용 원칙에 따라 보호할 수 있다는 관점을 인정하기 때문일까?

와이어드가 오리지널리티 AI의 조사 대상이 된 우익 언론사 9곳 중 일부 기관에 AI 스크랩 행위를 허용한 이유를 묻자 각각 다른 답변이 돌아왔다. 우익 언론사가 직접 밝힌 이유는 이념적 이유와는 거리가 멀다. 워싱턴 이그제미너(Washington Examiner)는 AI 웹 크롤러 허용 의도를 밝히지 않았으나 와이어드의 문의 후 48시간 이내에 오픈AI의 GPT봇을 차단했다. 그동안 AI 웹 크롤러가 자사 콘텐츠를 수집한다는 사실을 알지 못했거나 AI 웹 크롤러 차단을 우선순위로 여긴다는 점을 시사한다.

반면, 데일리 콜러는 AI 웹 크롤러의 콘텐츠 수집을 허용한 것이 단순한 실수임을 인정했다. 데일리 콜러 공동 창립자 겸 출판 책임자인 닐 파텔(Neil Patel)은 “데일러 콜러는 저작권을 탈취하는 봇을 공개적으로 지지하지 않는다. 웹 크롤러의 수집 행위를 감독했어야 했다. 하지만 이제 웹 크롤러를 차단하도록 변경했다”라고 답변했다.

우익 언론은 영향력이 있으며, 페이스북과 같은 SNS를 최대한 이용하여 기사를 공유하는 능력이 매우 능숙하다. 그러나 워싱턴 이그제미너, 데일리 콜러 등은 규모가 작은 언론사이며, 대규모 기술 지원팀을 보유한 뉴욕타임스 등 언론계에서 확고한 입지를 다진 대규모 언론사보다 편향적인 성향이 강하다.

데이터 전문 기자 벤 웰쉬(Ben Welsh)는 여러 언론사 웹사이트의 오픈AI, 구글, 비영리 단체 커몬크롤 프로젝트(Common Crawl project)의 AI 웹 크롤러 차단 통계 결과를 꾸준히 공개한다. 세 기업의 웹 크롤러로 수집한 데이터는 주로 AI에 이용된다. 웰쉬 기자가 공개한 통계 자료 기준, 조사 대상이 된 언론사 1,156곳 중 약 53%는 오픈AI, 구글, 커몬크롤 프로젝트의 AI 크롤러 세 개 중 적어도 1개를 차단한 것으로 추산했다. 웰쉬 기자는 오리지널리티 AI보다 훨씬 더 넓은 범위에서 조사했으며, 비교적 인지도가 낮은 소규모 언론사의 AI 웹 크롤러 차단 실태도 조사했다. 웰쉬 기자가 공개한 조사 결과는 인력이 많고, 트래픽이 높은 언론사일수록 더 나은 자원이나 기술적 지식을 갖춘 인력을 채용했기 때문에 AI 봇을 차단할 확률이 더 높다는 점을 시사한다.

적어도 경쟁 대상인 주류 언론사를 최대한 활용할 방법을 고려하는 우익 언론사 웹사이트 한 곳은 인식된 정치적 편견에 맞설 AI 프로젝트를 막으려 할 것이다. 젠 스미스(Jen Smith) 데일리 와이어 대변인은 “데일리 와이어의 법률 조항에는 스크랩 행위 금지 조항이 명시됐다. 또한, 데일리 와이어는 지식재산권 보호를 위한 새로운 수단도 탐색 중이다. 즉, 데일리 와이어는 AI가 기존 언론사와 같은 편견을 확고히 다지는 데 도움을 주지 않을 것이라는 의미이다”라고 말했다. 그러나 현재 GPT봇을 포함한 여러 AI 봇은 데일리 와이어 콘텐츠를 수집할 수 있는 상태인 것으로 확인됐다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Most Top News Sites Block AI Bots. Right-Wing Media Welcomes Them
이 기사를 공유합니다
RECOMMENDED