본문 바로가기 주메뉴 바로가기 검색 바로가기
아이오와주 소규모 뉴스 웹사이트, AI 생성 조회수 증가 유도 기사 대규모 생성 공간으로 변질
상태바
아이오와주 소규모 뉴스 웹사이트, AI 생성 조회수 증가 유도 기사 대규모 생성 공간으로 변질
메타 전 직원 두 명이 아이오와주 지역 뉴스 온라인 매체인 클레이튼 카운티 레지스터가 주식 관련 의심스러운 게시글을 대거 게재하는 이유를 자세히 조사했다. 이후 해당 웹사이트가 AI가 생성한 콘텐츠를 마구 게재한다는 점을 확인했다.
By KATE KNIBBS, WIRED US

토니 이스틴(Tony Eastin)은 여유 시간에 주식 시장 상황을 잠깐 들여다본다. 2023년 어느 날, 이스틴은 구글에 투자하기 유망한 기업처럼 보였던 어느 한 제약 회사 정보를 구글에 검색했다. 구글 뉴스 탭에서 본 검색 결과는 미국 아이오와주 북동부 지역의 어느 한 신문사인 ‘클레이튼 카운티 레지스터(Clayton County Register)’의 웹사이트였다. 클레이 카운티 레지스터 웹사이트에 접속하자 검색창에 입력한 제약 회사 정보가 뒤섞인 상태이면서도 정작 유용한 정보는 없었다. 그 외 금융과 관련된 다른 게시글이 웹사이트를 도배했다. 아이오와주 북동부 지역과는 전혀 관련성이 없는 내용이었다. 이스틴은 “즉시 무언가가 사라졌음을 눈치챘다”라고 말했다. 인터넷에는 불필요한 게시물이 넘쳐나지만, 이스틴은 미국 중서부 작은 지역의 신문사가 개인 투자와 관련된 저급한 블로그 게시글을 대거 생성하는 이유가 무엇인가 이상하다고 생각했다.

이스틴은 즉시 부인할 수 없는 온라인 문제를 찾을 준비를 했다. 이스틴은 미 공군 심리전에서 수년간 복무한 뒤 메타에 근무하여 아동 학대부터 정치 영향력 행사 작전까지 온라인 공간의 각종 악성 활동을 조사했다. 현재 일을 쉬고 있는 상태인 이스틴은 새로운 작업을 기꺼이 받아들였다. 이스틴은 과거, 미군 정보국과 국가안전보장국(NSA) 등에서 근무한 경력이 있는 메타 재직 시절 동료였던 산딥 아브라함(Sandeep Abraham)에게 연락하여 클레이튼 카운티 레지스터의 문제를 파헤치기 시작했다.

이스틴과 아브라함이 발견한 사항은 생성형 인공지능(AI)이 신규 온라인 비즈니스 모델을 속일 수 있는 방법을 간략하게 설명한 정보이다. AI가 생성한 클릭만 유도하는 불필요한 글로 도배된 웹사이트의 네트워크는 기존 언론 기관과 브랜드 명성을 이용하여 접속자 수를 늘린다. AI로 생성한 글을 도배한 언론 기관은 독자와 광고주 모두에게 혼란과 오해를 유발한다. 한때 비교적 명성이 높은 기관이 소유했던 URL을 이용한 도메인 스쿼팅(domain squatting)과 비슷하다. 이스틴이 구글 검색을 통해 우연히 접한 웹사이트는 실제로 클레이튼 카운티 레지스터 소유가 아니다.

이스틴과 아브라함은 클레이튼 카운티 레지스터의 과거 웹사이트가 이제는 직접 돈을 벌어들인다는 목표에 따라 생성되었을 가능성을 의심하지만, 악의적인 세력이 비슷한 전략으로 거짓 정보와 선동광고를 검색 결과를 통해 접하도록 유도했을 가능성도 우려했다. 아브라함은 “단순히 조회수를 높이려 AI로 대거 생성한 콘텐츠를 도배하는 행위는 큰 위협이 되는 일이다. 조사 도중 경각심을 갖게 된 이유이다”라고 말했다. 결국, 이스틴과 아브라함은 조사 결과를 담은 보고서를 작성하고는 AI로 대거 생성한 저급 콘텐츠 문제를 더 깊이 조사하면서 추가 결과를 발표할 계획을 세웠다. 추가 조사 작업에 별도로 시간을 투자하여 대중이나 국회의원이 AI로 대거 생성한 클릭 유도 게시물의 잠재적 위협을 깨닫도록 하고자 했다.

가짜 뉴스
클레이튼 카운티 레지스터는 1926년 창간되어 아이오와주의 작은 마을인 에카더와 범위를 넓혀 아이오와주 북동부 구석 미시시피강을 따라 형성된 클레이튼 카운티 소식까지 보도했다. 클레이튼 카운티 레지스터의 전직 공동 편집장 브라이스 더빈(Bryce Durbin)은 “클레이 카운티 레지스터는 인기 언론사였다”라며, 현재 클레이튼 카운티 레지스터의 과거 웹사이트에 도배되는 글이 혐오스럽다고 말했다. 진짜 클레이튼 카운티 레지스터는 2020년, 노스 아이오와 타임즈(The North Iowa Times)에 합병된 후 ‘타임스 레지스터(Times-Register)’로 명칭이 바뀌어 다른 웹사이트에 기사를 송출한다. 클레이튼 카운티 레지스터가 기존 웹 도메인을 상실한 과정은 확실하지 않다. 타임스 레지스터는 와이어드의 의견 공개 요청에 답변하지 않았다.

이스틴이 제약사 주식 정보를 찾으려던 중 발견한 것처럼 AI 생성 콘텐츠가 대거 게재된 웹사이트는 클레이튼 카운티 레지스터라는 이름을 내세우지만, 지역 소식은 일절 보도하지 않는다. 단순히 금융 뉴스 콘텐츠를 대거 생성하기만 한다. AI가 생성한 공공재 기업과 웹 3 스타트업 주식을 송출하면서 뉴스에 사용하는 이미지도 AI로 생성한 것으로 확인됐다.

와이어드의 요청에 따라 AI로 생성한 듯한 의문스러운 기사 여러 편을 분석한 딥페이크 감지 스타트업 리얼리티 디펜더(Reality Defender) CEO 벤 콜먼(Ben Colman)은 “조회수를 늘릴 의도로 대거 생성한 기사가 AI로 생성된 것은 물론이고, 기사마다 포함된 사진도 모두 디퓨전 모델로 생성되었다”라고 말했다. 이스틴과 아브라함은 AI 생성 기사라는 점을 확인한 것 이외에도 일부 기사는 기사 원문의 텍스트 인식 기능이 포함된 점에 주목했다. 아브라함은 “일부 기사는 오토매이티드 인사이츠(Automated Insights)가 자동 생성한 정보라는 점이 중요하다”라고 말했다. 오토매이티드 인사이츠는 일부 기사에서 언급하면서 관련 내용을 다룬 기업이다.

이스틴과 아브라함은 클레이튼 카운티 레지스터의 옛 웹사이트에서 본 기사 제목을 조사하면서 기사 작성자로 언급된 인물이 실제 기자가 아닌 데다가 실존 인물이 아닐 수도 있다는 증거를 발견했다. 이스틴과 아브라함은 클레이튼 카운티 레지스터에 등록된 기자 대부분 다른 분야의 유명인 이름을 공유하면서도 현실적으로 믿을 수 없을 정도로 높은 결과물을 생성한 점에 주목했다.
 
[사진=Freepik]
[사진=Freepik]

클레이튼 카운티 레지스터에서 비트코인, 뱅킹 주식 관련 최신 기사 작성자로 등록된 인물인 엠마뉴엘 엘러비(Emmanuel Ellerbee)는 전직 미식축구 선수의 이름이다. 2023년 11월, 이스틴과 아브라함이 조사 결과를 공유할 때 기자 데이터베이스 먹랙(Muck Rack)에는 엠마뉴엘 엘러비의 기자 경력 프로필 페이지에서 별도의 기사 제목 1만 4,882건을 보여주었다. 그중에는 검토 당일 송출된 기사 50건도 있었다. 최근, 먹랙에 등록된 엠마뉴엘 엘러비의 프로필에는 그의 기사가 계속 빠른 속도로 증가한 것으로 확인됐다. 2024년 2월 말 기준 엠마뉴엘 엘러비가 작성한 기사는 총 3만 845건이었다. 먹랙 CEO 그레고리 갤런트(Gregory Galant)는 “사용자가 인간이 작성한 기사와 AI 생성 콘텐츠를 구분하도록 도움을 줄 방법을 추가로 개발 중이다”라고 말했다. 이어, 엘러비의 프로필이 먹랙의 인간이 엄선한 검증된 프로필 데이터베이스에 없다는 점을 언급했다.

데이터 분석 서비스 기업 시밀러 웹(Similar Web)의 데이터 기준 클레이튼 카운티 레지스터의 도메인은 2023년 8월 중으로 변경되었다. 웹사이트에서 금융 뉴스가 대거 생성되기 시작한 시점과 일치하다. 이스틴과 아브라함 모두 같은 툴을 사용하여 클레이튼 카운티 레지스터가 SEO로 독자를 최대한 모으고, 주식 구매와 관련된 검색 키워드를 끌어와 조회수를 높이려 했다는 점을 확인했다. 많은 누리꾼이 투자 정보를 주고받는 온라인 포럼 레딧의 암호화폐 뉴스 포럼에 게재된 SNS 게시글 언급 사례가 가장 눈에 띄었다.

전체적으로 의도치 않게 클레이튼 카운티 웹사이트에 게재된 AI 생성 콘텐츠를 클릭하여 페이지 조회 수를 이용해 광고 수익을 끌어모으는 것이 목표인 것으로 드러났다. 알고리즘을 이용한 게시글에는 구글 광고 플랫폼이 제공하는 광고가 포함되어 있다. AI로 생성한 기사에 등장하는 광고 중에는 콘텐츠 내용에 따라 금융 상품 거래 광고를 게재하기도 한다. 그 외에는 기사 내용과 광고 내용이 무관한 것으로 나타났다. 와이어드팀이 클레이튼 카운티 레지스터 웹사이트에 접속했을 때는 미국 노인 권리 신장 비영리 단체 AARP의 광고도 등장했다. 가짜 기사 제목을 더한 AI 생성 게시글에서 구글 광고 네트워크를 이용하는 것은 구글의 출판 정책 위반 사항에 해당한다. CCR 도메인에서 트래픽을 받는 웹사이트는 간혹 사이트 운영자가 금융 중개 서비스, 온라인 광고 네트워크 등 다른 광고 거래를 체결하였을 가능성을 시사한다.

의문의 웹사이트 운영자
이스틴과 아브라함은 클레이튼 카운티 레지스터의 이전 도메인을 현재 소유한 이를 찾으려 했으나 확인할 수는 없었다. 하지만 와이어드도 조사 중 인지한 바와 같이 웹사이트 운영자의 정체가 의심스럽다고 전했다. 이스틴과 아브라함은 클레이튼 카운티 레지스터 웹사이트의 오래된 보안 인증이 독일 리눅스 서버와 연결된 것을 확인했다. 인터넷 기기 검색 엔진 Shodan.io를 이용하여 과거 IT 서비스로 홍보된 폴란드 웹사이트가 클레이튼 카운티 레지스터를 비롯한 일부 도메인과 관련된 점도 발견했다. 모두 독일의 같은 서버에서 호스팅을 제공하면서 비슷한 방식으로 AI로 생성한 듯한 콘텐츠를 대거 게재했다. 이전 폴란드 웹사이트에 등록된 메일은 현재 비활성화된 상태이며, 와이어드는 링크드인 메시지로도 폴란드 웹사이트 CEO의 답변을 받을 수 없었다.

광범위한 네트워크에 포함된 웹사이트 중에는 Aboutxinjiang.com도 있었다. 이스틴과 아브라함이 조사를 시작했을 때 웹사이트에는 실제 기사이면서도 AI로 생성한 듯한 금융 뉴스 게시글이 도배되었다. 그중에는 AI를 사용한 투자를 다룬 글도 있었다. 인터넷 아카이브(Internet Archive)는 해당 웹사이트가 과거에는 지금과는 전혀 다른 목적으로 소유되었다는 정보를 보여주었다. 초기에는 ‘신장 위구르 지역 공산당 위원회 선동광고부’라는 중국 기관이 운영하고, 중국 북서부 대학 관련 정보를 제공한 것으로 나타났다. 그러나 2014년에는 해당 웹사이트가 폐쇄되면서 2022년까지 휴면 상태를 유지하다가 이후 폴란드어 콘텐츠로 대체되었다. 추후 게재된 폴란드어 콘텐츠는 영어로 자동 작성한 조회수 증가 유도 게시물로 교체되었다. 이스틴과 아브라함이 해당 웹사이트를 처음 발견했을 당시 웹사이트 대규모 변경 작업이 진행 중이었다. 2024년 2월 초에는 접속자가 폴란드 부동산 정보 페이지로 이동하도록 경로를 재지정했다.

이스틴과 아브라함은 조회수 확보 목적으로 AI로 대거 생성한 콘텐츠 네트워크로 구성된 폴란드 IT 기업과 연결된 웹사이트 9곳을 찾아냈다. 모두 과거에 구글에 콘텐츠가 게재된 적이 있으며, 검색어 순위가 높았다는 점에서 AI 콘텐츠 송출 웹사이트로 선정되었다.

구글은 만료된 도메인 구매를 통한 검색 순위 조작 시도를 다룰 시스템을 보유했으며, 검색 결과 상단에 등장하도록 AI로 기사를 생성한 행위를 스팸으로 본다고 주장했다. 구글 대변인 제니퍼 커츠(Jennifer Kutz)는 “도메인이 만료된 웹사이트를 동원한 AI 생성 콘텐츠를 이용한 검색 순위 조작 전략은 구글 검색의 스팸 정책을 대거 위반한다”라고 말했다. 또, 정책을 위반한 웹사이트는 검색 순위에서 불이익을 주거나 구글에서 아예 삭제될 수 있다고 덧붙였다.

그러나 만료된 도메인에 AI 생성 콘텐츠를 대거 게재하여 검색 순위를 높이려는 행위는 생성형 AI 툴이 대거 등장한 뒤 더 유명한 전략이 되었다. 온라인 거짓 정보 추적 기업 뉴스가드(NewsGuard) 연구원 맥켄지 사디기(McKenzie Sadeghi)는 지난 1년 사이 AI 생성 콘텐츠를 대거 송출하는 웹사이트가 1,000% 증가했다는 조사 결과를 공개했다.

최근, 와이어드는 세르비아 DJ 네보사 부지노비치 부조(Nebojša Vujinović Vujo)가 별도로 조회수를 높일 의도로 생성한 AI 콘텐츠 송출 네트워크를 운영하는 사례를 보도했다. 부조는 네트워크 운영 목적을 거리낌 없이 밝히지만, 미국 지역 언론사 웹사이트를 포함한 네트워크 운영 상세 정보는 제공하지 않는다. 이스틴과 아브라함의 작업은 부조와 같은 운영 의도와 수익 창출 도박 목적으로 운영하는 네트워크 식별의 어려움을 모두 다루지 않았다. 사디기는 “대부분 수익 창출 의도로 AI 콘텐츠를 대거 운영하는 네트워크는 익명으로 운영된다. 보통 운영자가 신원을 숨길 의도로 도메인 생성 단계에서 특별 서비스를 사용한다”라고 설명했다.

이스틴과 아브라힘이 바꾸고자 하는 부분이다. 현재 평범한 누리꾼이 온라인 공간에서 접하는 뉴스의 출처를 비판적으로 생각하고, 국회의원은 정보 생태계를 개선할 수 있도록 수익 창출 목적의 AI 콘텐츠 생성 웹사이트에 맞선 보호 대책을 고려하기를 바란다. 클레이튼 카운티 레지스터의 의문스러운 개편 과정 이외에도 AI 생성 콘텐츠가 대거 송출되는 순간을 추가로 조사했다. 이미 추가 작업을 다룬 보고서를 작성 중이다. 아브라힘은 “온라인에서 보는 콘텐츠의 배후를 알아야 한다는 점에 누구나 동의하는 현실이 중요하다고 생각한다. 이에, AI 콘텐츠를 대거 송출하면서도 운영자 정체를 알 수 없는 문제를 조사한 정보에 많은 이들이 주목하기를 바란다”라고 말했다.

다른 연구원도 동의하는 부분이다. 대서양위원회 디지털 포렌식연구소 상주 연구원 에머슨 브루킹(Emerson Brooking)은 “이스틴과 아브라힘의 연구가 흥미롭다. 생성형 AI의 실제 사용 사례를 이해하기 쉬운 정보를 제공하기 때문이다”라고 말했다. AI를 정치 거짓 정보 유포 수단으로 이용할 가능성을 둘러싼 우려는 여전히 유효하지만, 운영자 정체를 알 수 없는 AI 콘텐츠를 대거 게재하는 네트워크는 콘텐츠가 논란의 여지가 없는 주제에 주력하면서도 트래픽 기반 수익을 주로 창출하는 방식을 설명한다. 브루킹 연구원은 “이스틴과 아브라함의 연구 보고서는 AI가 모두의 분노를 유발하는 방식으로 실제로 가져오는 사회 변화를 정확하면서도 간략하게 보여주는 듯하다”라고 평가했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
How a Small Iowa Newspaper’s Website Became an AI-Generated Clickbait Factory
이 기사를 공유합니다
RECOMMENDED