전문가가 말하는 ‘AI 생성 텍스트’ 감지 방법

By REECE ROGERS, WIRED US

챗GPT(ChatGPT)와 같은 툴이 제공하는 인공지능(AI) 기반 텍스트는 일상생활에 영향을 미치기 시작했다. 텍스트 생성 프로그램은 교사의 수업 도구 중 하나가 되었다. 마케터는 텍스트 생성 툴이 인간 인턴을 대체하는 것을 거부한다. 전 세계 누리꾼의 텍스트 생성 툴 사용을 통제할 수 없는 상황이다. 필자와 같은 기자의 생각이 궁금한가? 필자는 챗GPT처럼 글을 작성할 능력을 갖춘 로봇이 가끔 돈을 벌기 위해 펜을 드는 필자의 일을 위협할 것을 약간은 걱정하지 않는다. (다행히도 챗GPT는 줌 영상통화에 참석해 취재할 능력은 없다.)

이제 생성형 AI 툴을 대중적으로 사용할 수 있는 상황에서 웹 검색 중 AI가 작성한 합성 콘텐츠를 접할 확률이 높아졌다. 간혹 자동 생성된 딥프라이 디지트와 일치하는 정치적 신념을 연결하여 언급한 버즈피드(BuzzFeed) 퀴즈와 같이 훌륭한 콘텐츠를 생성할 수 있을 것이다. (민주당의 도넛인가, 아니면 공화당의 체폴레인가?) 혹은 외국 정부가 교묘하게 작성한 선동 광고 유포 작전과 같이 악의적인 활용 사례도 접하게 될 것이다.

학계에서는 일련의 단어 배열을 보고 챗GPT와 같은 AI 프로그램이 작성한 글을 잡아낼 방법을 찾고 있다. 지금 당장 읽고 있는 글을 보고 AI가 작성한 글인지 알아낼 확실한 지표는 무엇일까?

감탄사가 없다는 사실이다.

변수 평가
자연스럽게 작성된 글의 형태를 흉내 낼 능력을 갖춘 알고리즘은 지난 몇 년간 생각보다 많은 곳에 존재했다. 2019년, 하버드와 MIT-IBM 왓슨 AI 연구소(MIT-IBM Watson AI Lab)가 텍스트를 스캔한 뒤 임의성을 기준으로 단어를 강조하는 실험용 툴을 공개했다.

작성된 단어의 임의성 평가가 중요한 이유는 무엇일까? AI 텍스트 생성 프로그램은 기본적으로 절대적인 형태를 갖춘 기계이다. 모방 능력은 뛰어나지만, 예상치 못한 상황에 따른 글 작성에는 취약하다. 직장 상사에게 보낼 메일을 작성하거나 일부 친구에게 단체 메시지를 보낼 때, 글의 어조와 어투를 예측할 수 있다고 느끼는 것은 당연하다. 하지만 인간과 같은 방식의 커뮤니케이션에서는 갑자기 예상하지 못한 부분을 강조하여 글을 작성하기도 한다.

프린스턴대학교 재학생 에드워드 티안(Edward Tian)은 2023년 초, 교육자를 위해 개발한 챗GPT와 비슷한 실험용 툴인 GPT제로(GPTZero)로 화제가 됐다. GPT제로는 난해함과 변수를 기준으로 챗GPT가 작성한 콘텐츠를 구분한다. 챗GPT를 개발한 오픈AI(OpenAI)도 1,000자 이상의 글을 훑어본 뒤 AI의 작성 여부를 판단하는 또 다른 툴을 배포했다. 오픈AI는 거짓 양성반응과 영어를 제외한 언어 유창성 등 한계를 개선할 노력을 펼친다. 영어 기반 데이터가 AI 텍스트 생성 툴이 최우선순위로 둔 것과 마찬가지로 AI 텍스트 감지 툴 대부분 영어권 사용자가 가장 큰 이점을 누리도록 개발됐다.

기사를 읽고 최소한 일부분이라도 AI가 생성한 부분을 알아차릴 수 있는가? 티안은 “AI 텍스트 생성 툴은 기자가 하는 일을 절대로 처리할 수 없다”라고 말했다. 조심스러운 부분이다. 테크 전문 뉴스 웹사이트 씨넷은 알고리즘이 작성한 기사를 여러 편 송출했다. 이후 인간이 AI가 작성한 기사임을 알아차렸다. 당시 챗GPT는 대담함이 없었으며, 간혹 사실이 아닌 내용도 다루어 신뢰할 만한 기사 보도 문제가 되었다. 누구나 자격이 있는 기자라면, 몇 시간 동안 의식적으로 기사 검토와 교정 작업을 한다는 사실을 알 것이다.

체계성 부재, 모방
지금은 AI 텍스트 감지 툴이 어느 정도 도움이 된다. 그러나 메릴랜드대학교 컴퓨터과학 교수 톰 골드스타인(Tom Goldstein)은 앞으로 자연어 처리 기술이 더 정교해지면서 AI 텍스트 감지 툴의 효과가 줄어들 것이라고 본다. 골드스타인 교수는 “AI 텍스트 감지 툴은 인간이 작성한 글과 기계가 작성한 글 사이에 체계성 차이가 존재한다는 사실에 의존한다. 그러나 AI 텍스트 감지 툴 개발사의 목표는 기계가 인간이 작성한 텍스트와 최대한 비슷한 글을 완성하도록 하는 것이다”라고 설명했다. 합성 미디어 감지라는 모든 바람이 사라진다는 뜻인가? 절대로 아니다.

골드스타인은 최근 활용 가능한 불법 복제 방지 표식 방식 모두 AI 텍스트 생성 툴에 주입되는 대규모 언어 모델에 구축하는 방법을 연구한 논문을 작성했다. 전략적인 작업은 아니지만, 흥미로운 의견이다. 챗GPT가 한 문장에서 사용할 확률이 두 번째로 높은 단어를 선택하고는 텍스트 작성 과정 도중 작성할 수 있는 여러 표현과 비교한다는 사실을 떠올려 보아라. 불법 복제 방지 표식은 특정 단어 패턴을 지정해 AI 텍스트 생성 프로그램의 한계를 없앨 수 있다. 따라서 텍스트를 스캔한 뒤 여러 차례 불법 복제 표식 규정이 적용되지 않은 사실을 확인한다면, 인간이 공들여 작성한 글임을 확인할 수 있다.

조지타운대학교 보안 및 신흥 기술 센터(Center for Security and Emerging Technology) 애널리스트 미카 무서(Micah Musser)는 불법 복제 표식 형태가 실제 의도한 것처럼 AI가 작성한 텍스트를 잡아낸다는 의견에 회의적인 견해를 전했다. 악의를 지닌 세력이 불법 복제 표식이 없는 AI 텍스트 생성 툴을 손에 넣으려 하지 않을까? 무서는 AI로 마구 생성한 선동 광고를 억제할 완화 전략을 연구한 논문 작성 작업에 참여했다. 오픈AI와 스탠퍼드 인터넷 관측소(Stanford Internet Observatory)도 연구에 참여해, AI 텍스트 생성 툴 악용 사례와 AI 텍스트 감지 기회의 대표 사례를 설명했다.

논문이 제시한 AI 텍스트를 감지할 한 가지 핵심 아이디어는 메타가 2020년에 연구했던 AI 생성 이미지 감지 방식이다. 메타의 AI 이미지 감지 툴은 모델의 변화에 의존하지 않고, 개발자와 콘텐츠 등록자가 온라인 데이터에 재빨리 몇 가지 변화를 주고는 AI 훈련 과정에 사용한 오래된 대규모 데이터세트의 일부분을 수집한다. 그리고 컴퓨터가 모델이 생성한 결과물에서 변화가 적용된 합성 데이터의 요소를 추적한다.

논문은 처음부터 대규모 언어 모델을 생성하지 않는 것이 AI 텍스트 생성 툴의 악용 사례를 막을 가장 좋은 방법일 수도 있다는 점을 인정한다. 그리고 AI 텍스트 생성 툴의 가치를 낮추는 대신 AI 텍스트 감지 툴을 독특한 상황을 보여줄 수단으로 활용하는 것을 언급했다. 해당 논문에는 “방사선 훈련 데이터를 이용하더라도 합성 텍스트 감지 작업은 합성 이미지나 합성 영상 콘텐츠 감지 작업보다 훨씬 더 어려울 것으로 보인다”라는 내용이 기술되었다. 방사성 데이터는 이미지에서 단어 조합으로 사용 범위를 전환하기 어려운 개념이기도 하다. 여러 가지 픽셀 조합으로 가득 찬 사진과 5개 단어로 조합하여 작성한 트윗 중 AI가 생성한 텍스트를 찾아낸다고 생각해보아라.

인간이 작성한 글만의 고유한 특성을 부여하는 요소가 있을까? 워싱턴대학교 교수이자 앨런 AI 연구소(Allen Institute for AI) 자연어 처리 기술 전문가인 노아 스미스(Noah Smith)는 AI 모델이 영어를 유창하게 구사하더라도 텍스트 생성 의도는 없을 수도 있다는 한계를 지적했다. 스미스 교수는 “AI 텍스트 생성 프로그램이 인간을 혼란스럽게 만들 수 있다고 생각한다. 인간은 쉴 새 없이 유창함의 의미를 의식하는 일이 없기 때문이다. 이제는 유창한 언어 구사도 의식적으로 생각해야 한다”라고 말했다. 앞으로 접하는 미디어가 합성 기술로 생성된 것인지 판단하는 목적으로 AI 툴을 사용할 필요성과 기계가 생성한 것과 같은 글을 작성하지 않도록 조언을 구할 목적으로도 새로운 툴에 의존할 필요성이 똑같아질 것이다.

무작정 특정 표현을 반복하지 않고 임의성을 유지해야 한다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
How to Detect AI-Generated Text, According to Researchers

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다