![인공지능 글쓰기의 역작용에 대한 우려의 목소리가 나오고 있다. [사진=CASEY CHIN; GETTY IMAGES]](/news/photo/201911/238_224_2657.jpg)
악의적인 목적으로 사용될 수 있다는 우려로 인해 공개를 꺼려왔던 텍스트 생성 인공지능이 모습을 드러냈다.
지난 5일 미국 비영리 인공지능 연구기관인 오픈AI(Open AI)는 올해 2월 개발한 GPT-2라는 모델을 선보였다. 오픈AI는 테슬라 대표 일론 머스크와 페이팔 대표 피터 틸 등이 세운 AI연구 기관이다.
GPT-2를 발표하기 전까지 모든 연구내용을 공개해왔으나 완성 이후 글쓰기 실력이 뛰어나 가짜뉴스 등에 악용될 가능성이 높다는 이유로 감춰져 왔다.
GPT-2는 15억 파라미터를 가진 대규모 번역기반 언어 모델이다. 이 알고리즘은 기본 800만 개의 텍스트 문서로 훈련을 받았고 사용자가 제공한 텍스트 정보에 반응했다. 임의의 문장을 입력하면 맥락을 고려한 종합적인 문장을 스스로 만들어낸다.
GPT-2는 수십억 개의 인공 신경세포인 뉴런과 가상의 신경접합부인 시냅스로 이루어진 디지털 네트워크를 활용해 이코노미스트와 같은 잡지의 글 스타일을 흉내 낼 수 있다. 이 모델은 40기가바이트에 달하는 글을 온라인을 통해 조달한 뒤 계속 학습하고 스스로 강화해 나간다.
기술 전문 외신 더 버지는 ‘GPT-2에게 가짜 헤드라인을 제공하면 뉴스 기사를 쓸 것이다’며 ‘시의 첫 줄을 입력하면, 시 전체를 만들어 낸다고 한다’고 강조했다. 하지만 시스템을 충분히 활용해 보면 모델의 한계가 명확해진다. 특히 한 이야기에서 등장인물의 이름과 속성을 일관되게 사용하거나 뉴스 기사에서 하나의 주제를 고수하는 등 장기적인 일관성을 구현하는 데 취약한 것으로 나타난다.
11월 첫째 주 완성 모델 발표에서 오픈AI 측은 제3자 연구 결과를 인용하면서 "GPT-2가 악용될 수 있다고 지적하면서 이 인공지능 시스템이 정치적ㆍ이념적 상황에서 가짜 선전을 일으키는 데 도움이 될 수 있다"고 밝혔다. 뿐만 아니라 오픈AI는 GPT-2가 소셜 미디어와 같은 온라인 정보 시스템을 압도하면서 일관성 있는 스팸을 대량으로 퍼 나르는 데 사용될 것이라는 두려움도 인정했다.
더 버지에 따르면, 연구소는 자체 연구원들이 GPT-2의 출력을 최대 95% 정확도로 파악할 수 있는 자동 시스템을 만들었지만 이 수치는 '독립형 탐지'용으로는 충분히 높지 않으며, 가짜 텍스트를 자동으로 찾아내는 데 사용되는 인공지능은 인간 판사와 협업해야 한다"고 지적했다.
![Open AI GPT-2 알고리즘을 통해 만들어진 텍스트 [사진 = OPEN AI]](/news/photo/201911/238_199_3356.png)
뉴욕 대학에서 ‘컴퓨터를 활용한 창의성 구현’(Computational Creativity)을 가르치는 앨리슨 패리쉬(Allison Parrish 교수는 "이처럼 겉으로는 진실로 보이는 텍스트를 만드는 것은 재미있는 속임수"라고 말한다. 그러나 심미적인 관점에서 보면 GPT-2는 이전 머신러닝 기법과 큰 차이가 없다고 그녀는 말한다.
2013년, 오리건주의 포틀랜드에 거주하는 컴퓨터 예술가 다리우스 카제미(Darius Kazemi)는 인공지능이 소설을 써줄 수 있을 것이라고 믿었다. 같은 생각을 가진 사람들을 트위터에서 확인을 하고 난 뒤 Github에 저장소(레포)를 설치했다. 이 프로젝트(NanoGenMo: National Novel Generation Month)의 유일한 규칙은 5만 단어 혹은 그 이상의 소설과 최종 소스 코드를 공유하는 것이다.
6년이라는 시간 동안 머신 러닝은 발전을 거듭했다. 수십억 개의 단어로 훈련된 새 머신 러닝 모델은 컴퓨터가 훨씬 더 인간적으로 들리는 텍스트를 만들어 낼 수 있도록 했다. 그 모델은 언어의 통계적 패턴을 따르도록 훈련돼 문법의 기본적인 구조를 배운다.
그 결과, 인공지능은 적어도 문법적으로 완벽하게 읽을 수 있는 문장을 만들어 냈다. 심지어 시스템을 세밀하게 조정해 뉴요커 기사나 러시아에서 만든 듯한 오보도 만들어낼 수도 있기에 이 같은 왜곡에 유의해야 한다.
[참조기사 및 링크]
OpenAI Said Its Code Was Risky. Two Grads Re-Created It Anyway