새로 등장한 AI 언어 모델 ‘엘로더’, 신뢰할 수 있는 텍스트 생성...누구나 활용할 수 있다

By WILL KNIGHT, WIRED US

인공지능(AI) 분야에서 최근 이룬 가장 눈부신 발전은 강력한 성능을 자랑하는 컴퓨터 수천 대와 테라바이트 단위의 데이터를 사내 무료 그래놀라 바와 숙면실만큼 풍부하게 제공하는 테크 업계 대기업의 자원 덕분에 이루어졌다.

그러나 어느 한 신규 프로젝트는 테크 업계 대기업의 풍부한 자원이 필요하지 않다는 사실을 보여주고자 한다. 최근 몇 년간 개발된 서사 AI 알고리즘을 재생산(유용하게 활용될 수도 있다)하는 데 필요한 코드와 데이터, 컴퓨터 전력을 빠르게 제작하는 방식이 활용된다.

엘로더(Eleuther)는 2020년, 오픈AI(OpenAI)가 2020년에 공개한 강력한 언어 알고리즘인 GPT-3와 맞추기 위한 오픈소스이다. GPT-3는 텍스트가 주어졌을 때, 놀라울 정도로 논리성을 지닌 영문 기사를 작성하는 능력을 선보인 바 있다.

엘로더는 어느 정도 GPT-3의 완벽한 능력과 맞추지만, 최근 엘로더를 연구한 연구팀은 새로운 모델이자 가장 발전 수준이 낮은 GPT-3와 비슷한 성능을 지닌 GPT-네오(GPT-Neo)를 공개했다.

대규모 AI 프로젝트를 오픈소스로 두는 것은 AI 프로젝트가 갈수록 테크 업계 대기업에 뿌리내리는 상황에서 기술의 접근성을 높이는 동시에 널리 유포하는 데 도움이 된다. 또한, 핵심 AI 기술 발전을 위한 재정 지원 노력에도 영향을 주며, 반대로 AI 툴이 잘못된 행동을 하거나 잘못 사용될 위험성을 높일 수도 있다.

코넬대학교 컴퓨터 과학 교수 알렉산더 러쉬(Alexander Rush)는 기계의 언어 사용에 초점을 맞춘 AI의 하위 분야인 자연어 처리 기술을 언급하며, “현재, 오픈소스 자연어 처리 기술과 테크 업계 대기업 외부에서 유용한 모델을 생성하는 일에 엄청난 흥미가 있다. 자연어 처리 기술 세계의 경쟁이 이루어지는 것과 비슷한 상황이 펼쳐지고 있다”라고 말한다.

그렇다면, GPT-3는 우주 탐사를 위한 최초의 인공위성인 스푸트니크호와 같은 존재라고 볼 수 있다. GPT-3는 웹에서 수집한 텍스트 내 수십억 개의 단어가 투입된 거대한 인공 신경망으로 형성됐다. GPT-3는 놀라울 정도로 유창하면서 논리적인 언어 구사력을 자랑한다. 다만, 의미가 없고 공격적인 어투의 발언을 뱉어낼 수도 있다. 수십 개의 연구팀과 기업이 GPT-3의 기술을 최대한 활용할 방안을 모색 중이다.

GPT-3 코드는 공개되지 않았지만, 엘로더를 제작한 여러 학계 및 업계의 연구원 수십 명이 엘로더의 작동 방식을 설명하는 논문을 작성 중이다.

엘로더 개발 과정에 참여하지 않은 러쉬 교수는 엘로더 프로젝트가 갈수록 증가하는 자연어 처리 기술을 위한 오픈소스의 가장 인상적인 프로젝트라고 평가했다. 게다가 러쉬 교수는 엘로더가 GPT-3 이후의 가장 강력한 언어 알고리즘으로 등장한다면, 엘로더 연구팀은 자연어 처리 기술 알고리즘 훈련 목적으로 높은 품질의 텍스트 데이터 세트인 파일(Pile)을 신중하게 엄선하고 공개했을 것이라고 말한다.

매사추세츠앰허스트대학교의 컴퓨터 과학 교수 모히트 이어(Mohit Iyyer)는 엘로더의 데이터와 모델을 이용해, 여러 프로젝트 중 유명한 텍스트의 통찰력을 위한 문맥 비판을 분석한다. 이 과정에는 『제인에어』 내용 중, 특정 비평에 인용될 부분을 예측하도록 알고리즘을 훈련하는 과정이 포함된다. 이어 교수는 향후 더 세부적인 언어 이해에 도움이 되리라 예상한다. 그는 “모든 데이터를 하나의 자원에 모아둔 것에 분명히 감사해야 한다”라고 언급했다.

아마도 오픈소스 AI 프로젝트의 가장 큰 문제점은 프로젝트에 필요한 막대한 양의 컴퓨터 전력이다. GPT-3를 훈련할 때, 700만 달러 상당의 클라우드 컴퓨팅 자원이 필요하다. 오픈AI 측은 최근, 첨단 AI 프로젝트에 필요한 컴퓨터 전력량이 2012년부터 2018년 사이에 30만 배 증가했다고 밝혔다.

엘로더 프로젝트 관계자에 따르면, 엘로더는 구글은 물론이고 클라우드 기업 코어위브(CoreWeave) 등이 잉여 컴퓨터 전력을 사용하도록 하는 계획인 텐서플로 리서치 클라우드(TensorFlow Research Cloud)를 통해 기부해, 분배된 컴퓨터 자원을 최대한 활용한다. 엘로더 연구팀은 컴퓨터 전력의 접근 용이성을 위해 AI 계산 작업을 다양한 기계에 분산할 방법을 생성했다. 그러나 엘로더 프로젝트 규모가 커진다면, 얼마나 많은 계산 작업을 충족해야 하는지 확실하지 않다.

오픈AI는 GPT-3가 상용화되리라 확신한다. 2019년 7월, 오픈AI는 마이크로소프트에서 10억 달러의 규모의 투자를 받았다. 그리고, 마이크로소프트는 1년 후, GPT-3 독점 사용권을 취득했다. 오픈AI 측은 총 300여 개가 넘는 GPT-3 프로젝트가 제한된 API 접근 권한을 활용해 진행 중이라고 밝혔다. 프로젝트에 적용되는 제한된 API 중에는 고객 피드백 통찰력을 구상하는 도구와 강조할 부분에서 이메일을 자동 생성하는 시스템, 그리고 끝이 없는 텍스트 기반 모험 게임 등이 포함됐다. 엘로더는 GPT-3 API에 접근하지 않고도 이와 비슷한 도구를 더 쉽게 활용할 수 있도록 만들 것이다.

오픈AI 측은 엘로더 프로젝트 관련 문의에 답변하지 않았다.

엘로더 프로젝트가 부각하는 바는 강력한 AI 시스템에 대한 공개적인 접근을 둘러싼 또 다른 어려움이다. GPT-3과 임의 텍스트를 획득한 그와 비슷한 대규모 언어 모델 때문에 편견을 재생성하거나 폭력적 혹은 차별적 발언을 생성할 수 있다. 또한, GPT-3과 같은 툴이 가짜 뉴스 혹은 사기성 메시지 생성에 악용될 수도 있다. 이러한 이유로 오픈AI는 GPT-3를 전체 공개하지 않는다.

엘로더가 사용하는 데이터 세트는 GPT-3보다 더 다양하며, 온라인 커뮤니티 레딧(Reddit)과 같이 불확실한 텍스트가 포함됐을 확률이 높은 출처를 사용하지 않는다. 개인 AI 연구원 겸 엘로더 공동 창립자인 코너 레이(Connor Leahy)는 엘로더 프로젝트가 “지난 몇 개월간 데이터 세트를 신중히 선택하는 데 최대한의 노력을 하며, 알고리즘 훈련에 사용할 데이터를 확실히 분류했다는 점과 다양한 출처의 데이터를 사용한다는 사실을 모두 확인한다. 또한, 데이터 세트의 단점과 편견 등을 문서로 작성한다”라고 설명했다.

러쉬 교수는 엘로더와 같은 툴의 공개적인 개발이 중요하다고 생각한다. 그는 “폐쇄적인 출처 논의는 확실히 잘못된 방향으로 흘러가게 된다는 사실을 깨달았다”라고 말했다. 동시에 그는 많은 학자가 언어 모델이 잘못된 행동을 하는 방식과 문제의 해결책을 찾기 위한 연구에 관심을 두고 있다는 점에 주목했다. 이어, 그는 “오픈소스 노력은 지금까지 언어 모델 개발 노력 및 진전의 기본적인 요소였으며, 앞으로도 마찬가지일 것이다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
This AI Can Generate Convincing Text—and Anyone Can Use It

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다