본문 바로가기 주메뉴 바로가기 검색 바로가기
영어 작성 능력 갖춘 AI, 외국어 학습도 시작
상태바
영어 작성 능력 갖춘 AI, 외국어 학습도 시작
독일과 중국, 이스라엘을 포함한 세계 각지의 스타트업이 GPT-3가 마련한 길을 따르면서 현지 언어에 적합하게 변형한다.
By WILL KNIGHT, WIRED US

지난 몇 년간 기계는 인공지능(AI) 덕분에 통과할 수 있는 영어 스니펫을 개발할 수 있었다. 이제는 영어에서 더 나아가 다른 언어로도 확대 적용된다.

독일 하이델베르크 소재 스타트업인 엘프 알파(Aleph Alpha)는 세계에서 가장 강력한 AI 언어 모델 중 하나를 개발했다. 유럽에서 탄생한 알고리즘에 적합한 엘프 알파의 언어 모델은 영어뿐만 아니라 독일어, 프랑스어, 스페인어, 이탈리아어까지 완벽하게 구사한다.

알고리즘은 컴퓨터가 실제 이해하는 듯한 언어를 다루도록 도움을 준 최근 발전한 머신러닝을 토대로 구축됐다. 알고리즘은 웹에서 학습한 내용을 그려낸 뒤 주어진 주제에 따라 논리적인 기사를 작성하고는 몇 가지 일반적인 지식과 관련된 질문에도 논리적인 답변을 한다.

그러나 질문에 대한 답변은 미국에서 개발한 유사한 프로그램이 생성한 언어 모델과는 다를 수도 있다. 예를 들어, 역사상 최고의 스포츠 구단을 질문하면 엘프 알파는 독일의 유명 축구팀을 말한다. 미국에서 생성된 AI 모델은 시카고 불스나 뉴욕 양키스를 언급할 확률이 더 높다. 프랑스어로 같은 질문을 한다면, AI 모델은 프랑스 인기 스포츠 구단을 말한다. 알고리즘이 문화적 관점에 따라 변하기 때문이다. 엘프 알파는 두 가지 언어를 구사하도록 설계됐다. 즉, 사용자가 특정한 언어로 질문하면, 외국어로 답변을 받을 수 있다는 의미이다.

엘프 알파 창립자 겸 CEO인 요나스 안드룰리스(Jonas Andrulis)는 “변형 AI이다. 유럽에 AI 모델 시스템을 구축할 기술적 능력이 없다면, 사용자가 미국이나 중국에서 생성된 더 수준 낮은 언어 모델을 사용하게 되었을 것이다”라고 설명했다.

수십 년에 걸쳐 단어와 문장의 의미를 이해하도록 기계를 가르치는 데 서서히 진전을 거둔 뒤, 머신러닝은 어느 정도 희망적인 방향으로 발전했다. 다수 스타트업이 서둘러 갈수록 발전하는 AI의 언어 능력을 이용해 큰 이익을 거두고자 한다.
 
[사진=Pixabay]
[사진=Pixabay]

2019년, 미국 스타트업인 오픈AI(OpenAI)가 최초로 뛰어난 성능을 지닌 신규 AI 언어 모델인 GPT-2를 선보였다. 오픈AI는 GPT-2보다 더 뛰어난 성능을 자랑하는 GPT-3를 제공해, 다수 스타트업과 연구원이 API를 통해 선택할 수 있도록 한다. 오픈AI 출신 기업가가 창립한 코히어(Cohere), 앤트로픽(Antrhropic) 등 일부 미국 기업도 GPT-3와 비슷한 툴을 개발 중이다.

이제 미국 이외 중국과 한국, 이스라엘, 독일 등 세계 여러 기업이 일반적인 목적을 지닌 AI 언어 툴을 개발한다. 기업마다 자체적으로 기술을 변경하지만, 모두 똑같은 머신러닝의 발전 사항을 기반으로 AI 언어 모델 개발 노력에 나선다.

유용한 방식으로 언어를 사용하는 AI 프로그램이 급부상한 상황에는 돈이 부분적으로 영향을 미쳤다. 일부만 언급하자면 지능형 이메일 어시스턴트와 유용한 컴퓨터 코드 작성 프로그램, 마케팅 카피 생성 시스템 이외에 무엇이든 언어 구사 능력을 지닌 AI 프로그램으로 생성할 수 있다.
 
“신규 언어 모델이 지닌 놀라운 점은 그저 언어 모델이 찾을 수 있는 모든 글을 읽고 세계가 어떤 방식으로 돌아가는지 자세히 알 수 있다는 사실이다.”
크리스 매닝, 스탠퍼드대학교 교수

기계의 언어 이해 능력 획득은 AI 연구계에 오랫동안 존재한 대대적인 당면 과제였다. 언어는 단어와 개념을 결합할 방법 때문에 사실상 무한한 아이디어와 전망을 이야기할 수 있으므로 매우 강력하다. 그러나 단어의 의미를 해석하는 것은 놀라울 정도로 어렵다. 종종 의미가 모호하며, 모든 언어의 규칙을 컴퓨터 프로그램으로 작성할 수 없기 때문이다. (그러나 일부 프로그램은 언어 규칙 작성을 시도한 적이 있다.)

최근, AI가 장족의 발전을 거둔 사실은 기계가 단순히 웹에 게재된 글을 읽기만 해도 몇 가지 주요 언어 능력을 발전시킬 수 있다는 사실을 의미한다.

2018년, 구글 연구팀은 자연어 이해에 특화된 뛰어난 능력을 지닌 새로운 대규모 언어 모델인 BERT(Bidirectional Encoder Representations from Transformers)를 공개했다. BERT는 머신러닝이 새로이 발전한 언어 이해 능력을 생성하고는 가능성을 탐색할 노력을 촉진할 수 있다는 사실을 입증했다.

이듬해 오픈AI가 웹에서 찾은 다량의 언어를 대규모로 사용한 초거대 언어 모델을 기반으로 탄생한 GPT-2를 선보였다. GPT-2는 대용량 컴퓨터 전력과 일각의 추측에 따른 수백만 달러 상당의 비용, 고도의 공학 능력이 필요하지만, 기계가 지닌 새로운 수준의 이해 능력을 실행하는 것처럼 보였다. GPT-2와 그 이후에 발전한 한 단계 업그레이드된 버전인 GPT-3 모두 주어진 주제의 논리적인 텍스트 문단을 생성한다.

AI 및 언어 전문가인 스탠퍼드대학교 교수 크리스 매닝(Chris Manning)은 “신규 언어 모델이 지닌 놀라운 점은 그저 언어 모델이 찾을 수 있는 모든 글을 읽고 세계가 어떤 방식으로 돌아가는지 자세히 알 수 있다는 사실이다”라고 말했다.

그러나 GPT, 그리고 그와 비슷한 AI 언어 모델은 기본적으로 매우 뛰어난 능력을 지닌 통계로 말을 반복한다. AI 언어 모델은 언어에서 발견한 단어와 문법 형태를 재창조한다. 즉, 웹에서 볼 수 있는 악의적인 출처에서 수집한 비문과 매우 부정확한 사실, 혐오 발언을 없앨 수 있다는 의미이다.

예루살렘 히브리대학교의 컴퓨터 과학 교수 암논 샤슈아(Amnon Shashua)는 앞서 언급한 것과 같은 방식을 기반으로 한 다국어 AI 모델 개발 스타트업의 공동 창립자이기도 하다. 샤슈아 교수는 AI의 상용화 요소를 알고 있으며, 2017년, 인텔에 총 153억 달러 상당의 금액으로 자신이 창립한 기업 모발아이(Mobileye)를 매각했다. 모빌아이는 도로 주행 중 차량의 사물 감지에 AI를 사용하는 데 앞장섰다.

샤슈아 교수가 새로 창립한 기업인 AI21은 지난주에 갑자기 등장한 AI 알고리즘 ‘쥬라기1’을 개발했다. 쥬라기1은 언어와 히브리어를 모두 사용하는 놀라운 언어 능력을 입증한다.

쥬라기1은 시연 당시 주어진 주제에 적합한 문단을 작성하고는 블로그 게시글에 적합한 한 눈에 쉽게 파악할 수 있는 제목을 생각하며 간단한 컴퓨터 코드를 작성하는 등 다양한 능력을 선보였다. 샤슈아 교수는 쥬라기1이 GPT-3보다 훨씬 더 첨단화된 AI 언어 모델이라고 주장하며, 쥬라기의 미래 비전은 자체적으로 수집한 정보를 바탕으로 공통으로 이해할 수 있는 세계를 구축할 수 있는 능력을 갖추는 것이라는 점을 확신했다.

GPT-3, 그리고 인터넷을 재창조하려는 세계 각지의 다양한 노력은 언어마다 다양하다. 2021년 4월, 중국 테크 업계 대기업 화웨이 소속 연구팀은 GPT와 같은 중국어 모델 판구알파(PanGu-α)를 상세하게 다룬 연구 논문을 게재했다. 2021년 5월, 한국 검색 엔진 대기업 네이버는 한국어를 구사하는 자체 AI 언어 모델인 하이퍼클로바(HyperCLOVA)를 개발했다.

칭화대학교의 지에 탕(Jie Tang) 교수는 중국 정부와 업계의 도움을 받아 중국어 모델인 우다오(Wudao, ‘계몽’이라는 의미의 중국어)를 개발한 베이징 인공지능 아카데미(Beijing Academy of Artificial Intelligence) 팀을 이끈다.

우다오 모델은 AI 언어 모델 중 규모가 가장 큰 수준이다. 우다오 모델을 촉진하는 신경망이 클라우드 컴퓨터를 넘어 광범위하게 확산됐다는 의미이다. 신경망의 규모 확대는 GPT-2와 GPT-3이 능력 확대의 핵심이었다. 우다오는 이미지와 텍스트를 모두 활용하여 작동하며, 탕 교수는 우다오를 상용화할 기업을 창립했다. 탕 교수는 “우다오가 모든 AI의 초석이 될 것이라고 믿는다”라고 말했다.

이와 같은 AI 언어 모델 개발 열기는 새로운 AI 프로그램의 능력을 공식적으로 확보한 덕분인 듯하지만, 언어 모델 상용화 경쟁은 향후 발생할 문제 예방책이나 악용 사례 예방 노력보다 더 빠른 속도로 이어진다.

AI 언어 모델과 관련된 가장 큰 우려는 악용 가능성이다. AI 모델이 특정 주제에 따라 신빙성이 있는 텍스트를 다량으로 생성할 수 있어, 일각에서는 악성 리뷰나 스팸 메시지, 가짜 뉴스 등을 쉽게 생성할 가능성을 우려한다.

언어 모델의 거짓 정보 유포 위험성을 연구한 조지타운대학교 연구 애널리스트인 미카 무저(Micah Musser) 박사는 “의도적인 거짓 정보 활동을 펼치는 세력이 최소한 AI 모델 사용 실험에 에너지를 진지하게 투자하지 않는다면 더 놀라울 것”이라고 말했다.

무저 박사는 AI를 사용해 AI가 생성한 거짓 정보를 찾을 수는 없을 것이라고 주장한다. 기계가 트위터에 작성한 글인지 판단할 수 있는 기계에 대한 정보는 충분하지 않다.

그보다 더 문제가 되는 편견도 거대 언어 모델 속에 내재해 있다. 다수 연구원은 중국 인터넷 콘텐츠로 훈련한 언어 모델이 현지 콘텐츠를 구성한 검열 행위를 반영할 것이라는 사실을 입증했다. 또, 여러 프로그램이 혐오 발언과 사상을 포함해 의도치 않게 사용하는 언어의 미묘하면서도 명백한 인종, 성별, 연령에 대한 편견을 발견하고는 재생성할 수 있다.

GPT-3를 비롯해 뛰어난 능력을 갖춘 일반적 목적을 지닌 AI 모델 연구 센터의 수석 연구원인 스탠퍼드대학교 컴퓨터 과학부 퍼시 량(Percy Liang) 교수는 거대 언어 모델은 놀라운 방식이나 예상하지 못한 방식으로 문제를 일으킬 수 있다고 지적한다.

량 교수의 센터 소속 연구원은 자체 거대 언어 모델을 개발해 언어 모델이 실제 작동하는 방법과 문제를 일으키는 방법을 더 깊이 이해하고자 한다. 량 교수는 “GPT-3가 처리할 수 있는 수많은 훌륭한 작업은 언어 모델 설계자도 예상하지 못한 부분이다”라고 언급했다.

AI 언어 모델 개발 기업은 자사의 모델에 접근한 이들을 신중하게 검토하겠다고 약속했다. 샤슈아 교수는 AI21에 윤리위원회를 두고 자사의 언어 모델 사용 사례를 검토할 것이라고 밝혔다. 그러나 다양한 언어 모델이 확산됨과 동시에 접근성이 향상돼, 모든 악용 사례를 잡아낼 것인지는 확실하지 않다.

오픈소스 GPT-3의 경쟁 모델 엘루더(Eleuther) 개발에 참여한 AI 연구원 스텔라 바이더만(Stella Biderman)은 GPT-3와 같은 AI 모델 복제가 기술적으로 그리 어려운 일이 아니라고 말한다. 뛰어난 성능을 지닌 언어 모델을 생성하는 데 존재하는 장벽은 거액의 제작 비용과 머신러닝 전공자를 확보 할 수 있는 이가 줄어드는 것이다. 아마존 웹 서비스와 같은 클라우드 컴퓨팅 플랫폼은 현재 툴에 투자할 자금이 충분하다면 누구나 수월하게 GPT-3와 같은 AI 모델에 필요한 규모의 신경망을 구축할 수 있도록 한다.

탕 교수는 사실을 담은 데이터베이스를 최대한 활용하고 더 많은 훈련을 하기 위한 AI 모델을 자체적으로 설계 중이다. 그러나 탕 교수는 자체 개발 중인 AI 모델이 기존의 AI 언어 모델보다 더 많은 문제를 일으키지 않으리라 충분히 확신하지 못한다. 그는 “지금은 문제가 없을 것이라고 확신하기 어렵다. 언어 모델의 악용, 거짓 정보 및 편견 문제 해결은 AI 연구 학계와 대규모 언어 모델 개발 작업과 관련된 모든 이들에게 주어진 중대한 의문 사항이다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
AI Can Write in English. Now It's Learning Other Languages
이 기사를 공유합니다
RECOMMENDED