AI의 영리함, 이제는 비싼 가격으로 돌아온다

By WILL KNIGHT, WIRED US

검색 서비스 스타트업 글린(Glean) 직원인 캘빈 치(Calvin Qi)는 최신 인공지능(AI) 알고리즘을 이용해 기업 서비스와 제품을 개선하는 작업을 좋아한다.

글린은 지메일과 슬랙, 세일스포스 등과 같은 애플리케이션을 통해 검색 툴을 제공한다. 치는 언어 분석 목적으로 새로 개발한 AI 기법이 글린 고객이 훨씬 더 빨리 올바른 파일이나 대화를 찾는 데 도움이 될 것이라고 말한다.

그러나 첨단 AI 알고리즘을 훈련하는 데 수백만 달러를 투자해야 한다. 따라서 글린은 규모가 더 작으면서도 대규모 알고리즘만큼 텍스트에서 많은 의미를 확보할 수 없는 기술 능력이 더 적은 AI 모델을 이용한다.

치는 “예산 규모가 적은 소규모 기술이 구글, 아마존 등 대기업의 기술과 같은 수준의 결과를 제공하기는 매우 어렵다”라고 말했다. 또, 가장 영향력이 큰 AI 모델의 등장은 불가능하다는 점도 언급했다.

AI는 지난 10년간 흥미로운 획기적인 변화를 생성했다. 컴퓨터 프로그램이 복잡한 게임에서 인간을 상대로 승리한 사례와 특정 조건에 따라 도시에서 차를 운전하는 사례, 인간이 말한 명령어에 답변하는 사례, 짧은 명령문에 따라 논리적인 글을 작성한 사례 등이 대표적이다. 특히, 글쓰기는 최근 들어 발전한 컴퓨터의 언어 분석 및 변형 능력에 의존한다.

이처럼 AI가 고도로 발전한 것은 알고리즘에 학습 예시로 더 많은 텍스트를 투입하면서 작업을 처리할 칩을 더 많이 장착한 것을 언급할 수 있다. 이 모든 과정에는 돈을 지출해야 한다.

웹에서 수집한 텍스트를 다량을 투입한 대규모 정확한 시뮬레이션 작업을 거치는 신경망인 오픈AI(OpenAI)의 언어 모델 GPT-3를 생각해 보아라. GPT-3는 엄격한 논리로 다음에 올 표현을 예측 가능한 통계 패턴을 찾는다. GPT-3는 처음부터 기존 AI 모델보다 질문 답변과 텍스트 요약, 문법 오류 수정 등과 같은 작업 능력이 훨씬 더 우수했다. 일반적으로 GPT-3는 이전 버전인 GPT-2보다 1,000배 더 우수하다. 그러나 일부 추산 결과에 따르면, GPT-3 훈련 비용은 약 500만 달러이다.

치는 “GPT-3의 접근성이 더 뛰어나고 비용도 더 저렴했다면, 글린의 검색 엔진 기술 능력이 매우 빠른 속도로 발전했을 것이다. 그렇다면, 지금보다 훨씬 더 강력한 검색 엔진이 탄생했을 것이다”라고 말했다.

“예산 규모가 적은 소규모 기술이 구글, 아마존 등 대기업의 기술과 같은 수준의 결과를 제공하기는 매우 어렵다.”
캘빈 치, 글린

첨단 AI 훈련 비용 인상은 AI의 성능 개발을 모색하는 기업에도 문제가 된다.

댄 맥크리어리(Dan McCreary)는 언어 모델을 이용해 통화 내용을 글로 옮긴 내용을 분석해 위험성이 높은 환자를 찾거나 권고 진료 시설을 소개하는 헬스 IT 기업 옵텀(Optum)의 팀 총괄이다. 맥크리어리는 GPT-3의 1,000분의 1 수준의 언어 모델을 훈련하는 데도 팀의 예산이 금세 부족해지는 수준이라고 말한다. 언어 모델은 특정 작업을 훈련해야 하며, 그 비용은 50만 달러 이상이다. 또, 클라우드 컴퓨팅 기업에 컴퓨터와 프로그램 대여 비용도 지급해야 한다.

맥크리어리는 클라우드 컴퓨팅이 언어 모델 훈련 비용을 약간 인하할 수 있다고 말한다. 그는 “클라우드 공급사가 더 저렴한 AI 모델 구축 비용에 작업한다는 사실을 신뢰할 수 없다”라고 밝혔다. 현재 맥크리어리는 AI 훈련 속도를 높일 특수 칩 구매를 모색 중이다.

AI가 최근 들어 급속도로 발전한 이유는 상당수 학계 연구소와 스타트업이 최신 아이디어와 기법을 다운로드할 수 있었던 덕분이다. 일례로 이미지 처리 작업의 획기적인 발전을 생성한 알고리즘은 학계 연구소에서 개발돼 기존 하드웨어와 공개적으로 공유된 데이터세트를 이용해 개발했다.

그러나 시간이 지나면서 갈수록 AI의 진전이 컴퓨터 성능 강조의 더 빠른 증가와 관련이 있다는 사실이 분명해졌다.

물론, 대기업은 예산과 규모, 연구 측면에서 항상 유리했다. 또, 신약 개발과 같은 여러 업계에는 다량의 컴퓨터 전력을 활용할 수 있도록 두고 있다.

“기술 비용 인상이 혁신을 감소한다고 생각한다.”
크리스 매닝, 스탠퍼드대학교 머신러닝 교수

이제 일부 전문가는 더 나아가 언어 모델 규모 확장에 나서려 한다. 2021년 10월, 마이크로소프트는 엔비디아와 함께 GPT-3보다 두 배 더 큰 언어 모델을 구축했다고 밝혔다. 중국 연구팀은 GPT-3보다 규모가 네 배 더 큰 모델을 제작했다고 주장했다.

AI를 위해 설계된 칩 성능 추적 기관인 ML커몬스(MLCommons) 총괄인 데이비드 칸터(David Kanter)는 “AI 훈련 비용이 절대적으로 인상되는 추세이다”라고 언급했다. 규모가 더 큰 모델은 테크 업계의 여러 영역에서 볼 수 있는 가치 있는 새로운 성능을 발굴할 수 있다는 있다고 생각한다. 이는 테슬라가 자율주행차에 적용할 AI 모델만 훈련하는 자체 칩을 설계하는 이유를 설명한다.

일각에서는 가장 훌륭한 최신 기술 연결 비용 인상이 대기업과 관련 툴을 대여하는 기업만을 위해 기술을 쌓아두면서 혁신 속도를 저하한다는 문제를 지적한다.

AI와 언어 전문 스탠퍼드대학교 교수인 크리스 매닝(Chris Manning)은 “기술 비용 인상이 혁신을 감소한다고 생각한다. 대규모 언어 모델 내부를 다룰 수 있는 인력이 극소수라면, 창의성 탐험 규모가 대대적으로 줄어들 것이다”라고 주장했다.

매닝 교수는 10년 전만 하더라도 자신이 운영하는 연구소에 어떤 프로젝트든 탐색할 수 있는 컴퓨터 자원이 충분했다고 말한다. 그는 “어느 한 박사학 과정 대학원생은 당시 최신 기술이라고 할 수 있는 수준의 작업 성과를 생성했다. 그러나 현재는 AI 언어 모델 훈련 비용이 인상한 탓에 그 창이 닫힌 듯하다”라고 전했다.

그와 동시에 알고리즘 훈련 비용이 인상하면서 더 많은 이들이 AI 알고리즘을 훈련할 더 효율적인 방법을 모색하게 되었다. 기업 수십 곳이 AI 프로그램 훈련과 실행 목적으로 특수 컴퓨터 칩 개발 작업을 한다.

치와 맥크리어리 모두 머신러닝 훈련 효율성 향상 목적으로 설계한 소프트웨어 속임수 개발에 나서는 MIT에서 분할된 스타트업 모자이크ML(Mosaic ML)과 협상했다.

모자이크ML은 MIT의 마이클 카빈(Michael Carbin) 교수와 그의 제자인 조너선 프랭클(Jonathan Frankle)이 개발한 기법을 기반으로 해, 비효율성을 제거하고 비슷한 성능을 구현할 수 있는 훨씬 더 규모가 작은 네트워크를 개발하는 과정을 포함한다. 프랭클은 초기 연구 결과, GPT-3와 같은 대규모 언어 모델 훈련에 필요한 컴퓨터 전력 소모량을 절반으로 줄이면서 개발 비용을 절감할 수 있다고 주장한다.

카빈 교수는 신경망 훈련 성능을 개선할 다른 여러 가지 기법이 있다고 주장한다. 모자이크ML은 많은 부분을 최대한 공개하고, AI 배치 비용을 줄이고자 하는 여러 기업에도 컨설팅 서비스를 제공한다. 한 가지 잠재적인 요소로 정확성과 속도, 비용 등 서로 다른 방법 간의 균형을 측정하는 툴을 언급할 수 있다. 카빈 교수는 “정확성과 속도, 비용을 어떻게 조합해야 하는지 아무도 모른다”라고 말했다.

칸터는 모자이크ML의 기술은 재정적으로 여유로운 기업이 다음 단계로 언어 모델을 발전하도록 도움 주면서 심층 AI 전문가가 없는 기업도 AI를 얼마든지 활용하도록 한다고 말한다. 그는 “알고리즘 훈련 비용을 절감할 수 있다면, 높은 채택률도 보장할 것”이라고 전했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
AI’s Smarts Now Come With a Big Price Tag

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다