메타, Llama 3 뒤 이을 더 강력한 언어 모델 훈련 시작

By WILL KNIGHT, WIRED US

2024년 4월 18일(현지 시각), 메타가 최신 인공지능(AI) 언어 모델인 Llama 3를 출시하며, 누구나 사용하도록 오픈소스로 공개된 가장 강력한 언어 모델이라고 홍보했다. 같은 날 오후 메타 최고 AI 과학자 얀 르쿤(Yann LeCun)은 Llama의 뒤를 이을 더 강력한 언어 모델 개발 작업이 진행 중이라고 밝혔다. 얀 르쿤은 현재 메타 내부에서 개발 중인 새로운 언어 모델이 오픈AI의 GPT-4와 구글 제미니(Gemini) 등 세계에서 가장 폐쇄적인 AI 모델보다 더 뛰어난 능력을 입증할 수 있다고 주장했다.

메타는 Llama 3를 두 가지 버전으로 공개했다. 하나는 80억 가지 변수를, 나머지 하나는 700억 가지 변수를 다룬다고 밝혔다. 르쿤은 전 세계 AI 모델 중 최대 규모를 자랑할 수도 있는 AI 모델이 4,000억 가지가 넘는 변수를 처리하도록 훈련 단계에 있다고 전했다.

르쿤은 생성형 AI에 초점을 맞춘 MIT 콘퍼런스인 이매진 인 옥션(Imagination in Action)에서 “현재 개발 중인 AI는 정교한 개선을 마치려면 오랜 시간이 걸릴 것이다. 하지만 해당 모델은 수개월 후면 다양한 버전으로 등장할 수 있을 것이다”라고 전했다.

메타는 Llama 3 공개에 앞서 Llama 3를 기반으로 한 새로운 어시스턴트인 메타 AI(Meta AI)를 공개하며, 자체 테스트 결과 언어 모델이 비슷한 변수를 처리하는 다른 오픈소스 모델보다 더 낫다는 사실이 입증되었다고 주장했다. 구글, 오픈AI 등 AI 개발에 뛰어든 다수 AI 개발 기업은 자체 개발 모델을 비공개 상태로 유지한다. 반면, 르쿤은 오픈소스 AI 모델이 더 빠른 속도로 발전할 것으로 예상한다고 전했다. 이론상 AI가 더 빠른 속도로 인간과 같은 수준의 지능을 갖추게 될 것이라고 전했다.

르쿤은 소프트웨어 업계의 더 광범위한 영역에서 결과적으로 오픈소스 기술을 채택할 때 경쟁에서 승리한다는 사실을 입증했다고 주장했다. 오픈소스로 개방적인 접근 방식을 택하는 것이 소프트웨어 인프라를 장악한 이유는 개선 사항을 더 빨리 공유하고, 코드를 더 종합적으로 검토하도록 했기 때문이다. 르쿤은 “AI는 코드를 살펴보는 이가 많을수록 더 나은 방향으로 발전한다. 인프라는 오픈소스가 되어야 한다. 오픈소스로 출시해야 더 빠른 속도로 발전한다”라고 말했다.

메타의 오픈소스 AI 전략은 현재의 생성형 AI 열풍 속도를 높이는 데 도움이 되었다. 2023년 7월, 메타가 Llama 2를 출시했을 당시 다수 스타트업과 연구원, 기업가가 실험 후 모델을 바탕으로 다양한 애플리케이션을 개발하도록 훨씬 더 강력한 AI 모델에 접근하였다.

오픈AI의 GPT-4와 구글 제미니 모두 유료 API 가입으로만 접근이 가능하다. 다만, 구글은 2024년 2월, 비교적 규모가 작은 모델인 젬마(Gemma)를 다운로드할 수 있도록 배포했다. 소수 기업이 메타의 선례를 따라 강력한 오픈소스 AI 모델을 공개했다. 2024년 4월 초 스타트업 데이터브릭스(Databricks)의 신규 모델은 현재 개방된 AI 모델 중 가장 강력한 변형 AI 모델로 배포되었다. 메타가 자체적으로 보고한 벤치마크 점수가 정확하다면, 데이터브릭스의 최신 AI 모델보다 Llama 3의 성능이 더 뛰어나다.

르쿤은 AI 모델 공개라는 메타의 전략에는 메타의 막대한 연구, 컴퓨터 자원 개발 비용이 따른다는 점을 인정했다. 2024년 1월, 메타 창립자 겸 CEO 마크 저커버그는 CNBC와의 인터뷰에서 메타가 2024년에는 머신러닝 알고리즘 훈련 시 필요한 GPU를 확보하는 데 수십억 달러를 지출할 계획이라고 밝혔다. 같은 달 메타의 궁극적 목표인 오픈AI와 구글이 주장하였으나 진실성은 확실하지 않은 목표와 마찬가지로 기계가 인간의 지능과 맞먹는 모든 업무 처리 능력을 갖추도록 하는 범용 인공지능(AGI)을 개발하는 것이다.

저커버그는 인스타그램에서 Llama 3 기반 최신 메타 AI 어시스턴트를 왓츠앱, 인스타그램, 페이스북, 메신저 등 메타의 서비스에 통합할 계획을 설명했다.

메타는 Llama 3 출시 소식을 발표하는 내용의 블로그 게시글을 통해 언어 모델 개발 시 사용할 훈련 데이터를 개선하는 데 주력했다고 밝혔다. Llama 3에 주입한 훈련 데이터양은 Llama 2보다 7배 더 많다. 일부 AI 전문가는 메타가 공개한 훈련 데이터 규모 수치를 보았을 때 Llama 3에는 서버 전력을 공급할 때 막대한 양의 에너지가 필요하다는 사실을 짐작할 수 있다고 전했다.

오픈소스 AI의 역량이 증가하면서 일부 전문가는 AI 모델을 사이버 무기나 화학 무기, 생화학 무기를 개발하는 데 악용하는 일이 더 쉬워질 가능성이나 더 나아가 AI가 인간에게 적대적인 모습으로 변질될 두고 우려를 제기했다. 메타는 Llama가 시급한 피해를 초래할 수도 있는 결과물을 내놓지 않도록 보장할 툴을 배포했다.

다른 AI 업계 관계자는 메타의 AI 언어 모델이 실제로 주장한 것처럼 개방적이지 않다고 비판했다. 메타의 AI 모델을 대상으로 한 오픈소스 라이선스가 연구원과 개발자의 개발 활동을 어느 정도 제한하기 때문이다.

비영리 연구 단체 앨런인공지능연구소(Allen Institute for AI) 수석 응용연구 과학자 루카 솔다이니(Luca Soldaini)는 Llama 3 배포 후 발행한 공식 성명을 통해 “갈수록 더 많은 AI 모델이 오픈소스로 공개하는 방안을 더 중요하게 생각하는 상황은 긍정적이다. 하지만 오픈소스 커뮤니티에는 AI 모델의 데이터와 훈련 방식, 로그, 코드, 평가 사항 등 다른 특징의 접근성도 필요하다. 궁극적으로 AI 모델의 집단 이해 속도를 높일 방법이 될 것이다”라고 말했다.

비영리 오픈소스 AI 프로젝트 엘루더AI(EleutherAI)에 참여한 AI 연구원 스텔라 바이더만(Stella Biderman)은 메타의 Llama 2 라이선스가 AI 연구원이 진행할 수 있는 실험을 제한했으며, Llama 3 라이선스의 제한 사항이 더 엄격하게 적용될 것으로 예상한다. 바이더만 연구원은 “메타의 AI 모델 배포 소식은 중요하지만, AI 모델로 할 수 있는 활동 범위가 제한된 것으로 널리 알려졌다”라고 전했다.

AI 모델 라이선스 조건 중 월간 활성 사용자 수 7억 명 이상인 기업은 메타의 특별 라이선스를 요청해야 한다는 조건이 있다. 해당 조건은 메타의 AI 모델이 활성 사용자 수가 많은 인기 프로젝트를 메타의 최대 라이벌로 성장하는 데 도움이 되는 역할을 하는 상황을 막을 조처로 보인다.

하지만 Llama 3는 새로운 AI 실험이 대거 등장하도록 촉진할 확률이 높다. Llama 3를 포함한 오픈소스 AI 모델 저장소 허깅페이스(HuggingFace) CEO 클레멘트 델란지(Clement Delange)는 전 세계 개발자가 개발한 Llama 2의 변형 모델이 3만 개가 넘는다는 사실에 주목했다. 델란지는 “앞으로 Llama 3를 바탕으로 한 변형 모델도 우후죽순으로 등장할 것으로 확신한다. 메타가 촉진한 오픈소스 커뮤니티의 훌륭한 움직임이다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Meta Is Already Training a More Powerful Successor to Llama 3

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다