메타의 오픈소스 Llama, AI 경쟁 우려 유발

By KHARI JOHNSON, WIRED US

2023년 5월, 구글의 어느 한 연구원이 구글의 미래를 우려하는 내용을 익명으로 작성한 내부 문건이 온라인에 유출됐다. 문건에는 구글 경영진이 오픈AI의 텍스트 생성 기술의 경쟁 위협을 두고 언쟁을 벌이지만, 오픈소스 소프트웨어가 훨씬 더 큰 성공을 거두었다고 주장하는 내용이 담겨 있었다.

해당 문건은 주장을 입증할 근거로 메타의 대규모 언어 모델인 Llama를 언급했다. 메타는 초기에 초대장이 있는 연구원에게만 Llama를 개방했으나 단 며칠 만에 4Chan에 유출되었다. 이후 Llama는 Llama를 채택한 프로그래머와 Llama를 기반으로 한 프로젝트를 구축한 이들 사이에서 빠른 속도로 인기를 얻었다. Llama 공개 후 몇 주가 지나자 알파카(Alpaca), 비큐나(Vicuna) 등 챗GPT에 견줄 만큼 뛰어나면서도 노트북에 맞춤화하기 충분한 수준으로 신속하게 변화에 대응한 변이 모델이 여럿 등장했다. 유출된 구글 문건에는 “커뮤니티에 미치는 영향을 더 과장하여 표현할 수 없다. 갑자기 누구나 대규모 언어 모델을 실험하는 것이 가능해졌다”라고 작성되었다.

2023년 7월 셋째 주 메타는 갑자기 자사의 인기 대규모 언어 모델의 두 번째 버전인 Llama 2를 공개했다. Llama 2는 처음부터 오픈소스 모델로 공개돼, 상업적 용도에도 무료로 사용하도록 개방되었다. 메타는 초기 버전보다 데이터 사용량이 40% 증가했으며, Llama 2를 기반으로 개발된 챗봇은 오픈AI의 챗GPT와 비슷한 수준의 텍스트 생성 능력을 구현한다고 주장했다.

챗GPT, 구글 바드, 그 외 최근 배포된 여러 생성형 AI 모델과 마찬가지로 Llama 2도 생성 당시 거액을 투자했을 확률이 놓다. 하지만 메타의 시스템은 개발자와 스타트업, 기타 맞춤 변형 모델을 생성하는 데 관심이 있는 이들에게만 무료로 개방되었다. 메타의 Llama 2는 비교적 더 저렴한 대규모 언어 모델을 제공하면서 중소기업이나 개인 개발자가 신제품과 서비스를 개발하기 수월해질 것이며, 현재 AI 열풍 속도를 한층 더 높일 수도 있을 것이다.

메타가 제공하는 것은 Llama 2만이 아니다. 메타는 AI 스타트업 허깅페이스(Hugging Face), 데이터브릭스(Databricks), 옥토ML(OctoML) 등 고객사를 대상으로 Llama 2 사용을 개방하면서 일부 주요 협력사를 지원한다.

오픈AI에 100억 달러를 투자한 마이크로소프트는 개발자가 클라우드나 윈도에서 사용하도록 Llama 2 다운로드를 지원한다. 2023년 7월, 마이크로소프트 고객사 컨퍼런스에서 마이크로소프트 CEO 사티아 나델라(Satya Nadella)는 흥미롭게도 개발자가 오픈AI 소유 AI 모델과 함께 메타의 오픈소스 AI를 사용하도록 지원하는 방안을 이야기했다. 아마존의 클라우드 사업부인 AWS도 Llama 2 접근을 지원한다.

메타 생성형 AI 부사장 아마드 알다리(Ahmad Al-Dahle)는 첫 번째 Llama 모델 유출이 Llama 2 관련 새로운 전략에서 할 역할 공개를 거부했다.

알다리 부사장은 “메타의 역사를 보면, 메타는 오픈소스를 공개적으로 지지했다”라며, 개발자 사이에서 인기 있는 머신러닝 개발 툴인 파이토치(PyTorch)를 예시로 언급했다. 알다리 부사장은 “오픈소스 AI 모델 관련 커뮤니티 구축의 주요 동기는 연구원 이외에도 대규모 언어 모델 관련 작업과 모델 개선 수요가 많았다는 점이었다”라고 전했다. 알다리 부사장은 이미 Llama 3 개발 작업에 착수했다고 밝혔으나 Llama 2와의 차이점은 구체적으로 설명하지 않았다.

Llama 2는 오픈소스 AI 분야 선두 기업이라는 메타의 신뢰도를 활용하지만, 오픈소스 AI 공개의 모든 측면을 개방성으로 특징지을 수는 없다. 대규모 언어 모델 개발 시 사용하는 훈련 데이터는 공개 자료에 “공개적으로 사용할 수 있는 온라인 출처”라는 설명만 있을 분 모델 생성 과정에서 진행된 작업 관련 추가 상세 정보는 공개되지 않았다.

메타의 Llama 2 라이선스에는 월간 활성 사용자 수 7억 명 이상인 기업이 메타와 별도의 라이선스 합의를 해야 한다는 조건이 있다. 그 이유는 분명하지 않지만, 해당 조항은 AI 시스템을 구축하고자 하는 테크 업계 대기업을 상대로 진입 장벽을 형성한다. 오픈소스 AI 모델은 악성 코드 생성이나 폭력 확산, 범죄 활동이나 학대, 희롱 실행 금지 등 받아들일 수 있는 수준의 사용 정책도 확립되었다. 메타는 Llama 2의 정책을 위반한 사용 사례 대응 계획 문의에 답변하지 않았다.

시애틀 마드로나 벤처스(Madrona Ventures) 투자자 존 투로우(Jon Turow)는 메타의 Llama 첫 번째 모델 배포 제한 전략에서 Llama 2 오픈소스 배포로 전략을 변환하여 대규모 언어 모델을 활용한 새로운 개발 열풍이 실행될 것으로 내다본다. 투로우는 “개발자와 기업가는 자원이 풍부하며, 모두 Llama 2를 최대한 활용할 수 있는 부분을 찾을 것이다”라고 예측했다.

투로우는 메타의 Llama 2 공개 결정이 2007년, 구글이 iOS 견제를 위해 안드로이드 모바일 운영 체제를 공개한 것과 같다고 말했다. 메타는 저렴하면서도 강력한 대체 모델을 제공하여 오픈AI가 개발한 대규모 언어 모델과 같이 특정 대기업 소유 시스템에 맞서면서 메타의 제품, 서비스 개선에 도움이 될 것이라는 아이디어에 영향을 줄 만한 혁신을 촉진할 것이다.

생성형 모델을 포함한 오픈소스 머신러닝 소프트웨어 공개 스타트업인 허깅페이스 AI 연구원 나단 램버트(Nathan Lambert)는 Llama 2는 최초로 챗GPT와 같은 수준을 갖춘 채로 공개된 모델이라고 평가했다. 램버트 연구원은 메타의 Llama 2 공개 범위가 제한적이라는 점에서 진정한 오픈소스라고 생각하지는 않지만, SNS에서 접한 Llama 2의 변형 모델이 많다는 점에 놀랐다. 한 가지 예시로 복잡한 지시 사항을 따르도록 설계된 챗GPT와 비슷한 AI 시스템인 위자드LM(WizardLM) 최신 버전을 언급할 수 있다. 현재 허깅 페이스에서 인기를 얻고 있는 모델은 10종 중 8종은 Llama 2를 바탕으로 개발된 모델이다. 그중 다수는 대화형 텍스트를 생성한다.

램버트 연구원은 “Llama 2 배포가 2023년, AI 분야의 가장 중요한 일이라고 생각한다”라고 언급했다. 램버트 연구원은 오늘날 특정 기업 소유 모델의 이점이 있지만, Llama 2가 대기업 소유 모델을 따라잡고는 조만간 대다수 사용자가 오늘날 챗GPT에 의존하는 대다수 작업을 실행할 수 있을 것으로 내다본다.

램버트 연구원은 Llama 2 배포와 함께 훈련 데이터 문서 부재라는 부분적인 이유 탓에 많은 의문점이 답을 찾지 못한 채로 남게 될 것이라고 말한다. 또한, 메타, 구글, 마이크로소프트, 오픈AI 등 대기업만이 대규모 언어 모델을 이끌 컴퓨터 성능과 인력을 보유한 상태로 남을 것이라고 덧붙였다.

다만, 램버트 연구원은 오픈AI의 전용 소유 접근 방식이 성공했으나 대규모 언어 모델이 투명성 시대로 전환하는 데 성공할 것으로 기대한다. 백악관과 주요 AI 기업 7곳 간의 자발적 합의는 AI 시스템 배포 전 차별, 사회 혹은 국가 안보 위험성 발생 가능성 테스트를 촉구한다.

자발적 합의는 AI 시스템의 법적 책임이라는 갈수록 커지는 의문점과 악의를 지닌 세력이 오픈소스 모델을 이용하기 시작할 것을 우려하는 정치인의 규제 압박이 커지는 사항에 맞서려는 추세이다.

현재 구글 AI 개발팀을 이끄는 AI 연구원인 데미스 하사비스(Demis Hassabis)와 마찬가지로 투로우도 구글을 포함한 주요 AI 기업 여러 곳이 오픈소스 AI 때문에 위협을 받는다는 유출된 구글 문건의 주장을 반대한다. 투로우는 데이터와 인재, 컴퓨터 성능 접근성 모두 계속 테크 업계 대기업의 지배력을 보호할 것이라고 주장한다. 다만, 테크 업계 대기업을 경쟁에서 패배하도록 하는 상황을 막지는 않을 것이라고 덧붙였다.

현재 투로우는 여러 스타트업과 연구원의 Llama 2 활용 방식을 지켜보고, Llama 첫 번째 모델처럼 신속하게 개선될 것을 기대한다. 버로우는 스타트업과 더 광범위한 AI 영역 모두 새로운 가능성을 형성할 것을 기대한다. 투로우는 “오픈소스 AI 모델이 계속 더 개선되는 추세이다. 따라서 초기 AI 모델 개발 선두 기업이 분노할 수 있는 놀라운 수준으로 발전된 모델이 등장할 수도 있다. 하지만 앞으로 어떤 일이 발생할지는 모른다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Meta’s Open Source Llama Upsets the AI Horse Race

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다