오픈소스 AI의 신화

By WILL KNIGHT, WIRED US

챗GPT는 누구나 강력한 인공지능(AI)을 사용할 수 있도록 하였다. 그러나 전 세계에서 가장 유명한 AI 챗봇인 챗GPT의 개발 작업 이면에는 비공개된 채로 보호된 비밀이 있다.

그러나 지난 몇 달간 AI를 공개하려는 노력이 더 빠르게 추진되고 있다. 2023년 5월, 누군가가 메타의 대규모 언어 모델 Llama를 유출하여 외부인도 메타의 AI 모델이 행동하는 방식의 질은 물론이고, 기본 코드에 접근하도록 하였다. 그리고 2023년 7월, Llama 2도 내려받기와 수정, 재사용 모두 누구나 가능하도록 공개되었다. 이후 메타의 Llama는 많은 기업과 기관, 취미로 챗GPT와 같은 다른 기능을 갖춘 툴과 애플리케이션을 개발하고자 하는 이들 누구나 사용할 수 있는 상태가 되었다.

메타는 Llama 2 공개 당시 “메타는 전 세계에 오늘날 AI의 개방적인 접근 방식 지지자 범위는 광범위하다. 연구원은 언어 모델과 언어 모델 개발 기술 과정과 관련된 모든 인간, Lama와 Llama로 이익을 누리는 대상 관련 정책과 관련하여 연구가 필요하다”고 발표했다.

소프트웨어에 누구나 접근하도록 하면서 오픈소스 접근 방식이 투명성을 확인하고, 수십 년이 지나도 보안 수준을 높이는 전략은 AI에도 비슷한 영향을 미칠 것으로 보인다.

Llama 2와 다른 AI 모델의 현실을 조사한 연구 논문은 어떠한 방식으로든 공개되었다고 설명한다. 카네기멜론대학교 소속 전문가부터 AI 나우 연구소(AI Now Institute), 시그널 재단(Sginal Foundation) 소속 연구원까지 복수 연구원은 공개되었다고 분류된 AI 모델에는 몇 가지 주목할 만한 점이 있다고 전했다.

Llama 2는 무료로 내려받기와 수정, 배포가 가능하지만, 기존 오픈소스 라이선스로 다루는 대상이 아니다. 메타의 라이선스는 Llama 2를 다른 언어 모델 훈련 목적으로 사용하는 행위를 금지하며, 개발자가 Llama 2를 일일 사용자 수 7억 명 이상인 앱이나 서비스에 적용할 때는 특별 라이선스를 요구한다.

메타의 Llama 2 사용 조건 통제는 Llama 2가 메타의 기술적, 전략적 큰 이익을 가져올 것으로 기대했다는 의미이다. 예를 들어, 메타가 외부 개발자가 직접 적용한 Llama 2의 변경 사항을 이용할 때, 외부 개발자의 성과로 이익을 누리는 것을 언급할 수 있다.

비영리단체 엘루더 AI(EleutherAI)의 GPT 네오(GPT Neo)와 같이 그동안 일반 오픈소스 라이선스로 공개된 모델은 대부분 전체적으로 더 개방되었다. 그러나 오픈소스 AI 프로젝트가 같은 기반을 얻기는 어렵다.

첫 번째 이유는 발전된 모델 훈련에 필요한 데이터는 종종 비공개 상태이기 때문이다. 두 번째 이유는 AI 언어 모델 개발 시 필요한 소프트웨어 프레임워크는 종종 대기업이 관리한다. 가장 인기 있는 소프트웨어 프레임워크인 텐서플로(TensorFlow)와 파이토치(Pytorch)는 각각 구글과 메타가 유지한다. 세 번째 이유는 대규모 모델 훈련 시 필요한 컴퓨터 전력은 일반 개발자나 기업이 도달할 수 있는 수준보다 많다. 보통 대규모 모델은 1회 훈련 가동 시 수억 달러 상당의 거액이 필요하다. 마지막 이유로 모델을 능숙하게 다루면서 기능을 개선하는 작업에 인간의 노동력이 필요하다. AI 모델 훈련 담당 인력은 대부분 재정이 넉넉한 대기업에서만 채용할 수 있다.

수십 년 만에 등장한 가장 중요한 기술 중 하나인 AI 모델 개발 과정은 오픈AI, 마이크로소프트, 메타, 구글 등 극소수 기업의 부와 권력을 축적하는 결과로만 이어질 것이다. AI가 실제로 세계를 바꿀 수 있는 기술이라면, AI가 더 넓은 범위에서 접근하여 사용할 수 있도록 개발되었을 때 가장 큰 이익을 느낄 수 있을 것이다.

시그널 회장이자 AI 모델의 현실 연구 논문 저자 중 한 명인 메레디스 휘태커(Meredith Whittaker)는 “연구 논문으로 분석한 내용은 개방성이 AI를 누구나 사용하도록 하는 역할만 하는 것이 아니라는 점을 지적한다. 실제로 복수 기업과 기관이 개방된 기술을 최대한 활용하여 중앙화된 권력을 고착화하고 확장할 수 있다는 사실을 보여주었다”라고 말했다.

휘태커는 개바성 신화가 절실히 필요한 AI 규제의 요소가 되기를 바란다고 덧붙였다. 휘태커는 “인간은 독점 권한을 장악한 대기업이 정의하면서 장악하는 기술의 의미 있는 대체 기술의 필요성이 절실하다. 특히, AI 시스템이 보건 복지와 금융, 교육, 직장 등 특정 대중에게 영향을 미칠 수 있는 매우 민감한 영역에 통합된다는 점에서 대체 기술이 절실히 필요하다. 대체 기술이 가능한 조건 형성은 반독점 개혁 등 규제 운동과 공존하면서 지지를 이끌어낼 수도 있을 것이다”라고 설명했다.

대기업의 권력 견제를 넘어서 AI의 개방성을 넓히는 것이 AI 기술의 가장 뛰어난 잠재력을 여는 동시에 최악의 상황을 피할 중요한 방법이 될 수 있다.

최고 수준의 첨단 AI 모델의 역량을 이해하면서 배포 및 추가 발전을 이룰 수 있는 위험성 완화를 원한다면, 전 세계 과학자에게 AI 모델을 개방하는 것이 더 좋을 수도 있다.

불분명함을 통한 보안은 절대로 AI 모델의 코드가 안전하게 실행될 것을 보장하지 못한다. 또, 강력한 AI 모델 개발 작업 보호는 가장 영리한 기술 발전 방식이 아닐 수도 있다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
The Myth of ‘Open Source’ AI

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다