본문 바로가기 주메뉴 바로가기 검색 바로가기
메타, 코딩 버전 Llama 2 공개
상태바
메타, 코딩 버전 Llama 2 공개
코드 라마는 AI와 프로그래밍의 새로운 경험이라는 물결을 불러 일으키면서 메타에도 도움을 줄 것이다.
By WILL KNIGHT, WIRED US

2023년 7월, 메타가 챗GPT의 근간이 되는 모델과 비슷한 수준의 강력한 인공지능(AI) 모델인 Llama 2를 공개했을 당시 개발자와 스타트업, 연구원 모두 1년 가까이 계속 관심을 보이던 AI를 다루도록 하였다.

그리고 2023년 8월 24일(현지 시각), 메타는 프로그래밍 작업용 AI 모델인 코드 라마(Code Llama)를 개발했다. 코드 라마 배포는 AI 보조 코딩의 맛을 보게 될 개발자가 더 증가한다는 의미이다. 또한, AI를 소프트웨어에 삽입할 새로운 방법을 제공하기도 한다. 게다가 메타가 오픈 AI 툴의 가장 중요한 공급사라는 입지를 더 확고히 다지는 데도 도움이 될 수 있다.

AI 코딩을 연구한 적이 있는 스탠퍼드대학교 박사후 연구원 디팍 쿠마르(Deepak Kumar)는 “메타가 커뮤니티에 중요한 AI 툴을 배포한다는 사실이 흥미롭다”라며, 코드 라마의 핵심에 있는 신경 네트워크의 변수를 언급했다.

쿠마르는 메타가 정식 배포한 언어 모델인 Llama 2 출시가 대규모 언어 모델의 행동과 변경 방식 논의에 주력한 커뮤니티 형성으로 이어졌다고 말했다. 쿠마르는 “Llama 2는 구글이나 오픈AI의 비공개 모델과 비교했을 때 AI 모델의 내부 작업을 정확히 보여주는 비교적 유연한 전략을 택했다”라고 말했다.

쿠마르는 개발자가 코드 라마를 이용해 새로운 애플리케이션을 개발할 확률이 높다고 말한다. 예를 들어, 코드 구문을 추천하기 전 다양한 추가 안전 확인 작업을 시행하는 프로그래밍 보조 툴을 개발할 수도 있다. 쿠마르는 앞서 자체 연구를 통해 AI 어시스턴트 사용 시 간혹 보안 수준이 낮은 코드를 생성할 수 있다는 사실을 조사했다. 쿠마르는 코드 라마 배포 소식이 특별히 코딩 전문 지식을 갖춘 어시스턴트 개발 동기를 부여할 수 있다고 말했다. 이어, “코드 라마를 바탕으로 모든 툴을 개발할 수 있다”라고 말했다.
 
[사진=Freepik]
[사진=Freepik]

일리노이대학교 어바나 샴페인 캠퍼스 프로그래밍 부교수인 타리아 링어(Talia Ringer)는 코드 라마가 학술 연구의 귀중한 툴이 될 것으로 예상했다. 링어 부교수는 “현재 연구 목적으로 Llama 모델을 사용하는 학생을 알고 있다. AI 기반 코딩이라는 작업 특성을 고려해, Llama를 사용하는 학생이 코드 모델에 특별한 관심을 보였다”라고 전했다. 다만, 링어 부교수는 훈련 시 사용한 데이터도 공개될 수 있다고 생각하는 것이 이상적이다. 이에, 링어 부교수는 “대규모 언어 모델 연구 시 종종 간과하는 사항이다”라고 언급했다.

프로그래밍은 최근 AI의 발전에 이미 큰 영향을 미친 영역 중 하나이다.

2021년 5월, 마이크로소프트 계열사인 깃허브는 사용자가 작성한 코드의 첫 줄을 바탕으로 이어서 작성할 코드 구문 자동 추천 기능을 갖춘 코딩 프로그램용 플러그인인 ‘코파일럿(Copilot)’을 출시했다. 코파일럿은 오픈AI가 개발한 챗GPT의 근간이 되는 대규모 언어 모델인 GPT 버전을 사용한다. 대규모 언어 모델은 개발자를 위한 깃허브 스토어에 등록된 코드를 사용하여 추가 훈련을 이어간다. 또한, 개인 코드를 의견으로 제시하도록 계약 기관을 채용하기도 한다.

깃허브는 자사 AI 모델 훈련 데이터에 오픈소스 코드를 일부 사용하여 피소됐다. 온라인 코딩 플랫폼 레플릿(Replit) CEO 암자드 마사드(Amjad Masad)는 메타가 훈련 데이터 문제의 복잡함을 피하고자 훈련 데이터양을 제한할 확률이 높다고 보았다. 코파일럿은 매달 개인 사용자에게는 월 10달러, 기업 사용자에게는 월 19달러를 청구한다.

코파일럿이 개발자 세계에도 타격을 주었다는 사실은 분명하다. 2023년 6월, 깃허브가 공개한 데이터에 따르면, 코파일럿을 사용한 개인 개발자는 100만 명, 기업 사용자는 20만 명을 넘어섰다. 깃허브의 자체 연구로도 코파일럿이 코드 작성자의 작업 속도를 높이면서 생산성을 30% 더 높인다고 전했다.

메타는 코드 라마 두 가지 버전을 공개했다. 하나는 파이썬 코드를 생성하도록 설계된 버전이며, 나머지 하나는 자연어 명령에 의존하여 코드 작성 작업을 하는 프로그램 버전이다. 또한, 세 가지 모델 크기를 생성할 수도 있다. 규모가 가장 작은 모델은 GPU 한 대로 가동할 수 있다.

메타는 코드 라마가 공개 도메인의 코드로 훈련 과정을 거쳤다고 밝혔다. 또, 코드 라마는 코딩의 가장 보편적인 벤치마크인 휴먼이벌(HumanEval)모스틀리 베이직 파이썬 프라블럼스(Mostly Basic Python Problems)에서 기존 오픈소스 코딩 모델보다 성능이 더 우수하며, 챗GPT와 비슷한 수준이라고 전했다.

마사드는 코드 라마가 코파일럿의 대체 툴이 될 것으로 예상하지 않는다. 코드 라마의 훈련 데이터가 비교적 더 제한되어 최종 코드 생성 능력도 코파일럿보다 더 제한될 확률이 높기 때문이다. 다만, 코드 라마가 출시되면서 개발자가 정보 검색을 위한 웹 브라우저 작업이나 항공권 예약 혹은 식사 주문용 API 사용과 같은 유용한 작업을 처리하는 에이전트를 실험할 기회를 줄 것이라는 점은 인정했다. 마사드는 “AI 기반 코드 생성이 매우 흥미로운 영역이라고 생각한다. 자연어 지시 사항을 입력할 수 있는 곳에서 상호작용하고, 데이터를 압축할 수 있는 모델은 세계에 도움이 될 흥미로운 일을 처리한다”라고 말했다.

코드 라마 출시 소식은 메타에도 이익이 될 수 있다. 메타는 챗GPT나 AI 기반 검색 엔진이 없으나 많은 개발자와 기업, 학계를 위한 무료 AI 공급사라는 지위를 확립하면서 생성형 AI 활용 경쟁에서 이점을 얻을 수 있다. 메타는 2023년 5월, 누군가가 Llama 초기 버전을 웹에 유출하자 개방적인 태도를 채택했을 수도 있다.

Llama 2나 코드 라마 모두 무제한 상업적 사용을 허용하는 정식 오픈소스 소프트웨어로 배포되지 않았다. 메타의 라이선스 조건에 따라 사용자는 월간 활성 사용자 수 7억 명 이상인 앱이나 서비스에만 Llama 2나 코드 라마를 통합할 수 있다.

2023년 8월 발표된 어느 한 연구 논문은 AI 툴 배포 시 해당 툴 개발 작업을 지원한 기업이 이익을 얻는다고 주장했다. 그 예시로 개발 작업을 지원한 기업이 개발 과정에 참여한 연구팀을 자사 수단으로만 두고, 기업이 직접 대대적으로 활용하고자 하는 새로운 아이디어를 연구팀에게 전달하는 방식을 언급할 수 있다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Meta Just Released a Coding Version of Llama 2
이 기사를 공유합니다
RECOMMENDED