깃허브가 출시한 상업용 AI 툴 ‘코파일럿’, 오픈소스 코드 기반으로 제작했다

By GREGORY BARBER, WIRED US

2021년 7월 초, 깃허브가 코드 자동 생성 툴인 코파일럿(Copilot)을 신규 출시하면서 익숙한 코드를 자동으로 생성하는 신기한 기능을 지원하기 시작하자 유명 오픈소스 개발자인 아민 로나처(Armin Ronacher)가 코파일럿을 시범 사용하기 시작했다. 1999년에 생성된 비디오 게임인 퀘이크 3(Quake III)의 소스코드에서 등장한 코드는 수많은 프로그래머 사이에서 악명 높은 코드이다. 정확도가 낮은 아주 기본적인 수학적 요소를 추가한 몇 가지 속임수가 존재하는 탓이다. 매우 형편없는 단축어와 함께 등장한 코드에 ‘젠장’이라는 코멘트가 작성됐다.

따라서 로나처에게는 새로우면서 효율적인 코드 생성 툴로 홍보된 인공지능(AI) 툴인 코파일럿이 생성한 코드가 다소 이상하게 느껴졌다. AI는 저속한 코멘트를 포함해, 모든 코드를 똑같이 복사하고 해킹한다는 아이디어로 작동한다. 로나처는 트위터에 코파일럿이 생성한 코드 화면 이미지를 게재했다. 이후, 로나처의 게시글은 코파일럿의 프로그래머 노력 착취 여부 관련 트위터상에서 분노에 찬 심판의 증거가 되었다.

깃허브가 ‘AI 페어 프로그래머’라고 칭하는 코파일럿은 과거, GPT-3 등 훌륭한 성능을 자랑하는 AI 모델로 알려진 비영리 연구소인 오픈AI(OpenAI)와의 합작으로 탄생한 결과물이다. 코파일럿의 중심은 다량의 데이터를 사용한 훈련이 이루어진 신경 네트워크가 있다. 그러나 코파일럿의 소스는 텍스트가 아닌 세계 최대 개발자의 협력 및 작업 공유 플랫폼인 깃허브 사용자 6,500만여 명이 올리는 수백만 줄로 구성된 코드이다. 코파일럿의 목표는 AI가 코드 패턴을 충분히 학습해, 자체적으로 데이터 프로그램 작업을 하는 것이다. 인간 협력자의 불완전한 코드를 이용해 코드 작업을 끝낼 수 있다. 많은 활용 사례를 통해 코파일럿의 코드 작성 작업 완료가 성공적인 것으로 입증됐다. 마이크로소프트가 2018년에 인수한 깃허브는 개발자를 대상으로 코파일럿 접근권을 판매하고자 한다.

다수 프로그래머에게 코파일럿이 흥미롭게 느껴지는 이유는 코드 작성 작업 자체가 어렵기 때문이다. AI가 사진을 실제 모습과 같은 얼굴로 전환하고, 명령에 대한 반응으로 논리적인 에세이 글을 작성할 능력을 보유했지만, 그동안 코드 작성 능력은 AI로 오랫동안 다루지 않았던 영역이다. 읽었을 때, 어딘가 이상한 AI로 작성한 텍스트는 ‘창의성’이라는 특성으로 받아들일 수 있다. 그러나 코드는 실수를 용납할 수 있는 여지가 적다. 버그는 버그일 뿐이며, 이는 코드가 보안 허점이나 메모리 유출 문제를 지녔을 수 있음을 의미하며, 결과적으로 기능 실행이 정상적으로 작동하지 않음을 나타내기도 한다. 그러나 제대로 된 코드를 작성하는 과정에도 균형이 필요하다. AI 시스템은 단순히 데이터에서 복사한 것과 일치하는 코드를 반복하면서 훈련하는 행위를 통제할 수 없다. 특히, 코드가 저작권 보호 대상이라면 더 어렵다. 저작권 보호 대상에 포함하는 코드는 AI가 생성한 것이 아니라 타인의 작업을 표절하는 것과 다를 바 없다.

깃허브는 코파일럿의 오류가 간혹 발생하는 문제라고 주장했으나 비판 세력은 맹목적인 코드 복사 행위는 일반적인 AI 시스템의 다음과 같은 문제를 폭로한다고 주장한다. 바로 코드를 직접 복사하지 않았더라도 먼저 AI 모델을 훈련하도록 사용해야 했을까? 깃허브는 코파일럿 훈련에 사용한 코드를 정확히 밝히지 않았다. 다만, 공개된 툴 관련 논쟁이 이어지면서 각종 원칙에 지지한다는 의견을 명확히 드러냈다. 누구나 공개적으로 접근할 수 있는 코드는 저작권 문제를 떠나 악용하기 좋다.

“오픈소스를 눈앞에서 비웃기라도 하는 듯하다.”
에블린 우즈, 콜로라도 프로그래머 겸 게임 제작자

코파일럿이 개발자의 코드에 의존한다고 주장하는 일부 개발자는 코파일럿을 사용하기를 바라는 방식에 크게 신경 쓰지 않는다. 코파일럿 관련 트윗으로 화제가 되면서 널리 알려진 콜로라도의 프로그래머이자 게임 제작자인 에블린 우즈(Evelyn Woods)는 “깃허브는 무료 버전과 저작권 보호를 받는 버전으로 코파일럿을 출시했으며, 여러 가지 특성을 혼합해 상업적 이익과 저작권 이익을 위해 무료 버전과 저작권 보호 버전을 모두 판매한다. 오픈소스를 눈앞에서 비웃기라도 하는 듯하다”라고 주장했다.

AI 툴은 오픈소스 프로그래밍의 중심에 있는 오래된 갈등에 산업 단위와 자동화를 불러일으킨다. 코드 작성자는 허가된 라이선스에 따라 자신의 작업을 무료로 공유하고자 한다. 그러나 이윤을 얻을 수 있는 규모의 대기업이 주로 이익을 거둔다. 기업은 신생 스타트업의 자유롭게 사용할 수 있는 코드를 통제하거나 유지 작업을 도움받지 않고 오픈소스 라이브러리를 사용한다. 다량의 데이터 설정에 의존해, 코드 생성 AI 시스템을 유지한다는 사실이 의미하는 바는 모든 사용자의 코드가 상업용 애플리케이션에 재사용될 수 있음을 의미한다.

우즈는 “무료 사용 범위가 확장된 것은 전반적으로 환영한다. 그러나 결국 영세 기업이나 개인의 작업을 대거 악용하면서 대기업이 경제적 이익을 취하는 상황을 보면 씁쓸하다”라고 말했다.

신경 네트워크와 관련, 한 가지 분명하게 밝혀진 사항은 훈련 데이터와 복사본을 재생성할 수 있다는 사실이다. 공동 심사 과정을 거치기 전이며, 오픈AI의 GPT-2의 유사 복제 작업을 검증한 연구 논문 게재 예고 설명 글의 저자인 노스캐롤라이나대학교 컴퓨터 과학 교수인 콜린 라펠(Colin Raffel)의 설명에 따르면, 이러한 위험은 개인 정보나 의료 비밀 정보, 저작권 보호를 받는 코드 등이 포함된 것과 상관없이 존재한다. 라펠 교수 연구팀은 코파일럿의 문제와 비교했을 때, 대규모 텍스트 말뭉치 훈련을 받은 GPT-2 모델의 문제는 사소한 문제라는 사실을 확인했다. 이에, 라펠 교수는 깃허브와 오픈AI가 저작권 제약이 있는 코드로 코파일럿을 훈련한 사실이 놀랍다고 말한다.

깃허브 내부 테스트 과정을 보면, 직접적인 복사 작업은 코파일럿의 전체 작업 중 약 0.1%의 확률로 나타난다. 깃허브는 이를 두고 우선순위로 극복해야 할 문제이지 코파일럿 자체의 내부 결함은 아니라고 주장한다. 경제적 이윤을 내려는 목적을 지닌 모든 기관의 법률 담당 부서가 계속 감시하는 상황을 유도하기 충분하지만, 라펠 교수는 직원이 저작권 제한이 있는 코드를 단순하게 복사하여 붙이는 작업과 다를 바 없다는 점에 주목한다. (변호사가 볼 때는 ‘발생 확률 제로가 아닌 위험’은 그저 ‘위험일 뿐이다) 자동화 여부를 떠나 인간이 법률을 어기는 것이다. 로나처는 코파일럿의 복사 작업 대부분이 상대적으로 피해를 주지 않는다고 말한다. 간단한 해결책을 제시할 수 있는 문제가 반복하여 등장하거나 다양한 코드베이스를 지닌 개발자가 (부적절한 방식으로) 복사한 악명 높은 퀘이크 코드와 같은 변수와 같은 사례가 존재한다. 로나처는 “코파일럿이 재미있는 결과를 생성하도록 할 수도 있다. 코파일럿을 의도한 대로 사용하기만 한다면, 크게 문제가 될 것은 없다고 본다”라고 말했다.

깃허브도 코파일럿 작업에 적용할 수 있는 해결책이 존재할 가능성을 시사했다. 바로 문제가 발생할 때마다 똑같은 코드를 분류해, 프로그래머와 변호사가 상업적으로 저작권 보호 대상인 코드를 사용하지 않도록 조처를 하는 것이다. 라펠 교수는 코파일럿과 같은 시스템 구축은 말로 설명하는 것만큼 간단하지 않으며, 다음과 같이 더 큰 문제가 존재한다는 사실에 주목한다. 저작권에 문제가 되는 코드 복사 행위의 결과가 똑같이 생성되지 않을 때는 어떻게 해야 하는가? 또, 변수가 바뀌거나 대다수 코드가 저작권 침해 사항에 해당하더라도 단 하나의 코드 라인만 다른 방식으로 작성될 때는 어떻게 해야 할까? 다시 말해, 코드를 불법 복제하지 않게 하려고 코파일럿 시스템을 얼마나 변경해야 할까? 코드 생성 소프트웨어 개발이 아직 걸음마 단계에 있는 상황에서 법적 문제와 윤리적 문제의 경계가 분명하지 않다.

보스턴대학교 기술 법률 클리닉 소장인 앤디 셀러스(Andy Sellars)에 따르면, 많은 법률 전문가가 훈련 데이터를 선택할 때, AI 개발이 꽤 광범위한 범위에 있다고 생각한다. 저작권 보호를 받는 코드의 공정한 사용의 핵심은 재사용 과정에서의 대대적인 변화이다. 패러디나 비판, 요약 등 작업을 변경할 방법은 많다. 혹은 법원에서 거듭 발견한 바와 같이 알고리즘 훈련 대상으로 사용하는 행위도 저작권 보호 대상이 되는 데이터의 변경에 해당한다. 한 가지 유명한 사례로 연방 법원이 구글 북스를 대상으로 한 어느 한 출판 기업의 소송을 기각한 사례를 언급할 수 있다. 법원은 도서 스캔 및 텍스트 스니펫 과정을 사용해, 구글이 사용자에게 검색 결과를 제공하는 것이 정당한 사용 사례라고 판단했다. 그러나 셀러스 소장은 AI 훈련 데이터에 활용하는 사례의 정당성은 완전히 정해진 기준이 없다고 덧붙였다.

이어, 샐러스 소장은 책과 예술 작품의 형태로 같은 시스템에 코드를 적용하는 것이 이상하다는 점에 주목했다. 그는 “코드 작성 작업과 문학 작품 창작 작업 간 유사한 점이 거의 없지만, 개발자는 소스코드를 일종의 문학 작품으로 다룬다”라고 언급했다. 그동안 많은 사람이 코드를 문학 작품과 비교했을 때, 공공재와 같은 대상으로 생각했을 수도 있다. 코드 작성으로 달성하는 작업이 작성 과정보다 더 중요할 수도 있다. 그러나 저작권법을 기준으로 보았을 때, 아이디어를 표현하는 방법이 핵심이 된다. 샐러스 소장은 “코파일럿이 한 가지 입력값 훈련과 함께 같은 방식으로 똑같은 결과를 내면서도 그 과정에 포함된 코드를 다르게 보여주는 등 변수와 결과 모두 저작권 보호 대상이 되는 코드와 비슷한 상황에서는 저작권법 적용 대상이 되지 않을 수도 있다”라고 말했다.

상황의 윤리적인 맥락도 문제가 된다. 셀러스 소장은 “깃허브가 개인 코드 개발자의 이익을 중심으로 염두에 둔다고 보장할 수 없다”라고 말했다. 코파일럿은 자신의 작업을 이윤 추구 목적으로 재사용하는 것을 막으려는 의도가 분명한 코드 개발자를 포함한 사용자의 작업에 의존한다. 그와 동시에 더 많은 프로그램 작업을 자동화하면서 코드 개발자의 작업 수요도 함께 줄인다. 이와 관련, 샐러스 소장은 “코파일럿은 코드를 전혀 인지하지 않는다는 사실을 잊어서는 안 된다”라고 강조했다. 코파일럿은 통계에 따른 패턴 일치 작업으로 결과를 내놓는다. 분석 작업과 데이터로 추출한 창의적 작업 모두 인간이 생성한 결과이다. 일부 전문가는 코파일럿이 AI의 데이터를 생성한 이들에게 정당한 보상을 해야 한다는 새로운 메커니즘의 필요성을 강조한다고 주장했다.

깃허브는 코파일럿의 논란 관련 질문에 답변을 거부하면서 필자에게 코파일럿 FAQ 페이지를 안내했다. 사이버 보안 매체 해커뉴스가 연속으로 보도한 기사에 따르면, 깃허브 CEO 낫 프리드만(Nat Friedman)은 개발자가 데이터 훈련 설계를 위한 정당한 사용 관련 프로젝트의 신뢰도에 분노했다고 말하면서 오픈AI의 입장 발표문을 언급했다. 프리드만은 깃허브가 AI와 지적재산권 관련 논쟁에 적극적으로 참여하고자 한다고 작성했다.

로나처는 무료 소프트웨어 옹호 세력이 공정한 사용에 대한 제한이 없는 상황에서 더 광범위한 소프트웨어 무료 공유에 피해를 줄 수 있다는 점을 우려하지 않으면서 코파일럿을 지지하리라 예측한다고 말했다. 그리고, 실제로 일부 세력이 코파일럿을 지지한다고 밝혔다. 그러나 코파일럿이 무료 코드의 공정한 사용 문제를 구체적으로 설명할 의미 있는 법적 문제를 불러일으킬 것인지는 확실하지 않다. 로나처가 지적한 바에 따르면, 코파일럿과 함께 많은 이들이 퇴치하고자 하는 문제는 주로 표준화와 관련이 있다. 그러나 로나처는 자동화가 성가신 일을 대신 처리한다는 점에서는 코파일럿이 흥미롭다고 생각한다. 로나처는 다른 여러 개발자도 무엇이든 유용한 것을 최대한 빠르게 찾아내고 코파일럿이 유용한 코드 공유 과정 자동화에 도움이 되기를 바라며, 이미 가능한 범위에서 허용된 라이선스를 사용한다. 그는 “엔지니어는 평생 실행할 수 있는 기능을 구축하는 데 두 시간 이상 허비해서는 안 된다. 이는 개인적으로 이미 경험한 일이기도 하다”라고 말했다.

그러나 로나처는 여러 어려움을 발견했다. 그는 “평생 무언가를 하는 데 시간을 보냈다면, 그에 대한 특정 대가를 기대할 수 있다”라고 말했다. 로나처가 엔지니어링 총괄로 근무하는 디버깅 소프트웨어 스타트업인 센트리(Sentry) 소속 연구팀은 최근, 마지못해 센트리가 개발한 대다수 허용 라이선스의 권한을 강화했다. 아마존과 같은 대기업이 센트리의 작업을 이용해 경제적 이익을 취할 수 있기 때문이다. AI 애플리케이션 발전과 함께 센트리와 같은 소기업은 더 빠르게 앞서기 위해 준비한다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
GitHub’s Commercial AI Tool Was Built From Open Source Code

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다