본문 바로가기 주메뉴 바로가기 검색 바로가기
구글, 전 세계가 장시간 기다린 ‘챗GPT 대항마’ 제미니 출시
상태바
구글, 전 세계가 장시간 기다린 ‘챗GPT 대항마’ 제미니 출시
구글이 바드 챗봇에 통합된 제미니가 역대 AI 모델 중 가장 뛰어난 능력을 갖추었다고 발표했다. 제미니는 텍스트 이외에도 영상, 이미지, 오디오로도 훈련받았다.
By WILL KNIGHT, WIRED US

잠재적인 위험 우려가 있는 속도로 진행되는 인공지능(AI) 개발을 주제로 한 대화가 줄어들 기미가 보이지 않는다. 오픈AI가 챗GPT를 출시하면서 AI 기술 개발이라는 새로운 경쟁을 촉진하고 1년이 지난 시점에 구글이 자사 검색 엔진을 AI 세계 자리 재확립이라는 의도로 진행한 AI 프로젝트를 공개했다.

구글이 공개한 제미니(Gemini)는 텍스트, 이미지, 영상을 처리할 수 있는 새로운 AI 모델이다. 또한, 구글 검색 엔진이 대중의 마음에 갑자기 자리 잡고는 구글이라는 대기업을 형성한 페이지랭크(PageRank)의 뒤를 이어 구글 역사상 가장 중요한 알고리즘이 될 수도 있다.

제미니 초기 버전은 2023년 12월 6일(현지 시각)부터 구글 챗봇인 바드의 영문 설정 버전에 배포되기 시작했다. 제미니는 170개국과 지역에서 사용할 수 있다. 구글은 12월 13일(현지 시각)부터 구글 클라우드 API를 통해 개발자도 제미니를 사용할 수 있다고 발표했다. 12월 6일, 발표와 동시에 비교적 압축된 버전으로 출시된 제미니는 픽셀 8 스마트폰 키보드의 추천 메시지 문구 제안 기능에도 적용되기 시작했다. 추후 제미니는 생성형 검색, 광고, 크롬 등 구글의 여러 제품에도 추가로 적용될 예정이다. 가장 강력한 성능을 갖춘 제미니 버전은 2024년 중으로 출시될 예정이다. 구글은 이와 관련하여 “성능 완성도가 높은 버전 출시는 신뢰 및 안전 점검 확장을 위해 보류한다"라고 밝혔다.

구글 딥마인드 CEO 데미스 하사비스(Demis Hassabis)는 와이어드와의 인터뷰에서 “제미니 출시는 구글의 중대한 순간이다. 구글은 제미니 성능에 매우 흥분한 상태이다. 또한, 전 세계 사용자가 제미니를 기반으로 여러 시스템을 개발할 것이라는 점에도 매우 기쁘다”라고 말했다.

구글은 제미니를 ‘자연스러운 멀티모달 모델’이라고 설명했다. 멀티모달은 최근 생성형 AI 열풍의 중심이 된 대규모 언어 모델처럼 단순히 텍스트 데이터 사용하여 훈련 과정을 거치지 않고, 이미지, 영상, 오디오도 훈련 데이터로 활용한 AI 모델을 지칭한다. 구글 딥마인드 제품 부사장 엘리 콜린스(Eli Collins)는 제미니 출시 언론 발표 현장에서 “제미니는 구글의 AI 모델 중 규모와 성능이 가장 우수한 모델이다. 게다가 구글의 가장 종합적인 AI 모델이기도 하다”라고 전했다.

구글은 제미니가 규모, 역량 측면에서 가장 우수한 ‘울트라’ 버전과 울트라 버전보다 훨씬 더 규모가 작으면서 효율성은 더 우수한 ‘나노’ 버전, 규모와 역량 모두 중간 수준에 해당하는 ‘프로’ 버전까지 총 세 가지 버전으로 출시되었다고 발표했다.

이제 구글은 챗GPT와 비슷한 AI 챗봇인 바드 기능을 제미니 프로를 기반으로 제공한다고 전했다. 구글은 제미니 프로를 적용한 바드가 더 합리적이면서도 계획된 역량 지원 능력을 선보이는 방향으로의 변화라고 설명했다. 또한, 구글 딥마인드의 연구 목적 생성형 코드 작성 툴인 알파코드(AlphaCode)의 새로운 버전으로 제미니 프로 특별 버전이 공개되기도 했다. 가장 뛰어난 성능을 자랑하는 버전인 제미니 울트라는 2024년, 바드에 통합되면서 클라우드 API를 통해 배포된다.

구글 부사장 겸 바드 총괄 책임자인 시시 샤오(Sissy Hsiao)는 제미니의 멀티모달 역량이 바드의 새로운 기능을 부여하고, 콘텐츠 요약과 집단 아이디어 제시, 작문, 계획 설정 수준을 한 단계 더 향상했다고 말했다. 샤오 부사장은 “제미니가 통합된 바드는 출시된 이후 가장 훌륭한 수준으로 향상됐다”라고 평가했다.
 
[사진=Google]
[사진=Google]

새로운 비전
구글은 제미니가 시각적 정보를 포함하여 문제를 해결하는 능력을 나타낸 몇 가지 데모를 보여주었다. 예시로 누군가가 그림을 그린 모습과 간단한 퍼즐을 생성한 모습, 세계 지도를 포함한 게임 아이디어를 요청하는 모습 등을 담은 영상에 AI 모델이 답변하는 방식을 보여주었다. 구글 연구원 두 명은 제미니가 그래프, 방정식 등이 포함된 연구 논문과 연결된 질문에 답변하면서 과학 연구를 다루는 데 도움을 주는 방식을 보여주었다.

콜린스 부사장은 제미니 프로가 초기 챗GPT의 근간이 되었던 대규모 언어 모델인 GPT-3.5의 역량을 뛰어넘었다고 발표했다. 콜린스 부사장에 따르면, 제미니는 AI 소프트웨어 역량 테스트 시 보편적으로 활용하는 벤치마크 테스트 8가지 중 6가지 테스트에서 GPT-3.5보다 우수한 점수를 기록했다.

구글은 수학, 미국 역사, 법률 등 다양한 주제의 질문으로 언어 모델 역량을 평가할 목적으로 학술 연구원이 개발한 MMLU(Massive Multitask Language Understanding) 벤치마크 테스트에서 제미니 울트라가 GPT-4를 포함한 모든 AI 모델보다 90% 더 높은 점수를 기록했다고 전했다.

콜린스 부사장은 “제미니는 벤치마크 세계 전 영역에서 최고의 경지에 이르렀다. 머신러닝 연구 분야에서 가장 보편적으로 사용하는 언어 벤치마크 테스트 32종 중 30종에서 최고 점수를 기록했다. 구글은 새로운 수준으로 AI 모델 역량을 발전시켰다”라고 주장했다.

현재 가장 뛰어난 역량을 지원하는 챗GPT 버전의 근간이 되는 대규모 언어 모델인 GPT-4는 2023년 3월 초반 출시 당시 전 세계 수많은 사용자의 관심을 끌어모았다. 동시에 일부 연구원이 AI가 인간 지능에 맞설 시점 전망을 수정하는 계기가 되었다. 오픈AI는 GPT-4가 멀티모달이라고 발표했으며, 2023년 9월에는 챗GPT의 이미지, 오디오 처리 기능을 추가했다. 그러나 GPT-4 모델을 텍스트 데이터 이외에 오디오, 이미지, 영상 등으로도 직접 훈련했는지 밝히지는 않았다. 챗GPT는 오픈AI의 생성형 AI 이미지 툴인 DALL-E 2의 도움을 받아 이미지를 생성할 수도 있다.

구글은 제미니의 기능 실행 방식 상세 정보를 어느 정도 보여주는 기술 보고서도 공개했다. 다만, 제미니의 아키텍처, 규모 등 구체적인 정보나 제미니 훈련 시 사용한 데이터 수집 사항 등은 공개하지 않았다.

복수 AI 전문가는 장시간에 걸쳐 비싼 비용 부담이 따르는 강력한 컴퓨터 칩을 이용한 대규모 AI 모델 훈련 과정은 제미니 개발 시 수억 달러 상당의 거액이 지출됐을 가능성을 의미한다고 전했다. 구글은 AI 모델의 새로운 설계 방식 및 새로운 훈련 데이터 조합을 갖출 것이라는 기대를 받았다. 구글은 자사 AI 기술 공개 속도를 높이고, 새로이 AI 개발 노력에 자원을 투입했다. 오픈AI의 GPT를 중심으로 화제가 된 세계에서 관심을 끌기 위한 목적이자 전 세계 AI 분야 선도 기업이라는 지위를 재차 확립하기 위한 시도이다.

앨런 인공지능 연구소(Allen Institute for AI) CEO 출신인 워싱턴대학교 명예교수 오렌 에치오니(Oren Etzioni)는 “AI 개발 경쟁은 일촉즉발의 무기 경쟁과 같은 상황이다”라며, “제미니가 벤치마크에서 GPT-4보다 우수한 점수를 기록했다는 주장을 불신할 이유는 없다. 하지만 오픈AI가 추후 출시할 대규모 언어 모델이 제미니의 성능을 능가할 가능성도 불신할 이유가 없다”라고 진단했다.

에치오니 교수는 제미니와 같은 모델 개발 과정에 수억 달러가 지출되었을 가능성을 추측할 수 있으나 궁극적으로 클라우드를 통해 AI 공급을 장악한다면, 수십억 달러 혹은 수조 달러에 이르는 매출 이익을 기록할 수 있다고 내다보았다.
 

챗GPT와의 경쟁
구글은 챗GPT 기능 실행의 핵심 기법 몇 자기를 개발했다. 하지만 오픈AI가 1년 전, 챗GPT를 출시하기 전까지 AI 챗봇 출시를 서두르지 않았다. 구글은 불쾌한 답변이나 위험한 답변을 생성할 우려를 그 부분적인 이유로 언급했다. 구글은 제미니가 가장 종합적인 기능을 지원한다는 점에서 지금까지 가장 포괄적인 안전 테스트를 마쳤다고 밝혔다.

제미니는 앨런 인공지능 연구소에서 고안한 해로운 모델 명령어를 이용하여 테스트 과정을 거쳤다. 콜린스 부사장은 구글이 외부 연구원과 손을 잡고 제미니의 잠재적 위험성 연구 작업으로 잘못된 행동을 유도한 뒤 취약점을 찾아냈다고 말했다. 콜린스 부사장은 구체적인 사항을 공개하지 않았으나 제미니의 더 뛰어난 역량을 위해 품질과 안전 점검 기준을 높여야 했다고 전했다.

10여 년간 AI 연구 역량 부문에서 경외심을 불러일으키는 기업이 된 구글과 모기업인 알파벳의 제미니를 활용하고자 하는 이는 많다. 전 세계 개발자 수백만 명이 오픈AI의 알고리즘을 바탕으로 다양한 시스템을 개발하고 마이크로소프트가 자사 운영 체제와 생산성 소프트웨어에 오픈AI의 기술을 활용한다. 이러한 가운데 구글은 그동안 불가능했던 수준으로 자사 AI 기술을 향한 집중 수준을 다시 생각하도록 유도한다.

구글은 2023년 5월, I/O 컨퍼런스 현장에서 제미니의 기능 실행 방식을 최초로 발표했다. 동시에 구글은 챗GPT의 인기를 빼앗고, 오픈AI의 기술이 마이크로소프트 빙 검색 엔진의 기능을 제공한다는 위협에 맞서고자 서둘러 구글 검색 엔진에 생성형 AI를 추가했다. 지금도 구글의 전 세계 검색 엔진 시장 점유율은 90% 이상으로 추산된다. 하지만 제미니 출시와 함께 구글은 챗GPT의 대항마를 선보이는 속도를 높인 것으로 나타났다.

제미니 개발을 이끈 구글 딥마인드는 2023년 4월, 구글의 주요 AI 연구 부서인 구글 브레인(Google Brain)과 런던 AI 부서인 딥마인드의 통합의 대응으로 선보일 성과 중 일부분으로 개발됐다. 그러나 제미니 프로젝트는 지난 몇 달간 구글 전체 연구원과 엔지니어의 관심을 끌어모았다. 최근에는 텐서 프로세싱 유닛(TPU)이라는 이름으로 알려진 AI 모델 훈련용 커스텀 실리콘 칩의 업그레이드 버전을 최대한 활용하여 제미니를 훈련했다.

제미니는 구글의 주요 AI 연구소 두 곳의 탄생을 기념하는 이름이자 아폴로 달 탐사 미션 토대를 마련한 미국 항공우주국(NASA)의 프로젝트 제미니(Project Gemini)에서 유래된 이름이다.

AI의 시각적 역량 전문가인 캘리포니아대학교 버클리캠퍼스 교수 알렉세이 에프로스(Alexei Efros)는 구글의 제미니 개발 작업과 함께 선보인 전반적인 접근 방식이 AI 기술 개발 측면에서 유망하다고 평가했다. 그는 “다른 모달리티를 사용하는 AI 모델은 무엇이든 올바른 발전 단계를 향한다는 점이 확실하다”라고 말했다.

에프로스 교수는 제미니가 GPT-4와 마찬가지로 현실 세계의 복잡한 맥락 이해 능력에서 한계를 선보일 가능성이 있다고 본다. 하지만 에프로스 교수를 포함한 다수 연구원이 구글이 개발한 제미니 개발 과정과 관련하여 모든 특성을 알게 될 확률은 낮다. 이에, 에프로스 교수는 “제미니를 비롯한 AI 모델은 개발사가 소유권을 지닌 모델이라는 점에서 문제가 있다. 외부 전문가는 AI 모델의 내부 구성을 정확히 알 수 없다”라고 언급했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT
이 기사를 공유합니다
RECOMMENDED