챗GPT 기반 검색 엔진 구축 경쟁

By WILL KNIGHT, WIRED US

과거, 구글에서 근무한 적이 있는 머신러닝 전문가인 장 첸(Jiang Chen)은 인터넷에서 열풍을 일으킨 놀라울 정도로 논리적인 답변을 하면서 훌륭한 정보를 갖춘 듯한 오픈AI(OpenAI)의 챗봇 챗GPT(ChatGPT)를 처음 사용했을 당시 챗GPT에 완전히 사로잡혔다.

그러나 챗GPT의 기술력을 둘러싼 강력한 힘은 첸이 똑같은 인공지능(AI) 기술을 이용해 자신이 공동 창립한 스타트업 무브웍스(Moveworks)의 더 나은 검색 툴 개발 작업에 활용하면서 서서히 사라지기 시작했다. 무브웍스는 AI를 사용해 직원이 기술 지원 문서와 인사 관리 페이지 등 정보를 검토하도록 돕는다. 첸이 새로 개발한 AI 검색 툴은 주소와 연락처를 담은 문서를 포함한 각종 사내 문서에서 그 종류를 떠나 유용한 정보를 수집하는 능력이 뛰어나다. 하지만 실제 능력은 아니다. 첸은 “AI는 사실이 아닌 듯한 정보도 그럴듯하게 조합하는 능력이 뛰어날 뿐이다”라고 말했다.

챗GPT를 향한 열광과 챗GPT가 검색 엔진을 재구성할 것이라는 의견 제시가 만연하다는 점을 이해할 수 있다. 챗GPT는 웹과 자체 알고리즘 훈련 당시 사용한 여러 출처에서 수집한 단어 수십억 개를 통해 찾은 정보를 합성하는 방식으로 복잡하면서도 정교한 답을 내놓는다. 챗GPT를 살짝 변경한다면, 기계와 더 유동적인 상호작용 경험을 할 수 있을 것이다.

챗GPT 기술 발전 방식은 기본적으로 검색 엔진이 온라인에서 찾은 신뢰할 만한 정보를 보관한다는 의견과는 어느 정도 상반된다. 이미 웹 자체는 확실하지 않은 정보가 넘쳐나며, 챗GPT는 새로운 거짓 정보를 손쉽게 생성한다. 알고리즘이 직접 사실을 담은 데이터베이스나 링크를 제공하지 않으며, 대신 사실 여부를 떠나 통계적으로 훈련 데이터 내용과 비슷한 듯한 단어 배열을 생성한다는 사실을 강조한다.

챗GPT의 통제 불가능한 특성이 원인이 된 듯한 각종 문제 속에서 웹 검색 시장의 대기업과 일부 스타트업은 AI 검색 엔진 개발을 추진한다. 챗GPT 개발사인 오픈AI에 약 100억 달러를 투자한 마이크로소프트는 검색 엔진 시장에서 2위를 차지한 자사 검색 엔진 빙(Bing)에 챗GPT를 추가했다.

한때 챗GPT와 비슷한 챗봇인 LaMDA를 개발한 구글이 챗GPT의 등장에 서둘러 대응하려는 것으로 관측됐다. 구글은 LaMDA를 기반으로 한 AI 챗봇 바드(Bard)를 공개했다. 그리고 2023년 중으로 이를 기반으로 한 서비스를 대거 출시할 것으로 보인다. 또, 중국 최고 검색 엔진 기업인 바이두는 챗GPT와 유사한 중국어 봇을 개발 중이다.

테크 업계 대기업이 챗GPT의 등장에 긴급 대응하는 가운데, 유닷컴, 퍼플렉시티 AI(Perplexity AI), 니바(Neeva) 등 일부 스타트업은 챗GPT와 비슷한 대화 인터페이스를 제공하는 검색 엔진 서비스를 출시했다.

검색 툴은 챗GPT 형태의 기술을 검색 서비스를 위해 변경하면서 발생할 잠재적 활용 가능성과 문제를 동시에 보여주었다. 언어, AI 전문가인 리차드 소처(Richard Socher)가 개발한 유닷컴은 채팅 인터페이스를 통해 답을 제공한다. 유닷컴의 답변은 인용 정보를 함께 제공해, 사용자가 정보 원출처를 추적하도록 돕는다.

그러나 간혹 AI 모델은 함께 포함되지 않은 정보 출처 여러 개를 결합한다. 예를 들어, 특정 인물과 관련된 질문을 한다면, 동명이인 여러 명의 자서전 정보를 결합한 답변을 제시할 수 있다. 만약, 유닷컴의 AI인 유챗(You Chat)에 필자에 대한 질문을 한다면, 필자의 와이어드 내 직책을 정확히 설명하면서도 동명이인인 델라웨어대학교 교수와 어느 한 전문 예술가의 정보를 함께 제시한다. 주기적으로 검색 기능을 사용한다면, 필자를 포함한 동명이인인 인물 몇 명의 정보 페이지로 돌아갈 수 있다. 그러나 AI 챗봇은 동명이인 여러 명의 정보를 한 명의 정보인 것처럼 제시한다.

챗GPT와 같은 시스템에서 발견할 수 있는 또 다른 문제는 훈련 데이터만을 기반으로 답변을 제시한다는 점이다. AI 모델 전체를 다시 훈련하려면, 데이터 규모와 크기 때문에 천문학적인 비용을 지출해야 한다. 유 챗은 최근 스포츠 경기 결과를 묻자 혼란스러워하는 모습을 보였다. 그러나 현재 뉴욕의 날씨와 같은 정보는 정확히 알려주었다. 소처는 시장 경쟁의 장점을 언급하며, 업데이트 정보 통합 방식을 공개하지 않았다.

“AI만 따로 이용한다면, 절대로 훌륭한 검색 엔진을 완성할 수 없다.”
아라빈드 스리나바스, 퍼플렉시티 AI

소처는 “지금 당장 AI 채팅 인터페이스 다수가 일부 측면에서 검색 경험보다 더 우수하다고 생각한다. 하지만 반대로 검색 서비스보다 훨씬 더 부족한 부분도 많다”라며, “AI 채팅 인터페이스의 모든 문제를 줄이고자 한다”라고 말했다.

과거, 오픈AI에서 근무한 적이 있는 검색 스타트업 퍼플렉시티 AI 창립자 겸 CEO인 아라빈드 스리니바스(Aravind Srinivas)는 챗GPT와 같은 시스템의 최신 정보 업데이트 문제가 AI를 다른 방식으로 결합할 필요성이 있다는 사실을 의미한다고 전했다. 그는 “AI만 따로 이용한다면, 절대로 훌륭한 검색 엔진이 될 수 없다”라고 전했다.

AI 기반 검색 기업 니바에 투자한 적이 있는 그레이록 파트너스(Greylock Partners) 소속 벤처 자본가 샘 모타메디(Saam Motamedi)는 비슷한 채팅 인터페이스 여러 개가 함께 존재할 때, 검색 엔진의 기본 수익 모델인 광고 제공 방식이 확실하지 않다고 밝혔다. 구글과 빙은 검색 질문 내용을 이용해 사용자의 답변 역할을 하는 링크 최상단에 등장하는 광고를 선택한다. 모타메디는 채팅 형태의 검색 인터페이스를 활용할 수 있도록 하려면, 새로운 형태의 광고가 등장할 필요가 있을 것이라고 생각한다. 그러나 채팅 인터페이스에 적합한 광고 제공 방식 자체가 확실하지 않다. 니바는 광고가 없는 무제한 검색 서비스 구독료를 청구한다.

구글과 같은 대규모 검색 엔진 서비스의 챗GPT와 같은 모델 운영 비용도 문제가 될 수 있다. 기업의 머신러닝 알고리즘 구축 비용 절감 지원 기업인 옥토ML(OctoML) 공동 창립자 겸 CEO인 루이스 시즈(Luis Ceze)는 구글 검색 엔진 운영 비용보다 챗GPT 검색 엔진 운영 비용이 10배 더 비쌀 것으로 추산한다. 질문 하나당 복잡하고 거대한 AI 모델 운영이 필요하기 때문이다.

챗GPT 열성 지지 세력의 규모에 그동안 AI 언어 생성 기술에 익숙했던 일부 코드 작업자와 AI 연구원이 놀라워했다. 챗GPT의 핵심 알고리즘인 GPT는 2018년, 오픈AI가 처음 개발하여 이듬해 공개된 GPT-2라는 이름으로 더 널리 알려졌다. GPT-2는 텍스트를 포함하고는 다음 내용을 예측하도록 설계된 머신러닝 모델이다. 오픈AI는 GPT-2가 다량의 텍스트로 훈련 과정을 거친다면, 뛰어난 능력을 입증할 수 있을 것임을 보여주었다. GPT를 최초로 상용화한 기술인 GPT-3는 2020년 6월부터 개발자가 사용할 수 있었으며, 챗GPT가 최근 극찬받은 능력 다수를 완수할 수 있었다.

챗GPT는 개선된 AI 언어 생성 알고리즘을 사용하지만, 챗GPT의 가장 큰 능력 도약은 오픈AI가 인간을 두고 시스템에 만족스러운 작업을 알려주는 방식으로 피드백을 제공한 작업이다. 하지만 기존 텍스트 생성 시스템과 마찬가지로 훈련 데이터에 담긴 편견 재생성과 논리적인 듯하지만, 잘못된 결과를 생성하는 문제를 일으켰다.

뉴욕대학교 명예교수이자 AI 과장 홍보 공개 비판론자인 개리 마르쿠스(Gary Marcus)는 챗GPT가 검색 서비스에 적합하지 않다고 확신한다. 실제로 생성하는 글을 이해하지 못하기 때문이다. 또한, 챗GPT와 같은 툴은 인터넷에 AI가 생성한 검색 엔진 최적화 텍스트가 넘쳐나면서 검색 서비스 기업에 다른 문제를 일으킬 것이라고 확신한다. 마르쿠스 교수는 “모든 검색 엔진이 문제를 일으킬 것”이라고 주장했다.

워싱턴대학교 부교수이자 AI 모델 효율성 향상 훈련 작업을 담당하는 스타트업인 스노켈 AI(Snorkel AI) 공동 창립자인 알렉스 래트너(Alex Ratner)는 챗GPT를 “소프트웨어가 생성할 수 있는 어형 변화 정당화” 대상이라고 칭한다. 다만, GPT와 같은 언어 모델이 새로운 내용을 생성하는 것을 막을 방법을 찾는 데는 시간이 걸릴 것이라고 말한다. 그는 새로운 정보를 이용해 언어 모델을 꾸준히 최신 상태로 업데이트하여 새로운 상태를 유지할 방법을 찾는 작업에는 AI 모델 훈련을 위한 새로운 접근 방식이 포함될 것이라고 본다.

챗GPT와 같은 AI의 문제를 수정한 프로그램을 새로 개발한 뒤 정확성을 입증하는 데 걸릴 시간은 확실하지 않다. AI가 인터넷 사용자의 검색 방식을 급격히 바꾸기 전까지 다소 시간이 걸릴 것이다. 새로운 요리 방법을 생각하거나 연구 보조 역할, 인간의 친구가 될 프로그램 구성 작업 등 다른 활용 사례가 등장하더라도 AI 문제 개선에는 오랜 시간이 걸릴 것으로 보인다. 첸은 “GPT의 등장은 놀랍다. 이에, 무브웍스에서는 챗GPT 등장 전후로 수년간의 상황을 조사하고자 한다. 그러나 챗GPT의 검색 엔진 대체 여부는 다른 문제이다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
The Race to Build a ChatGPT-Powered Search Engine

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다