본문 바로가기 주메뉴 바로가기 검색 바로가기
중국의 챗GPT 라이벌, 단어 감시 필요해
상태바
중국의 챗GPT 라이벌, 단어 감시 필요해
중국 검색 서비스 대기업 바이두가 출시한 AI 챗봇 ‘어니봇’을 향한 온라인 조롱이 이어졌다. 그와 동시에 정부 검열로 통치하는 방화벽이 형성된 인터넷에서의 운영 문제를 직면했다.
By WILL KNIGHT, WIRED US

2023년 2월, 중국 검색 엔진 대기업 바이두(Baidu)가 오픈AI(OpenAI)의 챗GPT(ChatGPT)에 맞설 챗봇 개발 작업 중이라는 소문이 확산되었을 당시 모든 흐름이 완벽한 듯했다. 바이두는 지난 10년간 인공지능(AI)에 거액을 투자했다. 또, 바이두는 마이크로소프트의 빙구글의 검색 엔진 서비스 개선 계획대로 자사의 핵심 검색 엔진에 AI를 최대한 활용했다.

그러나 바이두가 2023년 3월 초, 베이징에서 어니봇(文心一言)을 공개하자 의도한 대로 주목을 받지 못했다.

바이두 CEO 로빈 리(Robin Li)는 출시와 함께 진행된 어니봇 데모 현장에서 일반 상식 질문에 답변하는 모습과 웹에서 검색한 정보를 요약하는 능력, 사전 기록된 이미지 생성 능력, 중국 SNS에 사악한 답변을 생성하는 결과로 이어지자 어니봇이 완벽히 완성되지 않았음을 인정했다. 오픈AI가 어니봇 공개 하루 전 챗GPT의 근간이 되는 AI 기술인 GPT-4의 대대적인 업그레이드 사항을 도입한 것도 어니봇에 대한 관심에 별다른 도움이 되지 않았다.

바이두는 해외 기업의 챗GPT 대상 경쟁에 적용되지 않는 또 다른 어려움을 직면했다. 기본적으로 AI 챗봇이 정보를 구성하거나 거짓을 사실처럼 생성하는 경향, 사용자가 불쾌하거나 부적절한 답변 생성을 유도하는 명령어를 입력할 수 있는 문제를 포함하여 설계하기 어렵다. 그러나 바이두는 중국 정부의 엄격한 온라인 콘텐츠 검열 지침을 따라야 한다.

중국 AI 업계를 연구 중인 카네기 국제평화기금(Carnegie Endowment for International Peace) 펠로인 맷 시한(Matt Sheehan)은 “바이두는 유용한 챗봇 개발과 중국의 표현의 자유 통제에 순응하는 챗봇 개발 사이에서 긴장 관계를 직면하게 될 것이다. 사용자가 검열을 우회하는 속임수를 이용해 중국 정부가 용납하지 않는 표현을 생성하는 범용 챗봇을 생성할 가능성을 회의적으로 본다”라고 말했다.
 
[사진=Pixabay]
[사진=Pixabay]

챗GPT 도입 후 4개월도 지나지 않았을 당시 문화적 현상이 되어 시와 논문 작성 능력, 수학적 질문 답변 생성 능력, 철학적 아이디어와 관련된 의견 제시 능력을 비롯하여 어떠한 주제든 유창한 언어 구사 능력으로 대화를 이어갈 능력을 선보이며 전 세계를 놀라게 했다. 최신 버전은 텍스트는 물론이고 이미지를 입력해도 답변할 수 있다. 오픈AI는 이미지에 답변을 제공할 수 있는 챗GPT가 학술 시험에서 인간보다 더 높은 점수를 받았으며, 이전 버전보다 오류가 줄었다고 밝혔다. 테크 업계에서는 거의 모든 기업이 서둘러 챗봇 적용 전략 고안에 나섰다.

챗GPT와 같은 모델을 둘 때 발생하는 문제는 해결할 수 없다. 마이크로소프트는 오픈AI의 기술을 바탕으로 하는 빙 챗봇 사용을 제한할 수밖에 없었다. 일부 사용자가 챗GPT 사용 시 적용된 보호 조치를 피하고 부적절한 답변을 하거나 통제에서 벗어나거나 사용자의 감정을 주장하는 등 의문스러운 내용을 제시할 방법을 찾아냈기 때문이다.

빙 봇과 챗GPT와 마찬가지로 바이두의 어니봇은 주어진 문장의 다음 단어를 예측하도록 다량의 텍스트로 훈련받은 대규모 언어 모델인 머신러닝 알고리즘을 기반으로 구축됐다. 다량의 텍스트와 충분한 컴퓨터 전력을 결합한 간단한 메커니즘은 매우 놀라울 정도로 인간과 같은 답변을 생성할 수 있다는 점이 입증되었다.

바이두와 오픈AI 모두 인간이 가장 만족스러운 답변 유형을 알릴 피드백을 제공하는 추가 훈련 단계를 활용하였다. 이 덕분에 더 유용한 봇을 생성하는 데 도움이 되었으나 여전히 완벽함과는 거리가 멀다. 대규모 언어 모델이 간혹 조작된 사실을 답변으로 제시하지 않도록 예방할 방법이나 잘못된 행동을 멈출 방법이 분명하지 않다.

중국의 검열을 일삼는 정권은 바이두를 비롯한 여러 인터넷 기업에 특정 웹사이트 접근 권한을 막고, 정치적으로 민감한 주제를 피하도록 요구한다. 중국 정부의 요구에 따라 차단돼야 하는 단어와 문장은 시위 발생 상황에 대응하거나 특정한 사건 발생 도중 신속하게 업데이트된다.

그러나 중국 테크 업계를 연구 중인 조지타운대학교 부교수 제프리 딩(Jeffrey Ding)은 검열 관련 우려가 중국의 대규모 언어 모델 개발 속도 둔화로 이어지지 않은 듯하다고 전했다. 딩 부교수는 바이두가 어니봇의 근간이 되는 어니 언어 모델을 간혹 API를 통해 사용할 수 있도록 했으며, 다수 기업이 어니 언어 모델과 유사한 모델을 제공한다는 점에 주목했다.

바이두는 어니봇의 훈련 데이터 상세 정보를 공개하지 않았으나 중국 인터넷에서 수집했을 확률이 가장 높다. 어니봇이 보유한 데이터 대부분 정부 비판주의 제한 목적 등에 따라 중국의 검열법에 따라 이미 엄선된 상태임을 의미한다.

검열은 더 교묘한 방식으로 중국 챗봇에 영향을 미칠 수 있다. 2021년, 중국 현지에서는 차단된 위키피디아의 중국어 버전 서비스 훈련 알고리즘과 정부 검열 대상이 되는 바이두의 크라우드소스 백과사전인 베이크(Baike)는 검열된 훈련 데이터가 다른 언어가 주어진 AI 소프트웨어의 의미를 크게 바꾼다는 사실을 확인했다.

위키피디아 중국어 버전에서 수집한 데이터로 훈련받은 알고리즘은 ‘민주주의’라는 단어와 가까운 표현으로 ‘안정성’과 같은 긍정적인 표현을 제시했다. 반면, 정부 검열 대상인 베이크의 데이터로 훈련한 알고리즘은 ‘민주주의’라는 의미가 ‘혼란’과 더 가까운 의미라고 제시했다. 중국 정부의 정치적 견해와 더 일치한다. 그러나 챗GPT와 같은 챗봇의 유연성과 훈련 데이터의 정보 재구성 능력이 뛰어나지만, 바이두는 추가 안전 조치를 도입해야 한다.

엇갈린 반응 속에서도 어니봇은 챗GPT의 경쟁 챗봇이 될 수 있는 것으로 드러났다. 어니봇은 현재 일부 사용자만 사용할 수 있다. 어니봇 사용자는 어니봇의 성능에 놀라움을 표했다. 챗GPT는 중국에서 사용할 수 없으나 중국어 대화가 가능하다.

AI 전문가이자 과거, 어니봇에 적용된 머신러닝 일부를 구축하는 데 사용한 기술 개발 작업을 한 적이 있는 캘리포니아대학교 산타바바라 캠퍼스 교수 레이 리(Lei Li)는 바이두가 약 10년 동안 AI 챗봇의 기본 기술 개발 작업을 이어왔다고 말한다. 반면, 마이크로소프트는 빙의 신규 챗봇 핵심 기술과 오피스에 곧 적용될 오픈AI의 텍스트 생성 기능 일부를 두고 라이선스를 부여한다. 마이크로소프트는 오픈AI에 수십억 달러를 투자하고, 오픈AI의 개발 프로그램 단독 사용권을 얻었다.

리 교수는 이야기 생성과 사업 보고서 작성 능력 등 어니봇의 일부 능력에 놀라움을 감추지 못했다. 또, 거짓을 사실인 것처럼 생성하는 문제는 모든 언어 모델이 다루어야 할 문제라고 덧붙였다. 그는 “언어 모델 연구원이 계속 다루어야 할 부분”이라고 언급했다.

위챗에 게재된 어느 한 포스터는 데모로 공개된 어니봇의 능력과 챗GPT의 능력을 비교하며, 어니봇의 중국어 속담 표현 생성 능력과 일부 상황에서 더 정확한 정보를 제공한다는 사실을 발견했다. 예를 들어, 챗GPT는 『삼체(The Three Body Problem)』의 저자인 공상과학 소설가 류츠신(Liu Cixin) 작가의 고향이 허베이성이라는 잘못된 정보를 제공했다. 반면, 어니봇은 류츠신 작가의 고향이 허난성이라고 정확히 답변했다. 챗GPT는 중국에서 접속할 수 없으나 많은 누리꾼이 챗GPT 서비스 접근 방식을 발견했다.

어니봇 테스트 경험이 있으며, 익명을 요청한 어느 한 중국 미디어 기업 임원은 어니봇의 중국어 방언 구사 능력도 훌륭하다고 평가했다. 어니봇은 바이두가 출시 당시 제시간 초기 반응보다 더 낫다는 판단도 전달했다.

중국 테크 업계를 주제로 한 인기 영문 및 중국어 뉴스레터 작성자인 케빈 수(Kevin Xu)는 바이두가 서둘러 데모를 진행하여 다른 중국 테크 기업을 상대로 AI 챗봇 시장에 최초로 진출한다는 점에서 이점을 차지하고자 했을 것이라고 분석했다. 이는 사용자 피드백을 기반으로 어니봇의 능력 개선과 중국 여러 스타트업의 AI 기술 발전 기회를 제공하는 데 도움이 되었다.

바이두는 한때 중국 내 장악력을 지닌 기업이라는 평가를 받았으나 지난 10년간 알리바바와 텐센트, 틱톡 모기업인 바이트댄스의 영향력에 가려졌다. 바이두는 지금까지 10만 곳이 넘는 기업과 90만 명이 넘는 개인 사용자가 어니봇 접근 권한 계약을 체결했다고 밝혔다.

바이두를 포함해 챗GPT 형태의 기술 개발에 나선 다수 경쟁사는 중국 AI 업계 발전을 막고자 하는 미국 반도체 기업 제재로 어려움을 직면할 수도 있다. 최첨단 대규모 언어 모델을 생성하려면, 특수 컴퓨터 칩 수천 개가 필요하다. 현재 바이두는 최첨단 칩보다 비교적 성능이 약한 칩에 의존할 수도 있다. 해당 칩은 중국에서 설계하고 생산한 칩일 수도 있다. 그러나 칩 성능 발전이 계속되면서 바이두를 포함한 다수 중국 기업이 챗봇 프로젝트에 적용할 수 있는 미국 기업과 같은 규모 확장 및 성능 발전 속도를 따라잡는 데 난항을 겪을 것이다.

로빈 리는 어니봇 출시 영상 공개 도중 이어진 미중 갈등을 인지하고 있으나 갈등 상황을 대수롭지 않게 여긴다. 그는 “어니는 미중 기술 경쟁 수단이 아니다. 그러나 바이두 개발자가 생성한 자연스러운 결과는 세계를 바꿀 기술 사용이라는 꿈을 추구한다”라고 말했다. 바이두가 미중 갈등이라는 어려움을 헤쳐 나가더라도 챗GPT와의 비교는 피할 수 없을 듯하다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
China’s ChatGPT Rival Needs to Watch Its Words
이 기사를 공유합니다
RECOMMENDED