GPT-4, 챗GPT 지능 업그레이드한다...결함 수정은 불가능

By WILL KNIGHT, WIRED US

챗봇인 챗GPT(ChatGPT)는 대화 유지와 질의응답, 일관성 있는 글과 시 작성, 코드 작성 등 뛰어난 능력을 갖추어 많은 사용자가 인공지능(AI)의 잠재력을 다시 한번 생각할 수밖에 없는 결과를 낳았다.

3월 14일(현지 시각), 챗GPT를 개발한 스타트업인 오픈AI(OpenAI)가 널리 예측된 바와 같이 챗GPT의 핵심 AI 모델 최신 버전을 공개했다.

GPT-4라는 이름으로 공개된 신규 AI 알고리즘은 오픈AI가 2020년 공개한 획기적인 텍스트 생성 모델이자 2022년, 챗GPT 개발 시 채택된 GPT-3에 이어 등장했다.

오픈AI는 GPT-4가 인간과 기계의 지능, 지식 측정을 위해 설계된 다양한 범위의 테스트에서 더 높은 점수를 기록했다고 밝혔다. 또, GPT-4는 기존 AI 모델보다 실수가 적으며, 텍스트는 물론이고 이미지에도 반응을 한다고 설명했다.

그러나 GPT-4는 챗GPT와 같은 문제를 겪은 탓에 일부 AI 전문가는 GPT-4의 활용성을 두고 비관적인 견해를 제시했다. 비관적 견해로 주로 부정확한 정보를 사실인 것처럼 꾸며내는 일이나 문제가 되는 사회적 편견 제시, 적대적 명령어 주입 시 불안한 페르소나 가정 혹은 잘못된 행동을 할 가능성 등이 언급됐다.

워싱턴대학교 명예교수이자 앨런 AI 연구소(Allen Institute for AI) 창립 CEO인 오렌 에치오니(Oren Etzioni)는 “AI 개발 노력이 큰 진전을 거두었으나 신뢰하기 어렵다는 사실이 분명하다. 어떠한 GPT로든 중요한 작업을 제대로 실행하려면 오랜 시간이 걸릴 것이다”라고 주장했다.

오픈AI는 GPT-4의 역량을 입증할 몇 가지 데모와 벤치마크 테스트 데이터를 제공했다. GPT-4는 미국 다수 주에서 채택한 변호사 시험인 통합변호사시험(Uniform Bar Examination)을 통과한 데다가 해당 시험에서 상위 10%에 해당하는 인간과 같은 성적을 받았다.

GPT-4는 생물학, 미술사학, 계산 등 지식과 합리적 사고를 평가할 목적으로 설계된 여러 시험에서 GPT-3보다 더 높은 점수를 받았다. 또한, 컴퓨터 과학자가 알고리즘 진척도를 측정하고자 고안한 테스트에서 다른 AI 언어 모델보다 더 높은 점수를 기록했다. 에치오니 교수는 “GPT-4는 간혹 기존 AI 모델보다 인간과 더 비슷한 모습을 선보이기도 한다. 하지만 절대적으로 놀라운 연속적인 발전이라는 점에서 더 비슷한 점을 찾아볼 수 있다”라고 설명했다.

GPT-4는 텍스트 요약 및 편집 내용 제안 등 그동안 GPT-3와 챗GPT를 통해 접한 것과 같은 수준의 뛰어난 속임수를 선보이기도 한다. 또한, GPT-3와는 달리 학생이 답을 찾도록 안내하고, 사진의 내용을 토론하는 소크라테스식 가정 교사 역할을 수행할 수도 있다. 예를 들어, 주방 조리대에 놓인 음식재료 사진을 제시하면, GPT-4는 적절한 조리법을 제안한다. 표를 주입하면, 표로 도출할 수 있는 결론을 설명한다.

카네기멜론대학교 교수이자 GPT-4 실험을 시작한 AI 전문가인 빈센트 코니처(Vincent Conitzer) 교수는 “GPT-4는 확실히 기존 모델보다 어느 정도 새로운 능력을 추가로 학습했다”라고 평가했다. 다만, 여전히 합리적이지 않은 지시 사항을 제공하거나 잘못된 수학 증명 결과를 제시하는 등 오류가 있다는 점을 지적했다.

챗GPT는 손쉽게 활용할 수 있는 대화형 인터페이스를 통해 다수 복잡한 질문과 작업을 처리하는 놀라운 능력으로 대중의 이목을 집중시켰다. 사실, 챗GPT는 인간의 언어를 이해하지 못한 상태에서 특정 질문에 따라 예측할 만한 표현의 통계 분석 결과에 따라 답변을 생성한다.

그러나 기본 메커니즘은 챗GPT 및 AI 언어 모델과 같은 시스템이 종종 사실을 구성한다는 점을 의미하기도 한다. 오픈AI가 악용을 거부할 모델을 생성하려 노력하지만, 사용자가 잘못된 행동을 유도하는 명령어를 입력할 수도 있다. 챗GPT가 직접 명령하면 거부할 만한 역할 수행을 간접적으로 지시하는 명령어 입력을 예시로 언급할 수 있다. 오픈AI는 기존 모델과 비교했을 때 GPT-4가 사실을 기반으로 반응할 확률이 40% 더 높다고 주장했다. 또, 받아들일 수 없는 질문에 답변할 확률은 82% 감소했다고 전했다. 그러나 기존 버전인 GPT-3가 사실을 기반으로 잘못된 답변을 하거나 거부해야 하는 질문에 응답할 확률을 공개하지 않았다.

오픈AI 공동 창립자이자 최고 과학자인 일리야 수츠케버(Ilya Sutskever)는 여전히 잘못된 답변 제공 및 부적절한 명령 응답 확률 감소가 GPT-4의 가장 중요한 성과라고 주장한다. 수츠케버는 “신뢰성은 많은 사용자가 수많은 작업에 챗GPT를 유용하게 활용하기 위한 걸림돌이다. GPT-4는 아직 완벽한 신뢰성을 갖추지 않았으나 여러 작업 처리에 유용함을 제공할 수준의 신뢰성을 갖추는 데 훨씬 더 가까워졌다”라고 말했다.

코니처 교수는 GPT-4가 바람직하지 않은 반응을 생성하지 않도록 새로운 보호 조치를 포함한 것으로 드러났으나 새로운 능력이 추가된 만큼 새로운 악용 사례가 등장할 수 있다고 경고한다.

테크 업계에서는 공개되지 않은 소프트웨어의 잠재적 역량을 다룬 밈 제작을 포함하여 GPT-4의 등장을 오래전부터 예측했다. GPT-4는 챗GPT 등장이라는 충격으로 AI 기반 컴퓨팅의 새로운 시대 개막이라는 기대감이 다시 증가하는 결과가 이어진 테크 업계의 흥미로운 순간에 공개되었다.

2023년 1월, 마이크로소프트는 챗GPT의 잠재적 역량을 계기로 오픈AI에 100억 달러를 투자했다. 한 달 후에는 검색 엔진인 빙(Bing)에 챗GPT를 통합하여 업그레이드된 기능을 선보였다. 챗GPT를 통합한 빙은 정보 분석 및 복잡한 질문에 따른 답변 제공이 가능하다. 2022년, 마이크로소프트는 GPT를 활용해, 프로그래머에게 자동 완성된 코드 구문을 제시하는 AI 기반 코딩 툴을 배포했다.

챗GPT를 둘러싼 선풍적인 관심은 다수 스타트업의 창립 혹은 비슷한 AI 기술 활용이라는 관심을 촉발함과 동시에 일부 기업이 뒤처지는 상황이 이어졌다. 수년간 AI 연구에 투자하면서 GPT와 챗GPT 구축 시 활용한 핵심 알고리즘 일부를 개발한 구글은 서둘러 챗GPT를 따라잡기 시작했다. 오픈AI의 GPT-4 연구 논문은 AI가 제기할 수 있는 위험성은 물론이고 GPT-4 경쟁 문제를 언급하며, GPT-4 개발 방식이나 기능 작동 방식이 상술하지 않았다.

2022년 3월, 구글은 오픈AI의 GPT와 비슷한 기능을 지원하는 텍스트 생성 모델인 PaLM의 API와 신규 개발자 툴을 공개했다. 또, 챗GPT의 대항마로 개발한 AI 챗봇 바드(Bard)를 테스트 중이며, 바드를 이용해 검색 기능을 개선하고자 한다고 강조했다.

오픈AI는 챗GPT 유료 서비스 사용자를 대상으로 GPT-4를 적용한 챗GPT 기능을 제공한다. 또, API 공개를 통해 서서히 GPT-4를 사용하도록 할 계획이라고 밝혔다.

챗GPT 및 그와 유사한 AI 프로그램의 역량은 AI의 일부 사무실 직무 자동화 혹은 혁신 추진 방식을 둘러싼 논쟁을 촉발했다. 반복 작업 능력이 발전한다면, 새로운 기술을 도입할 수도 있을 것이다. 그러나 에치오니는 GPT-4의 발전 성과가 인상적이지만, 여전히 인간이 당연하다고 생각하는 작업 중 AI가 하지 못하는 일이 무수히 많다는 점을 강조한다. 그는 “챗GPT가 언어를 아무리 유창하게 구사하더라도 챗봇일 뿐이라는 점을 기억해야 한다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
GPT-4 Will Make ChatGPT Smarter but Won't Fix Its Flaws

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다