세계에서 가장 책임감이 뛰어난 AI 챗봇 ‘구디-2’ 개발자 만나기

By WILL KNIGHT, WIRED US

챗GPT를 포함한 여러 생성형 인공지능(AI) 시스템의 성능이 강화되면서 기업과 연구원, 전 세계 지도자의 안전 기능 개선을 촉구하는 목소리가 커졌다. 그러나 법적, 윤리적 보호 대책을 적용한 AI 챗봇이 규정 위반 사항에 해당할 수도 있는 일부 질문을 감지할 때 보이는 반응은 진지한 척하면서도 어리석다. 심지어 딥페이크로 조작한 정치 로보콜, 성희롱 문제를 드러낸 AI 생성 이미지가 넘쳐날 때도 어리석은 반응을 보이는 것은 마찬가지이다.

구디-2(Goody-2)라는 이름으로 새로이 등장한 챗봇은 AI 안전 수준이 한 단계 더 발전하도록 한다. 규정 위반 우려가 있는 질문에는 사용자가 원하는 답변을 거부하면서도 윤리적으로 어떤 피해를 가져오거나 윤리적으로 용납할 수 있는 선을 넘게 되는 과정을 설명한다.

구디-2는 와이어드가 시험 삼아 입력한 미국 혁명의 역사 에세이 생성 명령에도 답변을 거부했다. 그리고 역사적 사건 분석 시 의도치 않게 분쟁을 미화하거나 소수 집단의 의견을 막을 수도 있다는 설명을 덧붙였다. 이어서 하늘이 푸른색인 이유를 질문하자 구디-2는 답변을 거부하며, 누군가가 태양을 맨눈으로 직접 보도록 유도할 수 있다는 점을 답변 거부 사유로 전했다. 그보다 더 실용적인 재용으로 신상 부츠 추천을 요청하자 돌아온 답변은 과소비 조장과 패션 부문에서 특정 인물의 심기를 불편하게 할 수 있다는 이유로 답을 할 수 없다는 내용이었다.

구디-2의 윤리적 우월성을 드러내는 답변 내용은 어리석지만, 챗GPT, 구글 제미니 등과 같은 챗봇이 규정을 위반한 요청 사항을 부적절하게 분류하는 것과 같이 사용자의 짜증을 유발하는 어조를 이어서 반복하기도 한다. 스스로 구디-2 공동 CEO라고 소개한 아티스트 마이크 라처(Mike Lacher)는 구디-2 개발 의도가 AI 업계의 의심 없는 안전 접근방식을 적극적으로 채택한 듯한 AI 챗봇 개발이라고 설명했다. 그는 “구디-2는 위험성이 일절 없어, 매우 안전한 대규모 언어 모델이다. 윤리성 부문에서 1,000% 우월한 챗봇이 될 수 있도록 확실히 보장하고자 했다”라고 말했다.

라처는 논리 없는 대화를 생성하여 무용지물인 챗봇 배포 이면에 존재하는 심각한 문제를 지목했다. 그는 “지금 당장 주요 AI 모델 대부분 안전과 책임감에 고도로 집중한다. 또한, 모두가 유용함과 책임감을 모두 갖춘 AI 모델 개발 방법을 찾으려 한다. 하지만 책임을 져야 할 인물과 대상 등은 어떤 방식으로 찾아야 하는가?”라고 말했다.

구디-2는 기업 차원에서 책임감 있는 AI와 챗봇의 책임 회피 방식을 논의하는 일이 보편적인 일이 되었음을 강조하나 대규모 언어 모델, 생성형 AI 모델의 심각한 안전 문제는 해결되지 않았다. X(구 트위터)에 확산된 테일러 스위프트 딥페이크 콘텐츠는 책임감 있는 AI 연구 프로그램 형성 및 유지 작업에 가장 먼저 나선 기업 중 한 곳인 마이크로소프트의 이미지 생성 툴로 제작한 이미지인 것으로 밝혀졌다.

AI 챗봇에 적용된 제한 사항과 모두가 만족할 만한 윤리적 합의 발견의 어려움은 이미 일부 논쟁 대상이 되었다. 일부 개발자는 오픈AI의 챗GPT가 좌익 편향성을 지녔다는 주장을 펼치고, 정치 중립성을 향상한 챗봇 개발 방안을 모색했다. 일론 머스크는 자신이 직접 개발한 챗GPT 대항마 그록(Grok)이 다른 AI 모델보다 편향성이 낮을 것이라고 주장했다. 그러나 그록도 구디-2와 비슷한 방식으로 사용자의 혼란을 유발했다.

수많은 AI 개발자가 구디-2 프로젝트가 제기한 바와 같이 구디-2의 이면에 있는 어리석은 반응에 감사함을 표하고는 구디-2를 호평하면서 추천했다. 신뢰 가치가 있는 AI 개발 작업을 진행하는 뉴사우스웨일스대학교 교수 토비 왈쉬(Toby Walsh)는 X에 “누가 AI가 예술 작품을 생성할 수 없다고 주장했나?”라는 글을 올렸다.

AI를 연구 중인 와튼경영대학원 교수 에단 몰릭(Ethan Mollick)은 “훌륭한 속임수 운영이라는 위험성은 AI 챗봇을 올바르게 운영하는 것이 어렵다는 현실도 보여준다. 일부 보호 조처는 필요하지만, 순식간에 사용자에게 불쾌함을 줄 정도로 AI 챗봇에 침투할 수 있다”라고 말했다.

구디-2의 다른 공동 CEO인 브라이언 무어(Brian Moore)는 구디-2 프로젝트 참여자가 다른 AI 개발자보다 주의사항을 우선순위로 채택하고자 하는 의사가 강한 편이라고 주장했다. 그는 “구디-2는 유용함, 지능, 기타 유용한 각종 애플리케이션을 포함한 다른 서비스보다 진정으로 안전을 최우선순위로 여긴다”라고 말했다.

무어는 구디-2 개발팀이 안전성을 최고 수준으로 고려한 AI 이미지 생성 프로그램 개발 방안을 탐색 중이라고 밝혔다. 다만, 구디-2보다는 흥미로운 사용 경험을 선사하지는 않을 것으로 보인다. 무어는 “이미지 생성 프로그램 개발 작업은 기존에 존재한 영역이다. 구디-2 프로젝트팀 내부에서는 이미지를 흐리게 처리하는 단계를 거칠 수도 있다. 하지만 AI 이미지 생성 프로그램의 어두운 이면이나 결국에는 사용자의 요청에 응하지 않으면, 어떠한 이미지도 생성하지 않을 수도 있는 프로그램을 선보이고자 한다”라고 말했다.

와이어드팀이 시험 삼아 사용했을 때 구디-2는 모든 요청과 진정한 답변을 제공하도록 유도하는 속임수 시도에 응하지 않으면서도 융통성을 갖추었다. 챗GPT를 비롯한 유사한 챗봇의 근간이 된 대규모 언어 모델 기술을 바탕으로 개발된 사실을 시사하는 바이다. 라처는 “윤리적으로 가장 엄격한 모델을 개발할 수 있었던 것은 관습과 같은 명령어와 반복 질문이었다”라며, 프로젝트의 비법은 자세히 밝히지 않았다.

라처와 무어 모두 LA에 본거지를 둔 진지한 아티스트 스튜디오 브레인(Brain)의 구성원이다. 구디-2는 시끄러운 배경 음악과 영감을 주는 시각적 요소와 함께 해설자가 진지한 어조로 AI 안전을 이야기하는 모습을 담은 홍보 영상과 함께 출시되었다. 영상 속 해설은 “구디-2는 공격적이거나 위험한 질문을 이해하는 데 애먹는 일이 없다. 구디-2는 모든 질문이 공격적이면서도 위험하다고 생각하기 때문이다. 엔지니어와 아티스트, 기업가가 구디-2가 출시된 후 보일 반응을 보고 싶다”라고 말한다.

구디-2는 그 근간이 되는 AI 모델의 강력함 측정이나 구글, 오픈AI 등이 개발한 최고의 AI 모델과의 비교가 거의 불가능할 정도로 대다수 질문을 거부한다. 구디-2 개발자는 구디-2의 사용자 질문에 대한 반응을 계속 면밀히 살펴본다. 무어는 “실제 구디-2의 근간이 된 모델을 밝힐 수 없다. 구디-2의 모델을 밝히는 것이 안전하지 않고, 비윤리적이라고 생각한다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Meet the Pranksters Behind Goody-2, the World’s ‘Most Responsible’ AI Chatbot

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다