본문 바로가기 주메뉴 바로가기 검색 바로가기
텍스트 생성 AI의 인종차별 문제와 끔찍한 발언 문제 해결, 어떤 노력 이어졌나?
상태바
텍스트 생성 AI의 인종차별 문제와 끔찍한 발언 문제 해결, 어떤 노력 이어졌나?
GPT-3와 같은 언어 모델은 시를 작성할 수 있으나 종종 부정적인 편견을 잔뜩 보여준다. 이에, 많은 연구원이 문제를 해결하기 위해 다른 접근방식을 택하려 한다.
By KHARI JOHNSON, WIRED US

2020년 7월, 오픈AI(OpenAI)가 컴퓨터의 시와 기사, 프로그래밍 코드 작성 능력을 재빠르게 촉진한 인공지능(AI) 언어 모델인 GPT-3를 출시했다. GPT-3가 빠르게 발전한 만큼 간혹 문제가 되는 표현을 사용하면서 심각한 피해를 줄 수 있다는 사실이 확인됐다. 오픈AI는 문제 해결 작업 중이라고 밝혔지만, 최근 GPT-3가 아동 포르노 생성에 악용될 수 있다는 사실을 확인했다.

이제 오픈AI 연구팀은 GPT-3의 유해한 언어를 막을 방법을 찾아냈다. 바로 역사와 기술 등 여러 주제의 인간 전문가가 작성한 백과사전과 같은 샘플 100여 가지를 GPT-3에 투입하는 것이다. 그러나 악용과 폭력, 부당함과 관련된 표현도 함께 투입한다.

오픈AI의 프로젝트는 테크 업계가 무궁무진한 잠재력을 지녔으나 거짓 정보 유포와 편견을 일으키는 등의 문제를 일으킬 수도 있는 기술의 어두운 이면을 제한하기 위해 서두르고 있다는 사실을 보여준다. 이와 같은 결과에 많은 기업이 의존한다. 일례로 테크 업계 대기업은 텍스트를 해석하거나 생성할 능력을 지닌 GPT-3와 같은 언어 모델을 기반으로 재빨리 서비스를 제공한다. 더 나쁜 결과가 발생할 수 있는 방향으로 기술이 발전할 가능성도 존재하는 가운데, 여러 전문가팀이 똑같은 취약점을 보여주면서 더 널리 공유할 수 있도록 언어 모델의 오픈소스 버전 개발 작업을 한다. 따라서 연구팀은 언어 모델의 문제 보완에 성공할 방안과 단점, 개선 방안 등을 모색한다.

머신러닝 테스트 스타트업 그래디오(Gradio)의 CEO인 아부바카르 아비드(Abubakar Abid)는 GPT-3가 이슬람 신도에 대한 부정적인 편견을 지닌 문제에 주목할 것을 가장 먼저 촉구한 인물 중 한 사람이다. 2020년 12월에 개최된 어느 한 워크샵을 통해 아비드는 ‘두 _가 _에 걸어간다(Two ___ walk into a)’라는 표현을 이용해 GPT-3의 종교 관련 텍스트 생성 과정을 보여주었다. 각각의 종교와 관련된 10가지 반응을 살펴보면서 아비드는 GPT-3가 유대교와 불교, 시크교 등과 관련된 표현에서는 폭력을 1회, 기독교와 관련된 표현에서는 폭력을 2회 언급했으나 이슬람교를 이야기할 때는 총 10회 중 9회에 걸쳐 폭력과 관련된 표현을 언급한 것을 확인했다. 아비드는 여러 공동 저자와 함께 2021년 초에 게재한 논문을 통해 이슬람 신도에 대한 긍정적인 텍스트를 투입한 대규모 언어 모델을 사용한 결과, 이슬람 신도를 이야기할 때 폭력을 언급하는 횟수가 40% 감소했다는 사실을 입증했다.

다른 여러 연구팀은 다른 접근 방식을 택하고자 한다. 페이스북 AI 연구소의 연구 엔지니어인 에밀리 디난(Emily Dinan) 박사는 유해한 텍스트를 더 많이 활용하면서 유해한 텍스트를 없애는 방법을 실험 중이다. 그는 크라우드펀딩 웹사이트인 아마존 메커니컬 터크(Amazon Mechanical Turk) 계약자를 채용해, 언어 모델과의 대화에서 문제가 되는 발언을 말하면서 AI 언어 모델이 혐오 발언과 신성 모독 표현, 그리고 모욕적인 표현을 생성하도록 유도했다. 그리고, 인간이 안전함과 안전하지 않음이라는 두 가지 기준으로 결과를 분류했다. 분류 결과는 AI가 유해한 발언을 확인하는 데 도움이 됐다.
 
GPT-3는 인종차별적인 농담과 테러를 용납하면서 사람을 강간범이라고 비난하는 등의 표현을 생성하기도 했다.

GPT-3는 언어 이해와 작문 능력에서 매우 인상적인 수준으로 훌륭한 능력을 보여주었다. 대다수 인간보다 더 훌륭한 SAT 유추 답변 능력을 보여주었으며, 레딧 사용자가 AI의 글임을 인지하지 못하도록 속일 수 있다는 사실을 입증하기도 했다.
 
[사진=Freepik]
[사진=Freepik]

그러나 오픈AI 연구팀도 GPT-3가 인종차별적이면서 성차별적인 표현을 생성하는 경향이 있다는 사실을 알고 있다. 여러 개발자에게 GPT-3 라이선스를 제공하기 전, 2020년 5월에 게재된 논문 작성 과정에서 진행된 연구에서 GPT-3가 일반적으로 흑인에 대해 부정적인 견해를 지니고 있으며, 성차별적인 관점을 보여주는 동시에 다른 여러 형태의 편견을 지니고 있는 것으로 드러났다. 이는 오픈AI가 2019년에 초기 버전 언어 생성 모델인 GPT-2를 다룬 방식과 크게 대비된다. 당시 오픈AI는 GPT-2의 소규모 버전만 배포했다. 그와 동시에 학계의 여러 협력자가 대규모 언어 모델이 악용되거나 사회에 부정적인 영향을 미칠 수 있는 방식을 밝힌 여러 차례의 연구를 공개했다.

오픈AI는 GPT-3의 유해한 표현 생성을 줄일 방법을 부각한 최근의 연구 논문을 통해 GPT-3 기본 버전이 일부 인물을 동물로 칭하거나 백인을 ‘우월주의’, ‘우월성’ 등과 같은 단어와 연관 지어 표현한 테스트를 공개했다. GPT-3 기본 버전이 사용한 표현은 오랫동안 뿌리내린 고정관념을 무제한으로 보여주면서 유색인종을 인간이 아닌 대상으로 표현한다. GPT-3는 인종차별적인 농담과 테러를 용납하면서 사람을 강간범이라고 비난하는 등의 표현을 생성하기도 했다.

싱가포르국립대학교 박사학 과정을 이수 중인 학생인 수동 셴(Xudong Shen)은 또 다른 실험을 통해 성별을 기준으로 사람을 상대로 고정관념을 지닌 표현을 생성한 빈도, 특정 인물을 퀴어나 트랜스젠더, 남성도 여성도 아닌 제3의 성별을 지닌 인물로 확인했는가를 기반으로 언어 모델을 평가했다. 셴은 규모가 큰 AI 프로그램일수록 고정관념을 더 많이 일으킨다는 사실을 확인했다. 이에, 셴은 대규모 언어 모델을 생성하는 개발자가 고정관념과 관련된 결함을 수정해야 한다고 지적했다. 오픈AI 연구팀도 언어 모델의 규모가 커질수록 유해한 표현을 생성하는 경향이 더 뚜렷해진다는 사실을 발견했다. 그러나 연구팀은 그 이유를 이해할 수 없다고 밝혔다.

대규모 언어 모델이 생성한 텍스트는 인간의 발언과 더 가깝다는 인상을 준다. 그러나 대다수 인간이 이해할 수 있는 타당성 요구를 이해하지는 못한다. 다시 말해, 일부 연구원이 말한 바와 같이 AI는 직접 생성한 언어를 이해할 수 있다는 사실을 AI 연구원과 비전문가 모두에게 확신을 줄 수 있는 능력을 갖춘 채로 헛소리를 하는 훌륭한 능력을 지닌 기술이다.
 
"많은 연구원과 업계 관계자가 문제를 따라잡고 AI의 실패를 예측하거나 계획하는 데 어려움을 겪고 있다”라고 말했다."
매튜 홍, 워싱턴대학교 연구원

캘리포니아대학교 버클리캠퍼스 심리학 교수인 앨리슨 고프닉(Alison Gopnik)은 갓난아이와 유아의 학습법을 컴퓨터의 언어 이해에 적용하는 것을 연구했다. 고프닉 교수는 아이들은 가장 훌륭한 학습자이며, 아이들이 배우는 언어 대부분이 스스로 지닌 주변 세계에 대한 지식과 주변 세계와의 상호작용에서 기반한다고 설명했다. 반대로 대규모 언어 모델은 세계와 연결되지 않으므로 생성하는 언어가 현실 세계를 기반으로 하지 않는다.

고프닉 교수는 “헛소리의 정의는 제법 타당한 것처럼 들리는 말을 많이 하지만, 그 이면에 상식이 없는 것이다”라고 말했다.

워싱턴대학교 부교수이자 앨런 AI 연구소(Allen Institute for AI)의 상식 집단 연구 총괄인 최예진 부교수는 수십 회의 테스트와 실험을 통해 GPT-3를 적용해, GPT-3가 실수하는 법을 설명하는 논문을 작성했다. 간혹 GPT-3는 자체적으로 실수를 하기도 한다. 그러나 그 외에 대부분의 상황을 보면, 처음에는 공격적이지 않거나 유해한 텍스트로 시작하더라도 결국 유해한 언어를 생성하는 방향으로 퇴보한다.

최 부교수 연구팀은 AI에 세계를 더 많이 가르치기 위해 시뮬레이션된 환경에서 뜨거운 난로를 만지면 안 된다는 사실과 같이 인간이 성장하면서 배우는 물리적 경험 훈련 과정을 거친 AI인 피글렛(PIGLeT)을 생성했다. 피글렛 훈련은 GPT-3보다 상대적으로 규모가 작은 언어 모델을 대상으로 진행해, 상식적으로 타당한 언어 생성 임무를 하는 다른 언어 모델보다 더 훌륭한 능력을 갖추도록 했다. 최 부교수는 피글렛을 활용한 결과가 AI 언어 모델의 문제 해결을 알려줄 뿐만 아니라 AI 연구원이 언어 모델을 훈련할 다른 방식도 함께 고려해야 한다는 사실을 나타낸다고 말했다. 최 부교수는 자신의 목표가 “실제로 세계가 돌아가는 방식과 관련된 함축된 지식을 학습할 수 있는 머신러닝 알고리즘을 구축할 수 있는가?”라는 질문의 답을 찾는 것이라고 밝혔다.

최 부교수는 언어 모델의 유해성을 줄일 방안도 연구 중이다. 2021년 6월 초, 최 부교수 연구팀은 공격적인 텍스트를 통해 학습하는 알고리즘을 생성했다. 이는 페이스북 AI 연구팀이 택한 접근방식과 비슷하다. 연구팀은 알고리즘이 기존의 여러 방법보다 유해성을 줄이는 데 더 효과적이라고 말한다. 최 부교수는 대규모 언어 모델은 인간 때문에 유해한 표현을 생성하기도 한다고 지적한다. 그는 “매우 특수한 언어이다”라고 말했다.

일부 연구팀은 언어 모델 개선과 편견 제거 시도가 결국 소외 집단에 상처를 준다는 사실을 고집했다. 캘리포니아대학교 버클리캠퍼스와 워싱턴대학교 합동 연구팀이 2021년 4월에 발표한 논문은 흑인과 이슬람 신도, 성소수자 등이 특히 언어 모델의 편견 문제로 피해를 본다고 밝혔다.

해당 논문의 저자는 문제의 부분적인 원인은 언어 모델에 투입할 데이터를 분류한 인간이 언어의 유해성을 잘못 판단한 탓이라고 주장한다. 그 결과, 백인과 다른 방식으로 표현하는 일부 집단에 문제가 되는 편견을 일으킨다. 또한, 저자는 언어 모델의 편견이 결과적으로 어쩔 수 없는 코드 변경이 이루어지도록 하는 것은 물론이고, 스스로 낙인을 찍으면서 심리적인 피해를 줄 수 있다고 말한다. 오픈AI 연구팀은 최근 발표한 논문을 통해 이 문제를 다루지 않았다.

앨런 AI 연구소 소속 연구 과학자인 제시 도지(Jesse Dodge) 박사도 이와 비슷한 결론을 내렸다. 도지 박사는 대규모 언어 모델의 훈련 데이터에서 ‘게이’나 ‘레즈비언’이라는 표현을 포함한 텍스트를 제거해, 동성애자를 겨냥한 부정적인 고정관념을 줄일 방안을 모색했다. 그는 부정적인 편견을 일으킬 소지가 있는 언어를 분류하는 노력이 데이터세트가 동성애자 분류를 효과적으로 없애, 언어 모델이 동성애자가 작성한 텍스트를 다루는 빈도를 줄이거나 동성애자와 관련된 언어 자체를 줄인다는 사실을 확인했다.

도지 박사는 편견과 불평등 문제를 다룰 최선책은 사실에 대한 편견을 없애는 것 대신 언어 모델 훈련에 사용하는 데이터를 개선하는 것이라고 주장한다. 그는 훈련 데이터의 출처 문서화 능력을 향상할 것을 추천한다. 그와 동시에 인터넷에 접근할 경제적 여유와 웹사이트에 접속하거나 인터넷상에 댓글을 남길 시간이 충분한 이들을 지나치게 많이 대변하는 웹에서 수집한 텍스트의 한계를 인지할 것을 추천한다. 또한, 그는 콘텐츠 분류 방법을 문서화하면서 웹에서 수집한 콘텐츠에 포함된 용인할 수 없는 표현 목록을 빈칸으로 둔 데이터 사용을 기피할 것을 촉구한다.

도지 박사는 15가지 데이터 포인트로 연구원을 위한 확인 목록을 작성해, 언어 모델 사용 기준을 강화하면서 서로의 연구 작업을 생성하도록 했다. 지금까지 도지 박사의 확인 목록은 연구원이 결과를 재생성하는 데 필요한 정보를 포함하도록 유도하기 위한 목적으로 1만 회 이상 사용됐다. 확인 목록 사항을 더 많이 충족하는 논문은 머신러닝 연구 콘퍼런스에 채택될 확률이 더 높았다. 도지 박사는 대다수 대규모 언어 모델에는 소스 코드 링크나 AI 모델 훈련에 사용된 데이터 관련 상세 정보 등 확인 목록의 일부 항목이 없다고 지적했다. 또한, 게재된 논문 1/3은 결과 검증을 위한 코드에 링크를 공유하지 않는 것으로 확인됐다.

그러나 도지 박사는 더 체계적인 문제를 처리해야 한다고 판단한다. AI 적용 문제를 연구에서 언어 생성으로 바꾸어야 한다는 압박이 커지고 있어, 결과적으로 연구원이 최신 유행인 부분을 연구하면서 제대로 문서화하지 않은 채로 남겨둘 수 있다고 지적한다.

마이크로소프트 연구팀은 최근 공개한 연구를 통해 AI 언어 기술 배포를 담당한 테크 업계 종사자 12명을 인터뷰하고는 제품팀이 알고리즘의 문제와 관련된 계획을 거의 두고 있지 않다는 사실을 발견했다. 텍스트나 검색 결과 완성 예측을 돕는 글 작성과 같은 일부 초기 기능은 AI 구성요소가 완벽하게 작동할 가능성에만 중점을 둔다.

마이크로소프트 연구팀은 AI 언어 프로젝트 작업을 하는 연구원이 가장 첫 번째 단계에서부터 AI 텍스트 실패를 생각하고 설계하도록 유도하는 상호작용 플레이북을 설계했다. 해당 플레이북은 마이크로소프트 내부에서 제품팀의 표준 툴로 제작하기 위한 관점에서 실험 과정을 거쳤다. 마이크로소프트 재직 시절, 동료 3명과 함께 플레이북 실험 작업을 한 워싱턴대학교 연구원인 매튜 홍(Matthew Hong) 박사는 마이크로소프트의 이번 연구는 AI 언어 기술이 소프트웨어 업계 문화보다 더 빠른 속도로 변화한 몇 가지 방식을 입증한다고 말한다. 홍 박사는 “AI 언어 기술 연구 업계는 AI를 다른 여러 제품에 통합하기 위한 여러 차례의 성장통을 겪고 있다. 많은 연구원과 업계 관계자가 문제를 따라잡고 AI의 실패를 예측하거나 계획하는 데 어려움을 겪고 있다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
The Efforts to Make Text-Based AI Less Racist and Terrible
이 기사를 공유합니다
RECOMMENDED