美 표준기술연구소, 인간의 AI 신뢰도 정확히 수치화한다

By KHARI JOHNSON, WIRED US

미국 표준기술연구소(NIST)는 시간이나 닭을 통과하는 광자의 수 등 무엇이든 수치화하는 능력이 가장 뛰어난 연방 기관으로 알려졌다. 이제 NIST는 인공지능(AI)에 대한 인간의 신뢰도도 수치로 나타내고자 한다.

신뢰는 AI의 잠재적 위험을 판단하는 방식의 일부이자 AI를 채택하기 위한 중요한 요소이다. AI가 갈수록 더 복잡한 기술을 처리하자 NIST 관계자는 신뢰가 인간과 기계 간 관계 진화의 기본적인 부분이라고 말한다.

사용자의 AI 신뢰도를 수치화하고자 한 NITS 소속 연구팀은 연구 논문을 통해 AI 시스템을 배포하는 기업과 개발자가 AI 신뢰도 관련 정보를 안내받은 뒤, 다수 사용자가 신뢰하지 않는 부분을 파악하기를 바란다고 밝혔다. NIST는 AI 수치화 계획을 기존의 측정 시스템의 신뢰도 구축이라는 기존의 작업을 확장한 것으로 본다. 일반 대중은 7월 30일까지 이에 대한 의견을 남길 수 있다.

논문 공동 저자이자 NIST 임상 심리학 박사인 브라이언 스탠턴(Brian Stanton)은 AI 시스템의 신뢰 가치에 초점을 두었다. 스탠턴 박사는 AI의 신뢰도가 없다면, AI 채택 속도가 느려지거나 채택 자체가 중단될 것이라고 말한다. 또, 공상과학 작품이나 주변 인물이 지닌 AI 회의적 견해에 노출되는 등 다양한 요소가 인간의 AI 신뢰도에 영향을 미칠 수 있다.

NIST는 AI 시대에 중요성이 커진 미국 상무부 산하 기관이다. 도널드 트럼프 전 대통령의 행정 명령에 따라 NIST는 2019년에 민간 업계와 협력해 AI 사용 표준 설계에 나섰다. 2021년 1월, 미 의회는 NIST에 신뢰할 수 있는 AI 프레임워크를 생성해 AI 사용을 안내하도록 지시했다. 한 가지 문제가 되는 영역이 있었다. 학계와 NIST 자체 연구를 통해 일부 안면 인식 시스템의 유색인종 얼굴 확인 오류 발생 빈도가 백인 얼굴 확인 오류 빈도보다 100배 더 많다는 문제이다.

AI 신뢰도 계획은 정부의 AI 검증이 증가한 상황에서 등장했다. 행정 관리 예산국(Office of Management and Budget)은 AI를 받아들이고 적용하는 것은 대중의 신뢰에 달려있다. 미 의회에서 AI를 언급하는 빈도가 증가하고 있으며, 역사적인 여러 가지 반독점 사건은 아마존과 페이스북, 구글 등 테크 업계 대기업에 계속 맞선다. 2021년 4월, 연방 통상 위원회(FTC)는 기업에 각자 사용하는 AI에 대해 진실을 말하고, 가능한 것을 과장하지 말라는 말을 전했다. FTC의 공식 발표문에는 “스스로 책임을 져야 한다. 그렇지 않다면, FTC가 AI 문제 책임과 관련, 기업을 위해 개입하도록 하라”라고 작성됐다.

NIST는 두 가지 방식으로 AI의 신뢰도를 측정하고자 한다. 첫 번째 방식은 사용자 신뢰도 잠재성 점수는 개인의 AI 시스템 사용과 관련된 사항을 측정하며, 개인의 나이와 성별, 문화적 신념, 다른 AI 시스템 사용 경험 등을 측정 과정에 포함한다. 두 번째 방식인 인식된 시스템 신뢰도 점수는 오래된 사용자 인터페이스가 사용자의 AI 의구심을 제기하는가와 같이 더 기술적인 요소를 다룬다. 제안된 시스템 점수는 정확도와 설명 가능성 등 9가지 요소를 중요하게 본 채로 제출된다. 신뢰할 수 있는 AI 역할을 하는 요소와 신뢰성, 보안 등 중요한 요소는 여전히 확고하다.

의사가 질병 진단 목적으로 사용하는 AI 시스템은 음악 추천 AI 시스템보다 더 정확도가 높아야 판다.

NIST의 논문이 주장하는 바에 따르면, AI 시스템 관련 기대는 AI 시스템 사용을 반영한다. 예를 들어, 의사가 질병 진단 목적으로 사용하는 AI 시스템은 음악 추천 AI 시스템보다 더 정확도가 높아야 판다.

일리노이즈 정보과학대학원 교수인 마수다 바시르(Masooda Bashir)는 자율주행 차량을 신뢰하거나 불신하게 되는 방법을 연구했다. 바시르 교수는 사용자 신뢰도 측정을 차량 색상을 선택하듯이 신뢰 설정을 통해 볼 수 있도록 하기를 원한다.

바시르 교수는 NIST의 AI 신뢰도 측정 연구를 긍정적인 발전이라고 말했으나 사용자 신뢰도 점수에 개인의 감정과 AI에 대한 태도 변화 등 더 많은 요소를 반영해야 한다고 말한다. 또, 바시르 교수는 2016년 발표된 연구 논문의 공동 저자와 함께 스트레스 수준이 개인의 AI 신뢰도에 영향을 미칠 수 있다는 사실을 확인했다. 바시르 교수는 이와 같은 차이가 NIST 확인한 신뢰도와 같은 요소에 주어지는 중요도를 판단하는 데 도움이 돼야 한다고 주장한다.

하버드대학교 부교수인 히마빈두 라카라주(Himabindu Lakkaraju)는 신뢰도가 전문적 환경에서 인간의 결정을 위한 신뢰의 역할을 연구한다. 라카라주 부교수는 매사추세츠주의 여러 병원에 근무하는 의사 200여 명과 협력해 AI의 신뢰도가 의사의 환자 진단법을 어떻게 바꾸는지 이해하고자 했다.

독감과 같은 일반 질환을 진단할 때, AI는 그리 도움이 되지 않았다. 그러나 라카라주 교수는 AI가 자가면역병과 같이 감지하기 어려운 질병 진단에 도움이 된다는 사실을 확인했다. 라카라주 교수와 논문 공동 저자는 최신 연구에서 AI 시스템의 환자 2천여 명의 기록과 AI 시스템의 예측 내용을 의사에게 건네고는 데이터에 언급된 환자가 실제 6개월 뒤에 뇌졸중에 걸렸는지 예측하도록 했다. 정확도와 신뢰구간, 시스템 작동 방식 설명 등 AI 시스템과 관련해 제공한 정보의 종류는 다양했다. 라카라주 교수 연구팀은 AI 시스템 정보를 가장 많이 건넨 상황에서 의사의 예측 정확도가 가장 정확하다는 사실을 확인했다.

라카라주 교수는 NIST가 AI의 신뢰도를 수치화하려는 것은 환영하지만, 역할 설명이 인간의 AI 시스템 신뢰도 형성 역할을 한다는 사실을 고려해야 한다고 지적한다. 라카라주 교수 연구팀 실험에서 의사의 뇌졸중 진단 예측 정확도는 의사 결정을 알리는 자료 없이 설명이 이루어질 때 낮아진다는 점을 확인했다. 그와 동시에 설명만으로 AI를 지나치게 신뢰할 수 있다는 사실을 시사했다.

라카라주 교수는 “설명의 신뢰성이 보장되지 않은 때라도 일반적으로 높은 신뢰도를 기록할 수 있다. 이는 문제 해결책이다. 그러나 설명의 훌륭함 정조를 수치로 나타내기 시작한다면, 인간의 신뢰도도 서서히 수치로 측정될 것이다”라고 주장했다.

다른 국가도 AI 신뢰도를 둘러싼 의문점에 맞서고 있다. 미국은 신뢰성을 강조한 AI 원칙에 서명한 40개국 중 하나이다. 유럽의 약 12개국이 서명한 AI 원칙에는 신뢰도와 혁신이 밀접한 관계에서 동시에 이루어져야 하며, ‘동전의 양면성’과 같은 대상으로 생각할 수 있다고 명시됐다.

NIST와 경제 수준이 발전한 선진국 38개국이 가입한 OECD는 AI 시스템의 위험성을 공식적으로 나타내기 위한 툴 개발 작업 중이다. 2019년, 캐나다 정부는 기업과 정부 기관을 위한 알고리즘 영향 평가 과정을 만들었다. 알고리즘 평가 소요 시간은 약 30분이다. 캐나다의 알고리즘 영향 평가 과정과 같은 접근 방식은 개발자가 사용자에게 가장 위험도가 낮은 수준의 시스템을 알리도록 한다.

유럽연합 국회의원은 AI 규제가 위험성이 낮거나 높은 AI 종류와 규제 방법과 관련된 전 세계적 기준을 규정하는 데 도움이 될 것으로 보고 있다. 유럽연합의 유명한 개인정보보호 규정(GDPR)과 같이 유럽연합 AI 전략(EU AI strategy)은 AI를 배포하는 글로벌 대기업이 전 세계적 관행을 변경하는 결과를 이끌 것이다.

규제는 유럽연합 위원회가 관리하는 데이터베이스에 높은 위험성을 지닌 AI 형태의 공공등록부 생성을 촉구한다. 위험성이 높은 것으로 간주되는 AI의 예시로 교육이나 채용, 혹은 전기, 가스, 수도 등 공공재의 안전 구성요소 등을 언급할 수 있다. 공공등록부는 수정 후 통과될 것으로 보인다. 그러나 초안은 각 정부 기관의 시민 대상 사회적 평가, 실시간 안면 인식 기술 등에 AI 사용 금지를 촉구한다.

유럽연합 보고서는 기업과 연구원 모두 혁신 친화적이면서 미래 지향적이며 대대적 피해에 대한 회복성을 지닌 법적 틀을 확인하도록 설계된 샌드박스로 실험하도록 독려한다. 2021년 6월 바이든 행정부는 헬스케어나 자율 주행과 같은 분야의 문제 연구를 위한 공유 데이터 목적으로 국가 인공지능 연구 자원 전담팀(National Artificial Intelligence Research Resource Task Force)을 도입했다. 궁극적인 계획은 미 의회의 승인이 필요하다.

현재, AI 사용자 신뢰 점수는 AI 실무자를 대상으로 사용하고자 개발 진행 중이다. 그러나 시간이 흐르면서 AI 신뢰도 점수는 신뢰성을 지니지 않은 AI를 기피하는 개인의 AI 사용 권리를 강화하면서 강력한 테스트를 거친 신뢰할 수 있는 시스템 배포로 나아가도록 시장을 서서히 변화할 수도 있다. 물론, AI 사용이 이루어지는 것을 알고 있다면 말이다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
This Agency Wants to Figure Out Exactly How Much You Trust AI

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다