알고리즘, X선 보고 환자의 인종 감지한다

By TOM SIMONITE, WIRED US

X선을 비롯한 각종 의학 스캔 장비를 판독하는 인공지능(AI) 소프트웨어 개발에 천문학적인 비용이 투입된다. 의사가 기존 장비로 발견하면서 폐암 증상 등 간혹 놓치는 부분을 AI가 찾아내기를 바라기 때문이다. 어느 한 새로운 연구 논문을 통해 알고리즘으로 의사가 의료 장비 스캔 이미지로 놓친 한 가지 요소를 발견할 수 있다는 사실을 발견했다. 바로 환자의 인종이다.

해당 연구 논문 저자와 다른 의학용 AI 전문가는 연구 결과가 헬스 알고리즘이 여러 인종의 환자를 대상으로 공정한 진단을 하도록 그 어느 때보다 더 중요하게 확인해야 할 요소라고 지적한다. 그러나 알고리즘 확인을 복잡하게 만드는 한 가지 요소가 있다. 바로 연구 논문 저자도 알고리즘이 환자의 인종을 예측하는 데 사용하는 단서가 무엇인지 확신하지 못한다는 사실이다.

알고리즘이 흉부 X선과 손 X선, 유방 촬영술을 포함한 방사선 연구에 사용되는 5가지 유형의 사진의 테스트에서 등장한 개인의 의학 스캔 자료로 환자의 인종을 판독할 수 있다는 증거가 있다. X선 사진에는 흑인과 백인, 아시아인으로 확인된 이미지가 포함됐다. 환자 인종별 스캔 이미지에 따라 연구팀은 환자가 스스로 보고한 인종 정보로 분류한 이미지를 사용해 알고리즘을 훈련했다. 그리고, 알고리즘이 훈련 과정에 사용한 사진 이외에 인종 정보가 분류되지 않은 다른 이미지를 보고 환자의 인종을 예측하도록 명령했다.

방사선 외과 의사는 일반적으로 피부 속을 들여다보는 X선 스캔 사진으로 환자의 인종 정체성을 볼 수 있다고 생각하지 않는다. 인종 정체성은 생물학적 범주에 해당하지도 않는다. 하지만, 알고리즘은 어느 정도 흑인과 백인, 아시아인이라는 세 분류의 인종 정체성을 제법 정확하게 감지할 수 있는 것으로 입증됐다. 다른 여러 각도에서 신체 이미지를 보더라도 꽤 정확하게 인종을 판단한다.

대다수 스캔 사진에서 알고리즘은 두 가지 사진이 주어진 상황에서 90%의 정확도로 흑인의 사진이 어떤 것인지 집어낸다. 정확도가 가장 낮은 알고리즘도 인종 식별 능력 80%를 기록했다. 가장 뛰어난 알고리즘의 정확도는 99%이다. 2021년 7월 말, 의학 전문가와 머신러닝 전문가 20여 명으로 구성된 연구팀이 결과와 관련 코드를 온라인에 게재했다. 연구 결과는 공동 심사 과정을 거치기 전이다.

연구팀이 발견한 결과는 AI 소프트웨어가 헬스케어 불평등 문제를 심화할 수 있다는 새로운 우려를 촉발했다. 실제로 여러 연구를 통해 헬스케어 분야에서 흑인 및 다른 소외된 인종 집단 환자가 종종 부유한 백인 환자보다 더 열악한 수준의 치료 서비스를 받는 것으로 확인됐기 때문이다.

머신러닝 알고리즘은 종양과 같은 조건을 분류한 예시가 다량으로 투입된 의학 이미지를 판독하면서 개선된다. 수많은 예시를 받아들인 알고리즘은 텍스처나 폐 결절 등 통계적으로 특정 분류와 관련이 있는 픽셀의 형태를 학습한다. 일부 알고리즘은 암이나 피부 질환을 감지하는 데 있어, 인간 의사의 경쟁 상대가 되었다. 인간 전문가가 볼 수 없는 일부 질병의 징후를 알고리즘이 감지할 수 있다는 증거가 있다.

의학 알고리즘의 질병 진단 관련 새로운 연구에 참여한 에모리대학교 방사선 전문의 겸 부교수인 주디 기초야(Judy Gichoya) 교수는 이미지 알고리즘이 내부 스캔으로 인종을 볼 수 있다는 사실이 드러난 것은 부적절한 관련성도 함께 학습 할 수 있다는 중요한 사실을 나타낸다고 주장한다.

“대중에게 의학 알고리즘의 인종 편견 문제를 알리고, 문제를 완화할 방법을 연구해야 한다.”
주디 기초야, 에모리대학교 방사선 전문의 겸 부교수

종종 알고리즘 훈련에 사용되는 알고리즘은 종종 질병과 의학 치료에서 인종적 불평등을 받아들이는 요소로 지지한다. 역사적, 사회경제학적 요소 때문이다. 스캔 이미지에서 통계 패턴 알고리즘 검색을 해 환자의 인종 관련 알고리즘의 추측을 일종의 간략한 결과로 보여주면서 훈련 데이터에서 인종적 편견을 지닌 패턴과 상호 관계가 있는 진단을 제시한다. 이때, 보여주는 방사선 전문의가 찾는 진단 정보는 가시적인 의학적 비정상적인 사항뿐만이 아니다. X선 판독 시스템은 일부 환자에게 정확하지 않은 진잔 정보나 완전히 잘못된 정보를 전달할 수 있다. 알고리즘은 비슷한 질병 징후를 지녔더라도 흑인 환자와 백인 환자에게 다른 진단 결과를 제시할 수 있다.

기초야 교수는 “대중에게 의학 알고리즘의 인종 편견 문제를 알리고, 문제를 완화할 방법을 연구해야 한다”라고 말했다. 이번 연구에 기초야 교수와 함께 한 이들은 퍼듀대학교와 MIT, 베스 이스라엘 디커니스 메디컬 센터(Beth Israel Deaconess Medical Center), 국립칭화대학교, 토론토대학교, 스탠퍼드대학교 등에 소속된 전문가이다.

과거의 여러 연구를 통해 의학 알고리즘이 진단 정보 전달 편견의 원인이 되며, 의학계에서 사용하는 이미지 알고리즘이 인구 집단에 따라 불평등하게 진단할 수 있다는 점이 드러났다. 2019년, 가장 심각한 상태의 환자 치료 우선순위에 널리 사용하는 알고리즘이 흑인 환자에게 불리한 결과를 제시한 사실이 발견됐다. 2020년, 토론토대학교와 MIT 합동 연구팀은 흉부 X선으로 폐렴과 같은 질환 상태에 특별히 주의를 기울이도록 훈련된 알고리즘이 간혹 성별과 연령, 인종, 의료 보험 상태 등에 따라 다른 진단 결과를 내놓는다는 사실을 입증했다.

이번 기초야 교수 연구팀의 알고리즘의 환자 인종 감지 가능성 연구에 참여하지 않은 메릴랜드대학교 지능 이미지 센터(Intelligent Imaging Center)의 폴 위(Paul Yi) 소장은 연구팀의 연구 결과 일부는 주목할 만하다며, 심지어 극도의 분노를 유발한다고 말했다.

위 소장과 같은 방사선 전문의는 일반적으로 스캔 이미지 해석 시 환자의 인종은 생각하지 않으며, 심지어 환자가 스스로 밝힌 정체도 알지 못한다. 위 소장은 “인종은 신체적 차이와 관련이 있다고 해도 사회적 요소이지, 생물학적 유전 특성이 아니다”라고 설명했다.

기초야 교수를 비롯한 연구 논문 저자가 환자의 자가 보고와 일치하는 정확한 인종 감지 방법을 정확히 찾을 수 없다는 점에서 분노가 발생한다. 기초야 교수 연구팀은 알고리즘이 지닌 편견을 찾는 것도 더 어려워질 수 있다고 말한다.

여러 차례 진행된 후속 연구는 알고리즘이 특정 신체 영역이나 체질량 지수, 골밀도 등 사회적, 환경적 요소 때문에 인종과 관련성을 지녔을 수도 있는 시각적 특성을 기반으로 환자의 인종을 예측하는 것이 아니라는 사실을 입증했다. 연령이나 성별, 특정 진단 정보 등 특정 인구 집단과 관련이 있는 요소도 유용한 단서 역할을 하지 않는 것으로 나타났다.

미국의 어느 한 지역 병원의 이미지로 훈련받은 알고리즘이 다른 지역의 병원의 이미지에서 정확히 인종을 확인할 수 있다는 사실은 위 소장이 말한 바와 같이 이미지 장비나 처리 과정의 차이 등 소프트웨어가 환자와 관련이 없는 요소를 집어낼 가능성도 배제한다.

알고리즘이 보는 것이 무엇이든 사실을 정확하게 집어낸다. X선 이미지가 숙련된 인간의 눈으로도 판독할 수 없는 수준으로 악화되거나 더 자세한 부분을 제거하는 식으로 이미지가 흐려져도 알고리즘 소프트웨어는 환자의 인종을 매우 정확하게 예측할 수 있다.

기초야 교수 연구팀의 연구 논문의 공동 저자이자 호주 로얄 아델레이드 병원 소속 의학 이미지 연구소장인 루크 오크덴 라이너(Luke Oakden-Rayner) 박사는 AI의 능력을 협력자들이 발견한 ‘최악의 초강대국’이라고 칭한다. 오크덴 라이너 박사는 메커니즘이 알려지지 않았지만, 의료 스캔 분석 목적으로 AI 시스템을 개발하거나 판매하는 이들의 즉각적인 반응이 필요하다고 말한다.

미국 영상의학전문의학회가 보관하는 AI 알고리즘 데이터베이스는 미국 식품의약처(FDA)가 승인한 흉부 이미지 분석을 위한 자료 수십 개를 나열한다. 많은 데이터가 인종을 예측하도록 알고리즘을 훈련한 새로운 연구에 사용하는 표준 데이터 세트를 활용하여 개발되었다. FDA는 기업에 다른 인종 집단별 성능 평가와 보고를 권고하지만, 실제 관련 데이터는 거의 공개되지 않았다.

오크덴 라이어 박사는 인구 집단에 따른 알고리즘의 진단 결과 차이를 확인하고 공개하는 것이 표준이 돼야 한다고 주장한다. 그는 “상업용 모델은 거의 정확하게 환자의 인종을 확인한다. 따라서 기업은 자사의 모델이 불평등한 결과를 생성하는 정보를 활용하지 않도록 확인해야 한다’라고 말했다.

위 소장도 오크덴 라이어 박사의 주장에 동의했다. 동시에 기초야 교수 연구팀의 연구 결과가 머신러닝 알고리즘의 문제점을 상기시키는 요소이며, 진료 과정에서 실질적인 문제에서 인간 전문의를 도울 수도 있으나 환자에 따라 다른 진단 결과를 제시할 수 있다고 말한다. 위 소장은 “폐렴 진단 목적으로 알고리즘 모델을 훈련한다면, 다양한 방식을 택해 정확한 답을 얻고 데이터에서 발견한 것이 무엇이든 이를 최대한 활용할 것이다”라고 전했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
These Algorithms Look at X-Rays—and Somehow Detect Your Race

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다