챗GPT, 의사에게는 도움·환자에게는 피해준다

By KHARI JOHNSON, WIRED US

스탠퍼드대학교 의과대학원 교수 로버트 펄(Robert Pearl)은 과거, 미국 전역에서 환자 1,200만여 명을 진료하는 의료 기관인 카이저 병원 CEO였다. 만약, 펄 교수가 지금도 카이저 병원 CEO로 부임했다면, 카이저 병원 의사 2만 4,000명에게 진료 시 인공지능(AI) 챗봇인 챗GPT를 활용하라고 지시했을 것이다.

펄 교수는 “과거의 의료 장비보다 챗GPT가 의사에게 더 중요하다고 생각한다. 미래에는 챗GPT나 다른 형태의 생성형 AI에 접근하지 않는 의사가 뛰어난 의술로 환자를 진료하지 못할 것이다”라고 주장했다.

현재 펄 교수는 환자를 진료하지 않지만, 환자 진료 기록 요약, 소견서 작성, 더 나아가 환자 진료 방식 관련 의견 질문에도 챗GPT를 사용하는 전문의 여러 명을 알고 있다고 밝혔다. 펄 교수는 의사가 인간의 건강 개선용 봇 수십만 개를 찾을 것이라고 확신한다.

오픈AI의 챗GPT와 같은 기술이 구글 검색 엔진이 장악한 우위에 맞서면서 업계의 획기적인 변화 관련 논의를 촉발한 가운데, 다양한 언어 모델이 과거에는 프로그래머, 변호사, 의사 등 전문직 화이트칼라 근로자의 전유물이었던 작업을 처리하는 능력을 선보이기 시작했다. 결국, 전문의 사이에서 AI가 환자 진료를 도울 방법을 주제로 한 대화가 시작됐다. 많은 전문의가 다양한 언어 모델이 디지털 보건 기록 정보를 발견하거나 환자에게 장문의 기술적 정보를 요약하여 전달할 것을 기대한다. 그러나 의사를 속이거나 부적절한 진단이나 치료 계획으로 이어질 부정확한 반응을 제공할 가능성을 우려하는 목소리도 제기되었다.

AI 개발 기업은 더 우수한 언어 모델 구축 경쟁 벤치마크 기준으로 의과대학 시험을 채택했다. 2022년, 마이크로소프트 리서치(Microsoft Research)는 광범위한 영역의 의료 업무를 처리할 수 있는 언어 모델인 바이오GPT(BioGPT)를 공개했다. 오픈AI(OpenAI)와 매사추세츠 일반 병원(Massachusetts General Hospital), 안시블헬스(AnsibleHealth)가 발표한 논문은 챗GPT가 미국 의사자격증 시험에서 60점이 넘는 점수를 받아 시험에 합격할 수 있다고 주장한다. 그리고 몇 주 뒤 구글과 딥마인드 연구팀은 같은 시험에서 점수 67점을 받은 의학 언어 모델인 메드-PaLM(Med-PaLM)을 공개했다. 다만, 구글과 딥마인드 연구팀은 메드-PaLM의 성적은 주목할 만한 연구 결과를 의미하지만, 메드-PaLM의 지능이 전문의보다는 여전히 한 수 아래라고 덧붙였다. 마이크로소프트와 세계 최대 보건복지 소프트웨어 공급사 중 한 곳인 에픽 시스템즈(Epic Systems)는 챗GPT의 기본 언어 모델인 오픈AI의 GPT-4를 전자 건강 기록 트렌드 검색 목적으로 이용할 계획이라고 발표했다.

AI가 보건복지에 미치는 영향을 연구 중인 하버드대학교 공중보건대학원 부교수 헤더 마티(Heather Mattie)는 처음 챗GPT를 사용하여 얻은 답변이 인상적이었다고 전했다. 마티 부교수는 자신의 연구 주제이기도 한 사회적 관계 모델 형성을 HIV 연구에 이용하는 방식을 요약하라는 명령어를 입력했다. 결과적으로 챗GPT가 제시한 주제는 마티 부교수가 알고 있는 바와는 다른 내용을 전달했다. 이후 마티 부교수는 챗GPT의 답변이 사실을 기반으로 하는지 알 수 없었다. 결국, 챗GPT가 의학 논문의 전혀 다르거나 반대되는 결론을 다루는 방식과 챗GPT의 답변이 적합한지 혹은 피해를 주는지 판단하는 대상이 누구인지 궁금증을 품게 되었다.

마티 부교수는 처음 사용했을 당시보다는 챗GPT 대한 비관적인 견해가 어느 정도 덜한 편이라고 말한다. 챗GPT가 100% 정확하지 않으며, 선입견이 반영된 결과를 생성할 수 있다는 점을 인지한다면, 텍스트 요약과 같은 작업을 처리할 유용한 수단이 될 수 있다. 특히 마티 부교수는 챗GPT가 심혈관계 질환과 중환자 치료 점수 부여 목적 등에 사용하는 진단 장비를 다루는 방식을 우려한다. 진단 장비가 인종과 성별을 기준으로 한 선입견을 지닌 선례가 여러 차례 발생했기 때문이다. 하지만 챗GPT를 임상 진료 환경에서 사용하는 것에는 조심스러운 태도를 보인다. 사실을 조작하고, 챗GPT가 전달하는 정보가 기준으로 삼는 시점이 정확하지 않기 때문이다.

마티 부교수는 “의학 지식과 진료는 시간이 지나면서 변화와 발전을 거듭한다. 일반 치료법 설명 시 의학 챗GPT가 발췌한 정보의 시점을 알 수 없다. 최신 정보인지 오래된 정보인지도 짐작할 수 없다”라고 지적했다.

사용자도 챗GPT와 같은 AI 챗봇이 매우 설득력이 있는 방식으로 사실을 조작하거나 사실인 것처럼 보이는 가짜 정보를 전달해, 사실 검증을 하지 않을 시 심각한 문제로 이어질 수 있는 상황을 경계해야 한다. AI가 생성한 텍스트는 알아차리기 어려울 정도로 매우 미묘한 방식으로 인간에게 영향을 미칠 수 있다. 2023년 1월 게재되었으나 동료 심사 과정이 완료되지 않은 어느 한 논문은 챗GPT의 윤리적 문제를 제기한다. 해당 논문은 챗GPT가 일관성이 없는 윤리적 조언을 하여 인간의 결정에 영향을 미칠 수 있다는 결론을 내렸다. 논문은 사용자가 AI 소프트웨어가 생성한 조언임을 알고 있더라도 인간에게 영향을 미치는 것은 마찬가지라고 덧붙였다.

의사의 일은 백과사전처럼 정확한 의학적 지식을 반복하여 전달하는 것에 훨씬 더 가깝다. 많은 전문의가 텍스트 요약처럼 위험성이 적은 작업에 챗GPT를 활용하는 것에 열광한다. 그러나 일부 생명윤리학자는 환자의 생존이나 회복 가능성이 낮은 수술 진행 적합성과 같은 윤리적 난제를 직면했을 때, 챗GPT의 조언에 의존할 가능성을 우려한다.

에든버러대학교 미래 기술윤리센터 소속 생명 윤리학자인 제이미 웹(Jamie Webb)은 “의사가 윤리적 문제와 관련된 중요한 사안을 다룰 때 생성형 AI 모델에 의존하여 결정하거나 결정을 자동화할 수 없다”라고 지적했다.

2022년, 웹과 복수의 윤리 심리학자는 의학 분야에서 사용할 AI 기반 윤리 조언 툴 구축이 의미하는 바를 연구하였다. 해당 연구를 진행하게 된 계기는 의학 분야에서 윤리적 조언이 필요할 때 AI에 의존하는 것을 제시한 과거 연구 결과이다. 웹의 연구팀은 AI 시스템이 여러 윤리 원칙 간 균형을 안정적으로 유지하기 까다로우며, 의사를 포함한 의료진이 직접 윤리적으로 까다로운 문제를 고심하지 않고 AI에 과도하게 의존한다면, 윤리적 능력 상실을 초래할 수 있다는 결론을 내렸다.

웹은 과거, 언어 처리가 가능한 AI가 의사의 업무 혁신을 이룰 것이라고 주장한 의사 다수가 챗GPT와 같은 AI 챗봇의 의학 업무 처리 능력에 실망했다고 밝힌 사실을 지목했다. IBM의 컴퓨터 왓슨(Watson)이 2010년과 2011년, 퀴즈쇼에서 우승하자 왓슨 연구팀이 암 치료에 주목하고는 AI의 암 치료 효과를 주장했다. 그러나 초기에는 박스 안 ‘메모리얼 슬론 케터링(Memorial Sloan Kettering) 암 센터’라고 불린 왓슨은 IBM 측의 주장과 달리 임상 진료 단계에서 성공하지 못했다. 결국, IBM은 2020년, 왓슨 프로젝트를 종료했다.

AI의 암 치료 효과 주장을 신뢰할 수 없지만, 주장의 여파는 오래 이어질 수도 있다. 2023년 2월, 의학계에서 AI의 잠재적 효과를 주제로 진행된 하버드대학교 패널 토론 도중 전문의인 트리샨 판치(Trishan Panch)는 동료 중 한 명이 챗GPT 배포 직후 챗GPT에 질병 진단을 요청한 뒤 돌아온 결과를 공유한 트위터 게시물을 게재한 사실을 떠올렸다.

많은 임상의가 해당 트위터 게시글 게재 직후 환자 진료 시 챗GPT를 사용하기로 다짐하는 반응을 보였다. 그러나 판치는 20번째 답변을 보낸 다른 의사가 대화에 참여하면서 챗GPT가 생성한 인용 정보 모두 거짓이라는 사실을 지적했다. 헬스케어 소프트웨어 스타트업 웰프레임(Wellframe) 공동 창립자이기도 한 판치는 “한두 가지 문제 탓에 전체의 신뢰도가 무너질 수도 있다”라고 언급했다.

AI가 간혹 심각한 실수를 범하지만, 펄 교수는 여전히 의학계의 챗GPT와 같은 언어 모델 활용 전망을 낙관한다. 펄 교수는 몇 년 후면 헬스케어 분야의 언어 모델이 아이폰과 더 비슷한 형태로 발전하여 다양한 기능을 제공하고, 의사 업무 강화 및 환자의 만성 질환 진료에 도움을 줄 수 있을 것이라고 확신한다. 더 나아가 챗GPT와 같은 언어 모델이 의학적 실수 때문에 매년 미국에서 발생하는 사망 건수 25만 건 이상 줄이는 데 도움이 될 수도 있다고 확신한다.

펄 교수는 AI가 처리할 수 있는 범위 밖의 일도 고려한다. 환자의 슬픔과 상실감, 임종을 앞둔 환자와 가족의 대화, 합병증 위험성이 수술 논의 시 AI가 개입해서는 안 된다고 말한다. 환자가 필요로 하는 사항은 AI가 제대로 알지 못하는 주제로 대화해야 할 상황이 발생할 정도로 매우 다양하기 때문이다.

펄 교수는 “인간 간 대화가 필요한 부분이다”라며, 오늘날 의학계에서 사용할 수 있는 AI의 역량은 전체 잠재력 중 극소수에 불과하다고 예측했다. 이어, “내 예측이 틀렸다면, AI 기술의 발전 속도를 과대평가했기 때문일 것이다. 그러나 매번 AI 발전 상황을 관측할 때마다 예상보다 빠른 소고로 발전한 것을 확인했다”라고 덧붙였다.

현재 펄 교수는 챗GPT의 역량이 의과대학생과 같다고 비유한다. 환자에게 적절한 도움을 주고 설명할 수는 있지만, 전문의의 검토가 꼭 필요하기 때문이다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
ChatGPT Can Help Doctors—and Hurt Patients

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다