본문 바로가기 주메뉴 바로가기 검색 바로가기
美 공화당, 대법원에서 오차값 통계 악용
상태바
美 공화당, 대법원에서 오차값 통계 악용
텍사스주는 형편없는 통계 분석을 이용해, 2020년 대선 결과를 번복할 방안을 모색하고 있다. 이는 의학 전문가에게서 발견할 수 있는 일이다.
By BENJAMIN MAZER, WIRED US

필자는 지난달, 불안감과 기쁨이 뒤바뀐 상황을 겪었다. 결국, 모순적이라는 상황으로 악화한 대통령 선거 결과 번복이라는 트럼프 대통령의 부정한 법률 행위 시도 때문이다. 법원에서 소송 10여 건을 기각하고, 경합 지역에서의 투표가 인정되자 필자는 미국이 더는 진전을 거두기 어렵다고 생각했다. 그러나 결국 한 가지 분노가 남았다. 또, 필자와 같이 과학적 사고를 지닌 이들이 견딜 수 없는 한계점이 있다. 바로 트럼프 대통령이 통계를 오용했다는 사실이다.

12월 7일(현지 시각), 텍사스주 검찰총장이 미국 대법원에 선거에 개입할 것을 요청하는 소송을 제기했다. 분노를 느껴 심박 수가 급격히 바뀌기 전, 필자는 법률 전문가들이 해당 소송을 기각했다는 사실을 먼저 밝힌다. 이는 소송 자체가 위험하지 않다는 뜻이 아니다. 두 차례의 정치적 대화를 다룬 언론 보도 편성 시간에 이상하지만 실제 1,000조라는 천문학적인 수치가 정치적 대화에 도입됐다. 그리고, 이른바 선거 사기 입증으로 몇 년간 지속할 수 있는 새로운 유형의 여러 음모론이 싹을 틔우게 됐다. 12월 8일(현지 시각), 18곳이 넘는 주에서 텍사스 소송을 지지할 준비를 하자 백악관 대변인 케일리 매크네니(Kayleigh McEnany)는 선거 소송과 관련된 한 가지 핵심 주장을 트위터에 게재했다. 그는 트위터에 “트럼프 대통령의 초기 우세 이후 바이든이 펜실베이니아주, 미시간주, 조지아주, 위스콘신주에서 독립적으로 승리할 가능성은 1/1,000조 이하이다”라고 주장했다. 그리고는 트위터에 1 뒤에 0을 15개 입력해, 1,000조라는 숫자를 강조했다.

매크네니 대변인이 언급한 모든 주에서 조 바이든 당선인이 승리한 사실을 고려했을 때, 조 바이든 당선인이 승리했을 가능성은 100%이다. 그런데도 그리고 권위적인 것처럼 보이는 문건에서 이러한 통계가 생성되고 확산한 방식은 과학 문헌에 자주 의존하는 의사인 필자에게 매우 친숙한 방식이다. 필자는 근거 없는 대선 무효 소송과 치료를 안내하기 위한 의학 연구에서는 트럼프 대통령이 사용한 것과 같은 통계적 속임수를 이용해서는 안 된다고 제안하고자 한다.

과학은 정치 여론 조사만큼 어려운 분야이다. 필자와 같은 이들은 전 세계 중 일부만 볼 수 있을 때, 모든 세계가 돌아가는 방식을 설명하라는 요청을 받는다. 어느 한 여론 조사 기관은 일부 유권자에게 전화를 걸어 미국 전체 예상 투표율을 분석하고자 한다. 이와 비슷하게 치료가 의학 조건을 향상한다면, 전문가들은 고작 수백 명 혹은 수천 명을 대상으로만 실험할 수 있다. 궁극적으로는 수백만 명이 실험을 받게 되더라도 말이다. 현대 통계학에는 이러한 상황을 다룰 수 있는 도구가 있다.
 
[사진=Unsplash]
[사진=Unsplash]

1,000조라는 수치를 얻은 경제학자 찰스 치케티(Charles Cicchetti)는 ‘0의 확률 가설 검증(null hypothesis significance testing)’이라는 통계학 도구를 이용했다. 0의 확률 가설 검증은 간단하지만 교묘하다. 통계를 이용해 세계가 움직이는 방식에 대한 가설이 우리가 실제 관찰하고 있는 것과 양립할 수 있다는 사실을 증명할 수 있을까? 이때, 교묘한 부분은 가설을 선택하는 방식이다.

필자는 1,000조라는 수치가 나온 이른바 1,000조 게이트(Quadrilliongate)가 옳다고 가정한다. 특정 선거구의 표가 선거 당일 개표되고, 나중에 같은 투표함에 트럼프 지지표와 바이든 지지표를 똑같이 섞은 뒤 표를 임의로 확인한다면 같은 결과가 나올 것이라고 예상할 수 있다. 그리고, 확실히 초기 트럼프의 수게가 번복될 확률은 매우 낮다. 1/1,000조의 확률이다. 그러나 가정 자체와 트럼프 세력이 생각하는 것의 의미에서부터 문제가 된다. 치케티는 "두 차례 표로 작성된 표는 같은 유권자가 던진 모든 표에서 얻은 임의의 샘플일 수 없다"라는 사실을 증명하는 듯하다. 여기서 문제점을 확인했는가? 바로 미국에서 몇 개월 앞서 이야기한 점이다. 민주당이 우편 투표를 선호하고, 공화당은 대면 투표를 선호한다는 '민주당 우세로의 변화'이다. 선거 사기의 증거라고 하기 힘들다. 치케티는 "아직 투표에서 집계되지 않은 일부 유권자 표가 부재자 우편 투표일 가능성이 있다"라고 인정했다. 물론 추측이 아니다. 일례로 선거 다음 날, 조지아주 장관은 우편 투표 20만 표가 개표 전이라고 발표했다.

훌륭한 과학이 적용됐다면, 훌륭한 질문을 하고 결과를 받아들이는 것을 의미한다. 반면, 이번의 정직하지 못한 소송의 예시와 같이 과학이 형편없이 적용됐다면, 이미 답변을 염두에 두고 있으면서 자신이 원하는 최상의 답변을 얻기 위해 질문을 택하게 된다. 이번 소송 사건을 담당한 변호사들은 민주당을 지지하는 표가 선거 당일 밤 이후에 집계됐다고 의심한다는 사실을 보여주고자 중요한 결과를 얻기 위해 사건과 관련이 없는 가정을 택했다.

필자의 전문 분야인 의학에서는 대중이 생각하는 것보다 형편없는 과학에 더 의심한다. 예를 들어, 임상시험 구상 단계에서 제약사가 통제 집단을 조작해 통계 차이를 얻는 방식이다. 제약사는 본질에서 의도적으로 잘못된 질문을 한다. 미국 의사협회 종양학회지 저널에 최근 공개된 분석 결과에 따르면, 지난 몇 년간 놀라울 정도로 많은 양의 암 치료 의약품이 잘못된 질문을 거쳐 미국 식품의약청(FDA)에서 승인받았다. 연구진은 새로운 의약품이 현재 대체 가능한 대체 의약품보다 더 효과가 좋은지 묻는 대신 다음과 같이 형편없는 다른 질문을 했다. “2위에 이름을 올린 의약품보다 새로 개발된 의약품의 효과가 좋은가?” 이것이 끝이 아니다. 연구가 한 차례 완료되면, 연구진은 계속 다른 가정을 적용해, 통계적으로 중요한 값을 찾는다. 결과를 알고 난 후, 가설을 세우는 이른바 ‘하킹(HARKing)’ 과정을 적용한다.

이와 같은 속임수에서 오래 지속된 점은 인간이 오차값이 크다는 사실에 놀란다는 점이다. 그렇다, 오차가 중요하다. 크기가 작을수록 좋다. 물론 필자는 통계 조작을 이야기하는 것이다. 통계 계획의 최종 산물은 다음과 같다. 자신이 제시한 가정에 데이터가 적합할 확률을 나타내는 단 하나의 숫자이다. (통계 조작이 실제 의미하는 바를 가장 적절하게 설명하는 것을 둘러싼 끊임없는 논쟁이다) 이러한 과정은 의학 연구를 통해 구성됐으며, 0의 확률이라는 가설은 형편없다. 비교 대상이 된 두 집단이 똑같다는 의미이기 때문이다. 의약품은 위약보다 더 나은 효과를 지니고 있지 않다. 음성일 때, 양성이라는 결과가 나올 수 없다. 오차가 낮다는 사실은 중대한 차이를 감지했다는 사실을 나타낸다.
 
통계적 속임수를 사용한 것은 법정에서 비웃음거리가 될 수 있지만, 과학 저널에서는 많은 이에게 안도감을 준다.

제멋대로인 역사적 이유로 과학은 치료나 관측을 나타내기 위한 한계치가 사실이라는 점에서 0.05라는 오차를 고정하게 됐다. 우리가 실수했을 확률이 5% 이하일 때, 안도한다는 사실을 의미한다. 이때 확률이 낮을수록 더 좋다. 의사와 과학자는 자랑스럽게 자신의 오차가 0에 얼마나 가까운가를 두고 자랑스러워한다. 그러나 1/1,000조이라는 치케티의 오차 값은 우리 모두를 부끄럽게 만든다.

어떠한 대가를 치르더라도 낮은 오차값을 얻기 위한 집착 때문에 과학계에서 복제 위기라고 고려하는 상황이 발생했다. 그러나 관련이 없는 비교를 택하는 것이 데이터의 오차를 줄이기 위한 유일한 방법이다. 고인이 된 통계학자 더글라스 알트만(Douglas Altman)은 의학 연구를 ‘스캔들’이라고 일컬었다. 형편없는 수단에 대대적으로 의존하며, 한 가지 영향력이 있는 논문에는 더 직설적으로 ‘스캔들’이라는 표현을 사용했다. 동시에 논문으로 게재된 연구 결과 대부분 거짓이라고 주장했다. 통계적 속임수를 사용한 것은 법정에서 비웃음거리가 될 수 있지만, 과학 저널에서는 많은 이에게 안도감을 준다.

과학자들은 서서히 오차값에서 얻은 잘못된 이익과 방법을 변경하고 있다. 그러나 과학계나 법조계에서만 오차값의 문제가 발생한 것이 아니다. 문헌 분석을 기반으로 한 확률을 알고자 한다면, 필자는 즉시 과학 문헌을 찾아 추정치를 찾을 것이다. 수치 객관성의 이점에 저항할 수 없다. 우리가 바라는 세계는 사실과 수치가 깔끔하게 일치하는 세상이다. 불확실한 상황에서는 1/1,000조와 같이 소수점 15개가 있는 수치를 이용해서라도 불확실성을 알기를 원한다. 그러나 삶은 그 이상으로 불확실하다. 간혹 무사히 끝날 것이 확실해 보이는 수술일지라도 실패할 수 있다. 또, 모두가 예측한 시기보다 더 오래 사는 환자도 있다. 간혹 불확실한 바이러스가 동물에게서 인간에게 전파돼, 전 세계를 마비시킨다. 그리고, 조 바이든이 조지아주에서 승리할 수도 있다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Republicans Are P-Hacking the Supreme Court
이 기사를 공유합니다
RECOMMENDED