본문 바로가기 주메뉴 바로가기 검색 바로가기
뉴스에 등장하는 전적으로 신뢰하기 어려운 통계 수치 팩트체크 원칙 5가지
상태바
뉴스에 등장하는 전적으로 신뢰하기 어려운 통계 수치 팩트체크 원칙 5가지
베이컨을 먹는다고 해서 암 발병률이 20%나 증가할까? 매주 3억 5,000만 파운드를 유럽연합에 지급하는 것이 지나치게 큰 비용인가? 다음의 5가지 간단한 규칙을 따르면, 실제 수치가 의미하는 바를 알 수 있다.
By TOM CHIVERS, WIRED UK

국민 다수가 문맹이면서 제 기능을 하는 민주주의 국가는 존재할 수 없다. 적어도 빅토리아 시대 중기에 알게 된 사실이다. 1867년 개정된 법률은 프랜차이즈 기업에서 다수 노동자 계급으로 적용 범위가 확대됐으며, 이들은 전부 문맹은 아니다. 이에, 많은 엘리트 계급이 국가 운영이 더 어려워질 것이라고 우려했다. 어느 한 정치인은 “개정된 법률 때문에 미래의 통치자가 노동자 계급의 언어를 배울 수밖에 없을 것이 분명하다”라고 말했다. 이러한 우려가 제기된 부분적인 원인은 초등 교육을 의무화한 1870년과 1880년의 교육법 때문이다. 한 마디로 유권자가 신문을 읽을 필요가 있었다.

그러나 오늘날은 국민이 수치를 제대로 이해하지 못하면서 제 기능을 하는 민주주의 국가가 존재할 수 없다. 단순히 글자뿐만 아니라 수치도 이해해야 한다.

특히 2020년, 코로나19 감염의 사망률이 사고 때문에 발생한 사망률과 다른 이유, 지수 곡선이 무엇인지, 그리고 R의 값이 중요한 이유 등을 갑자기 알아야 하는 상황이 되면서 수치를 제대로 이해해야 제 기능을 하는 민주주의 국가가 성립될 수 있다는 것이 사실이라는 것이 더 확실히 드러났다. 그러나 이는 항상 사실이었다. 만약, 정치인이 범죄율, 빈곤율 증가 혹은 감소 사실, 국민 보건 서비스(NHS)의 예산이 증가한 사실 등을 말할 때, 수치 해석 방법을 모른다면 어떻게 정치인을 신뢰할 수 있겠는가?

게다가 또 다른 문제도 있다. 언론인은 항상 통계 수치를 다루는 능력이 훌륭하지 않다. 따라서 기사 속 수치는 독자에게 전달되는 시점에 상당히 심각한 수준으로 훼손되었다.

필자와 필자의 사촌인 경제학자 데이비드(David)는 신간 저서 『수치 읽는 법: 뉴스 속 통계 해석 가이드 및 통계를 신뢰할 때를 아는 법 (How to Read Numbers: A Guide to Stats in the News (and Knowing When to Trust Them))』을 통해 독자가 미디어에 인용된 수치를 조금 더 자세히 이해하도록 도움을 주고자 한다. 통계 수치가 잘못 전달되는 일반적인 상황과 이를 찾아내는 법을 이야기한다. 가장 중요한 다섯 가지 원칙을 아래와 같이 소개한다.

큰 수치인가?
종종 뉴스에서 자세한 맥락을 이야기하지 않고 수치를 제시하며, 매우 크고 인상적인 수치처럼 느껴질 때가 있다. 한 가지 예시를 언급하겠다. 3억 5,000만 파운드라는 수치가 버스의 측면에 작성됐으며, 유럽연합에 매주 3억 5,000만 파운드를 건네는 것처럼 보인다. 그러나 걱정할 것 없다. 위의 수치가 맞는 수치인지를 두고 재차 법정 공방을 벌이려는 것이 아니다. 대신, 진짜 큰 수치인가를 묻고자 한다.

물론 영국인의 평균 임금과 비교했을 때, 큰 금액으로 느껴진다. 그러나 영국인의 평균 임금과 비교할 것이 아니다. 바로 정부의 전체 연간 예산과 비교해야 한다. 영국의 2020년~2021년 예산 편성액은 총 9,280억 파운드이다. 유럽연합에 매주 건네는 금액 3억 5,000만 파운드는 9,280억 파운드의 약 2%인 180억 파운드에 상당하는 수준이다.

그렇다면, 큰 액수인가? 무시할 수 있을 정도로 적은 액수는 아니다. (그래도 3억 5,000파운드라는 액수에 불만이 있다면, 실제 금액이 전체 예산의 1.4% 수준인 2억 5,000만 파운드를 돌려받는다고 다시 설명한다) 그러나 영국의 연간 예산 2%를 유럽연합에 건네는 것은 그리 큰 금액을 건네는 것처럼 느껴지지 않는다. 만약, 뉴스에서 ‘올해 Y 질병 때문에 X명이 사망했다’라는 보도를 본다면, “큰 수치인가?”라고 스스로 되물어보아라. 이를 어떻게 계산할 수 있을까?
 
[사진=Freepik]
[사진=Freepik]

원인이 무엇인가?
환타 오렌지가 담긴 투명한 유리컵으로 누군가의 얼굴을 치고 싶은가? 2011년, 중요한 뉴스 제목으로 작성된 언론 보도에 따르면, 탄산음료가 10대를 폭력적으로 만든다.

일상적인 언어에 주목해보아라. 탄산음료 때문에 10대가 더 폭력적으로 변한다. 그러나 해당 기사 보도의 근거가 된 실제 연구는 다른 결과를 제시한다. 탄산음료를 마시는 10대가 더 폭력적인 행동을 할 수도 있다는 것이 연구 결과였다. 탄산음료와 10대의 폭력성 간 상관관계는 있지만, 이는 일반적인 관계가 아니다.

일례로, 많은 사람이 정해진 날에 아이스크림을 많이 먹는다면, 익사할 위험성이 더 높아진다. 그러나 이는 아이스크림이 익사의 원인이라는 뜻은 아니다. 대신, 더운 날 더 많은 사람이 아이스크림을 먹고 수영을 하러 가며, 이들 중 익사하는 사람이 있는 것이다.

탄산음료 소비량과 칼에 찔려 죽는 사람의 수와 같이 두 가지 수치가 함께 증가하거나 감소한다면, 탄산음료 소비량과 칼에 찔려 죽는 사람의 수가 서로 인과관계가 있는 것처럼 느껴질 수 있다. 혹은 또 다른 요소가 탄산음료 소비량, 그리고 칼에 찔려 죽는 사람의 수 모두에 영향을 미친 것처럼 보일 수 있다. 그러나 사람의 일상생활 관련 대다수 연구와 마찬가지로 탄산음료와 10대의 폭력성 관련 연구에서 하지 않았던 임의로 통제된 실험을 하지 않는다면, 무엇이 원인이고 무엇이 결과인지 알아내기 매우 어렵다. 따라서 “탄산음료가 폭력성의 원인이 된다”, “담배가 아동의 마약 복용 원인이 된다”와 같이 일상적인 언어를 본다면, 종종 타당하지 않다는 것을 알게 된다.

무엇이 50% 이상인가?
부모가 되고자 하는 이가 우려할 이야기를 한 가지 하겠다. 2018년에 보도된 어느 한 기사의 제목에 따르면, 45세가 넘은 아버지에게서 태어난 아이는 35세 미만인 아버지에게서 태어난 아이보다 발작 증세를 겪을 확률이 18% 더 높다.

매우 끔찍한 소식처럼 들린다. 그러나 위의 주장이 의미하는 바는 무엇인가?

발작 증세를 보이는 있는 아이의 수가 얼마나 되는지 알지 못한다면, 위에 언급된 기사가 의미하는 바를 알 수 없다. 이전과 비교했을 때 위험성이 얼마나 커졌는가와 같은 상대적인 위험성만 주어졌다면, 얼마나 중요한지 알지 못한다. 절대적인 측면에서 원래의 위험성이 함께 주어졌을 때만 이해할 수 있다. 위의 보도에서 논의된 연구에 따르면, 35세 미만인 아버지에게서 태어난 아이가 발작 증세를 겪을 확률은 0.024%였다. 45세 이상인 아버지에게서 태어난 아이가 발작 증세를 보일 확률은 약 0.028%였다. 즉, 아버지가 고령이라면, 10만 명당 24명이 아닌 28명이 발작 증세를 겪게 될 수 있다는 의미이다. 비교 수치가 10만으로 증가했을 때, 절대적인 위험은 4%만 증가한다.

“베이컨을 먹을 때, 암 발병률이 20% 증가한다”와 같은 내용의 기사를 보았을 수도 있다. 그러나 무엇이 20% 증가하는가와 같이 절대적인 위험성도 알려지지 않았다면, 그리 도움이 되는 정보를 얻지 못할 것이다.

실제 수치를 측정하는 대상은 무엇인가?
지난 50년간 자폐증 진단 환자의 수가 100배 가까이 증가했다. 1960년대와 1970년대에는 5,000명당 1명꼴로 자폐증 진단을 받았다. 그러나 현재, 54명당 1명이 자폐증 진단을 받는 것으로 추산됐다.

무슨 일이 일어났는가? 잘못된 양육 문제인가? 수질 오염이 발생했나? 아니면, 빌 게이츠가 백신에 마이크로칩을 심어 두기라도 했는가?

아니다. 단지 ‘자폐증’이라고 부르는 개념이 달라졌을 뿐이다. 자폐증 진단 범위는 여러 차례 바뀌었다. 1980년까지 자폐증은 분리 장애로 인정되지 않았다. 1987년과 1994년, 2000년, 그리고 2013년에 그 범위가 확대됐다. 자폐증의 인정 범위는 이후 진단을 받은 아이와 극단적인 증상이 덜한 아이, 과거에 분리 장애를 겪은 적이 있는 아이도 포함되도록 확대되었다. 현재, 자폐증이라고 부르는 증상의 특징 분포에는 변화가 없었다.

‘5년 사이에 혐오 범죄가 2배 증가했다’와 같은 기사 제목을 볼 때, 그와 비슷한 사건이 발생하고 있는지 의문을 제기할 가치가 있다. 이미 밝혀진 바와 같이 아마도 대중이 혐오 범죄 신고를 더 많이 신고해, 경찰이 이를 기록하는 것에 더 나은 모습을 보였기 때문일 수도 있다. 범죄 조사 결과에 따르면, 실제 최근 몇 년간 혐오 범죄가 증가하기는커녕 감소했다. 항상 수치를 측정하는 대상의 기준이 바뀌었는지 의문을 제기할 가치가 있다.

연구 결과가 신뢰할 만한가?
많은 순간, 뉴스에서 확실하지 않은 수치를 보도하는 것을 두고 기자 탓을 하는 것은 옳지 않다. 기자는 여러 조사와 연구 논문을 통해 수치를 확인하며, 모든 연구가 똑같지는 않다.

일례로 2020년, 하이드록시클로로퀸(hydroxychloroquine)을 코로나19 치료에 활용한다는 연구가 어느 정도 주목을 받았다. 연구에서 하이드록시클로로퀸이 코로나19 치료에 효과가 있다는 결과가 나왔다. 그러나 또 다른 임상시험에서 하이드를시클로로퀸이 코로나19 치료에 효과가 없다는 결과가 나왔다. 여기서 독자와 기자가 어떤 연구가 사실인지 알아낼 방법은 무엇일까?

어려운 질문이다. 위의 예시에서는 한 가지 간단한 답변을 할 수 있다. 하이드록시클로로퀸이 코로나19 치료에 효과가 있다는 연구는 환자 42명만 살펴보았다. 반대로 효과가 없다는 결과가 나온 임상시험은 임의로 통제된 상태에서 환자 1만 1,000명을 살펴보았다. 그러나 이와 같은 사실은 종종 알아내기 어렵다. 그러나 몇 가지 법칙이 있다. 바로 소규모 실험이 대규모 실험보다 더 나쁜 결과를 얻고, 그 외의 실험은 똑같다. 만약 연구에서 다른 여러 연구의 결과를 대변하지 못하는 예상치 못한 결과를 발견하게 된다면, 연구가 잘못되었을 수도 있다. 또, 사전 등록돼, 과학자가 자신의 연구 결과에 최대한 활용하기 더 어려운 연구는 종종 다른 연구보다 더 신뢰할 수 있다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Five rules for fact-checking shakey statistics in the news
이 기사를 공유합니다
RECOMMENDED