본문 바로가기 주메뉴 바로가기 검색 바로가기
반대수 그래프란 무엇이며 이를 코로나-19 데이터에 어떻게 사용할 수 있는가?
상태바
반대수 그래프란 무엇이며 이를 코로나-19 데이터에 어떻게 사용할 수 있는가?
반대수 그래프는 미국의 숫자와 비교했을 때 한국의 사례 번호와 같이 규모에 따라 다른 순서로 된 데이터를 보여주는 데 매우 유용하다.
by Rhett Allain, WIRED US

코로나-19 전염병 때문에 일이 잘 풀리지 않는 건 확실하다. 감염된 사람의 수가 점점 더 많아지고 있다. 오늘 현재 미국에서만 1000만 건 이상의 코로나-19 확진 환자가 발생했다. 그러나 일부 다른 나라들은 (한국과 같은) 훨씬 더 적은 수의 환자 수를 가지고 있다. 3만 명 미만이다. 확진자가 100명대였던 미국의 3월 사례를 보고 싶을 수 있다, 하지만 수백만에 달하는 10월과 비교해보라. 그렇다면, 이렇게 엄청난 범위의 값을 가진 데이터를 어떻게 표시할 것인가? 답은 반대수 그래프를 사용하는 것이다. 지금부터 이것이 어떻게 작동하는지 정확히 설명할 것이다.
 
[사진=UNSPLASH]
[사진=UNSPLASH]

하루 확진자 수를 함수로 확인된 경우의 수를 간단히 나타낸 그래프부터 시작해보자. 예를들어 1일은 미국(그리고 한국)이 확진자가 발생한 첫날이다. 한국은 미국(5100만 명 대 3억2800만 명)보다 인구가 적기 때문에 일부 큰 나라들도 포함시키는 것이 유용할 수 있다. 브라질(2억900만 명)과 인도(14억 명)를 포함시킬 것이다. 이것은 이 4개국의 정상적인 (반대수가 아닌) 도표일 뿐이다. 당신은 이 모든 데이터를 존스 홉킨스 대학의 코로나-19 데이터 저장소에서 얻을 수 있다.

이 도표를 보고 무엇을 알수있는가(원본 기사에서 확인 가능)? 미국 말고도 확증된 케이스가 너무 형편없다는 것을 빼고 말이다. 문제는 한국의 자료조차 볼 수 없다는 것이다. 너무 작아서 볼 수가 없다. 거대한 미국 데이터와 그다지 크지 않은 한국 데이터를 모두 조사하려면 반대수 그래프가 필요하다.

도대체 반대수 그래프란 무엇인가? 첫 번째로 큰숫자부터 시작해보자. 100만 달러. 나는 이것을 가장 흔한 방법으로 1에 6개의 0으로 쓸 수 있었다. 이렇게 100만. 하지만 나는 또한 그것을 10의 거듭제곱으로도 쓸 수 있었다.

확실히 하자면 106은 10 x 10 x 10 x 10 x 10 x 10을 의미한다. 하지만 10의 거듭제곱을 끌어올리고 싶다면? 큰 숫자를 올려서 쓰는 것이 훨씬 더 쉽다. 이것이 바로 우리가 과학적 표기법으로 숫자를 가지고 하는 일이다. 숫자를 올리는 10의 거듭제곱을 찾는 것은 정확히 로그가 하는 일이다. 100만개의 로그를 찍으면 6의 결과가 나온다. 중요한 것은 만약 우리가 어떤 거듭제곱으로 10을 올린다고 한다면, 그것은 우리가 10의 로그 베이스를 사용하고 있다는 것을 의미한다. 가장 일반적인 두 가지 근거는 10 (베이스-10으로 숫자를 쓰기 때문에) 또는 e, e가 대략 2.718인 자연수(비합리적). 

하지만 기다려보라. 10의 정수가 아닌 숫자의 로그도 가져갈 수 있다. 그냥 번호만 정하자.난 1,234로 할 것이다. 이 번호의 로그 값을 입력하면 log 1234 = 3.09132이다.

이는 10을 3.09132의 힘으로 올리면 1,234를 얻는다는 것을 의미한다. 하지만 왜 그것이 좋을까? 우리의 끔찍한 코로나-19 데이터로 돌아가자. 확인된 감염의 수를 표시하지 않고 감염 수의 로그(기준 10)를 표시한다고 가정한다. 그러면 숫자와 날짜 번호의 로그를 표시할 수 있다. 

확실히 하자면, 이것은 첫 번째 도표과 같은 데이터지만 큰 차이가 있다. 그 나라의 숫자가 미국보다 훨씬 적지만, 실제로 한국의 데이터를 볼 수 있다. 왜 그럴까? 자, 2020년 11월 17일 현재 확인된 총 환자 수를 살펴보자. 미국은 11,036,935, 한국은 28,769 이다. 이제 이 두 숫자의 로그(베이스 10)를 보자.

로그 함수의 매우 대략적인 추정치를 원하지 않는 한 계산기에 이 값을 입력하거나 값을 찾는 로그 테이블을 사용한다. 이제 우리는 매우 멀리 떨어져 있는 숫자들을 갖는 대신, 같은 범위(7.04와 4.46)의 값을 가지고 있어서 그래프에 있는 동일한 척도에 쉽게 맞출 수 있게 되었다. 하지만 실제로 데이터 로그를 가져갈 필요는 없다. 비선형 수직축을 사용하는 또 다른 옵션이 있다.

수직 축의 숫자는 고정된 단계 크기가 아니라는 점에 유의한다. 수직축의 표시는 1,000건 이상의 추가 증가가 아닌 10의 검정력 증가를 나타낸다. 수평 척도가 여전히 선형이기 때문에 이것을 반대수도라고 한다. 로그 그림에는 두 축이 지수 척도로 표시된다.

그렇다면 반대수 그래표은 언제, 선형 축 도표은 언제 사용해야 하는가? 매우 광범위한 값 범위(규모의 서로 다른 순서)에 걸쳐 있는 데이터가 있는 경우 모든 것을 볼 수 있도록 반로그 그림을 만들어야 한다. 데이터의 범위가 같은 크기(초대수라도)라면 정규 그래프를 만들면 된다. 하지만 조심할 필요가 있다. 반로그 플롯을 보고 선형 축을 가지고 있다고 가정하면 정말 그렇지 않을 때는 한국이 꽤 안 좋은 것처럼 보이게 한다.

슬프게도, 코로나-19의 확진자 수 때문에 당신은 반대수 그래프가필요하다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 배효린 에디터)

<기사원본>
What's a semi-log plot and how can you use it for Covid data??
와이어드 코리아=Wired Staff Reporter huyrin1@spotv.net
이 기사를 공유합니다
RECOMMENDED