본문 바로가기 주메뉴 바로가기 검색 바로가기
대규모 인터넷 접속 장애 당시 어떤 문제 발생했나?
상태바
대규모 인터넷 접속 장애 당시 어떤 문제 발생했나?
패스틀리의 대규모 접속 장애는 인터넷의 한 부분에 대대적인 피해를 주었다. 다음 문제는 피해 규모가 훨씬 더 클 수도 있다.
By CHRIS STOKEL-WALKER, WIRED UK

이 기사를 읽는 일부 독자는 6월 8일, 더 가디언 웹사이트에 접근할 수 없었을 때 문제를 알아차렸을 것이다. 혹은 뉴욕타임스나 영국 정부 웹사이트에 접속할 수 없는 것을 알았을 것이다. 아마존에 접속하지 못한 사실을 알았던 이도 있을 것이다. 전 세계적으로 또 다른 인터넷 접속 장애 사태가 발생하면서 수많은 인터넷 사용자에게 피해를 주자 갑자기 많은 이가 불안감에 휩싸이기 시작했다.

영국 시간으로 6월 8일 오전 11시에 발생한 이번 인터넷 접속 장애 사태는 클라우드 컴퓨팅 기업 패스틀리(Fastly)의 콘텐츠 유통 네트워크인 CDN에 타격을 주었으며, 그 결과 패스틀리의 서비스를 사용해 웹사이트를 지원하는 모든 기업이 피해를 보았다. 인터넷 전반에 걸쳐 “에러 503 서비스 접속 불가”라는 메시지가 등장했다.

패스틀리는 45분 이내로 문제를 확인하고, 전 세계에 문제 해결 사항을 구축한 사실을 알렸다. 그 직후 접속 장애 문제가 발생한 웹사이트 모두 정상적으로 돌아오기 시작했다.

한 시간도 되지 않아 대다수 인터넷 사용자가 겪은 유례없는 접속 장애는 글로벌 인터넷 기반시설이 얼마나 취약한지 제대로 보여준다. 이번 문제의 영향을 받지 않은 인터넷의 규모는 추측하기 어렵다. 트위터에서 #사이버공격(#cyberattack)이라는 해시태그가 트렌드가 된 상황에서 현실은 그저 평범한 요소의 영향 때문에 대규모 인터넷 접속 장애라는 결과가 발생한 것으로 확인됐다. 누군가가 서버를 잘못 구성한 것이다. 패스틀리는 트위터를 통해 “패스틀리의 전 세계 POP에 심각한 지장을 준 서비스 구성 문제를 확인하고, 문제가 된 구성 부분을 비활성화했다. 패스틀리의 글로벌 네트워크는 온라인 상태로 되돌아왔다”라고 설명했다.
 
[사진=Unsplash]
[사진=Unsplash]

패스틀리의 경쟁사인 아카마이(Akamai)의 크리스티안 카우프만(Christian Kaufmann)은 “서버를 구성할 때, 서버에 명령한다. 만약, 서버에 잘못된 명령을 내렸다면, 모든 서버에 한 번에 영향을 미칠 수도 있다”라고 말했다. 이후, 카우프만은 패스틀리의 트래픽 다운 사태와 관련된 문제를 구체적으로 밝히는 것을 원하지 않는다는 의사를 밝혔다. 그러나 서버 구성 오류가 대대적으로 큰 피해를 준 사례는 이번이 처음이 아니다. 2020년, 또 다른 주요 CDN인 클라우드플레어(Cloudflare) 대규모 오류가 발생했을 때, 클라우드플레어 측은 구성 오류가 원인임을 인정했다.

패스틀리 서비스를 사용하는 여러 웹사이트 접속 장애 원인이 된 오류로 상호연결성을 지닌 인터넷의 문제 중 한 가지가 부각됐다. CDN 공간의 전력은 주요 공급사 세 곳이 집중적으로 관리한다. 서비스를 제공하는 트래픽 수 측면에서 아카마이가 1위를 차지하며, 그다음으로 패스틀리와 클라우드플레어가 각각 2위와 3위 자리를 두고 경쟁한다. 아마존도 자체 CDN 플랫폼인 아마존 클라우드프론트(Amazon CloudFront)를 보유하고 있다.

패스틀리는 영국 정부와 더 가디언, 아마존 등 주로 기업 고객을 대상으로 서비스를 제공한다. 여러 보고서에 따르면, 아마존은 2020년 중반부터 자사의 콘텐츠 전송 CDN을 패스틀리로 옮기기 시작했다. 개인 웹 성능 컨설턴트인 앤디 데이비스(Andy Davies)는 “다수 거물급 기관 웹 사이트가 패스틀리 서비스를 사용하므로 패스틀리에 문제가 발생하면 이를 즉시 알게 된다. 눈에 바로 드러나지는 않지만, 많은 기업과 기관이 패스틀리를 사용하며, CDN은 대다수 인터넷 사용자가 생각하지 않는 요소이다”라고 설명했다.

패스틀리도 다른 여러 CDN과 마찬가지로 서비스 제공업체 역할을 해, 한 곳에서 호스트되는 콘텐츠를 전송하고는 다른 곳에 있는 인터넷 사용자가 더 가까이 접근하도록 전달한다. 예를 들어, 뉴욕에 서버를 둔 웹사이트가 있다고 생각해보자. 뉴욕과 가까운 곳에서 서버를 사용한다면, 빠르게 콘텐츠에 접근할 것이다. 또, 영국 등 수천 마일 떨어진 곳에 있는 사용자에게는 페이지 로딩 시간이 더 길 것이다. 이는 특히, 영상 스트리밍 서비스에 있어 문제가 된다.

CDN은 데이터 언산 작업이 필요한 네트워크의 가장자리에 있는 에지 서버(edge server)라는 물리적 기반시설로 서버 위치와 사용자 위치 간 거리에 따른 콘텐츠 로딩 속도 문제를 해결한다. 디지털 전략 컨설턴트인 데이비드 그룬왈드(David Grunwald)는 “에지는 클라우드와 사용자 사이에 자리 잡은 인터넷의 일종이다. 처리 과정과 콘텐츠 데이터를 원격 데이터 센터가 아닌 사용자의 위치에 저장한다는 개념이다. CDN은 일반적으로 가장 많이 사용한 콘텐츠를 선택하고는 인구 센터에 더 가깝도록 캐시 메모리에 저장한다”라고 설명했다.

그러나 단순히 데이터 지연만이 문제가 되는 것은 아니다. 데이터 전송 자체가 되지 않는다. 빠른 로딩 속도와 원활한 실행이 이루어지는 인터넷 접근 수요가 증가하는 것은 오프라인으로 전환되면, 체인 전체에 타격을 줄 수 있음을 의미한다. 이번에는 대규모 접속 장애 발생 범위가 매우 넓었다. 레딧(Reddit)과 스택오버플로우(Stackoverflow), 트위치(Twitch), 깃허브(Github), 아마존, 페이팔, 쇼피파이(Shopify), HMRC, 이베이, 그리고 대다수 뉴스 기관 웹사이트의 대부분이 인터넷 접속 장애를 겪었다. 그다음에는 더 심각한 문제가 발생할 수도 있다. 그룬왈드는 “인터넷은 초기 단계에서 다량의 데이터를 전달하도록 설계되지 않았다. 따라서 지난 몇 년간 에지에 이를 저장할 필요성이 급격히 증가했다”라고 말했다.

데이비스는 CDN 문제가 발생했을 당시 99%가 일시적인 대응책도 없는 상태에서 작동되었다고 지적한다. 그는 “아무 문제 없이 수십억 회의 페이지 조회 수를 관리한다. 그러나 무언가 잘못되었을 때만 문제를 인지하면서 깨닫는다”라고 말했다. 종종 회복력을 강화하기 위해 기반시설을 집중적으로 배치한다. 그러나 데이비스는 “그러나 복원성과 페일 세이프(failsafe) 옵션을 더 많이 둔다면, 더 복잡해지기 때문에 실패 위험성이 더 커진다”라고 언급했다.

그러나 데이비스는 중앙화는 대부분의 순간에 그리 문제가 되지 않는다고 말한다. 그는 중앙화를 닭과 달걀의 상황과 비교했다. CDN이 너무 작다면, 기대한 수준의 서비스를 제공하는 데 애를 먹는다. 데이비스는 “중앙화는 서버가 HTTP/3과 같이 급부상하는 웹 표준에 투자하고 작업할 수 있도록 해, 다수 사용자에게 더 나은 경험을 제공할 수 있다”라고 말한다.

그러나 이는 인터넷 기반시설 시장의 진입 장벽이 갈수록 높아짐을 의미한다. 중앙화가 증가하면서 기술적 역량이 갈수록 시장에 진출한 현재의 소수에 더 집중하여 관리되기 때문이다. 예를 들어, 아마존 웹 서비스에서 호스팅하는 사이트가 증가할수록 더 많은 웹사이트가 단 한 번의 순간에 트래픽 오류의 영향을 받는다. 그러나 중앙화 문제를 피할 방법이 있다. 서유럽에서 사이트 호스팅을 하기 위한 서버를 더블린에 두고, 프랑크푸르트에 페일 세이프를 두거나 웨스트 버지니아에 주요 기반시설을 두는 등 웹사이트가 자체적으로 사이트를 복제하여 호스트하는 것이다. 또, 웹사이트 호스팅과 콘텐츠를 여러 개의 CDN에 걸쳐 확장해, 하나의 CDN에 문제가 생기면 다른 CDN이 문제를 보완하는 방법도 있다. 그러나 이를 채택하는 데 비용을 지출하려는 기업은 거의 없다.

더 심각한 문제가 발생했을 때, 해결할 방법은 없다. 옥스퍼드 인터넷 연구소(Oxford Internet Institute)의 코린 캐스퍼스(Corinne Cath-Speth) 박사는 “접속 장애 문제가 발생하는 부분적인 이유는 수요 문제 때문이다. 대부분 언제든지 주어진 시간에 바로 콘텐츠에 접근하는 데 익숙해졌다. 그와 동시에 인터넷 등장 초기 페이지 로딩 시간이 길었을 당시와 같은 인내심을 잃었다”라고 말했다.

일부 다른 전문가는 문제를 다르게 보면서 변화를 일으킬 적절한 시기라고 말한다. 암스테르담대학교 인터넷 기반시설 분야 박사후연구원인 닐스 텐 오베르(Niels Ten Oever) 박사는 “CDN 문제를 해결할 완벽한 시점에 와 있다. 다수 엔지니어가 기술 문제만 생각할 뿐 경제적 요소는 고려하지 않는다”라고 주장했다. 인터넷 기반시설은 모든 수준에서 통합이 이루어지고 있으며, 사용자는 갈수록 소수 기업에 의존하고 있다. 이와 관련, 텐 오베르 박사는 “현재 상황은 견제받지 않은 권력을 통합할 가장 좋은 예시이다”라고 말한다.

향후 또 다른 대규모 인터넷 접속 장애 사태가 발생할 수 있다는 사실을 예측해야 한다. 그러나 상황이 곧 달라질 수 있다. 지난 10년간 여러 민간 기업이 인터넷과 사용자가 하는 일을 통제하기 시작했다. 텐 오베르 박사는 “갈수록 시민 사회와 정부가 불안함을 드러냈다”라고 말했다. 간혹 발생하지만 끔찍한 반응의 원인이 되는 기반시설을 변경하기 위해 편의성을 포기할 의사가 있는가는 별개의 문제이다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
What really went down when the internet went down
이 기사를 공유합니다
RECOMMENDED