본문 바로가기 주메뉴 바로가기 검색 바로가기
페이스북·인스타그램·왓츠앱 접속 오류, 문제 원인은 바로 ‘이것’
상태바
페이스북·인스타그램·왓츠앱 접속 오류, 문제 원인은 바로 ‘이것’
BGP 경로 문제 때문에 페이스북의 모든 SNS 서비스 접속 오류가 발생했다.
By BRIAN BARRETT, WIRED US

10월 4일(현지 시각), 페이스북과 인스타그램, 왓츠앱, 오큘러스까지 발생한 접속 장애는 마크 저커버그의 플랫폼 제국을 모두 오프라인 상태로 전환됐다. 아주 관대한 표현을 하자면, 아주 깊은 곳까지 피해를 준 접속 장애로, 이번 문제는 유독 고치기 어려운 듯한 것으로 입증된 SNS 대규모 접속 장애 사태이다.

페이스북은 대규모 접속 장애의 근본적인 원인을 확실히 밝히지 않았으나 인터넷에 문제의 원인이 풍부하다. 페이스북 계열사 앱 모두 10월 4일 오전 11시 40분(미국 동부 시각), 도메인 이름 시스템(DNS) 기록에 접근할 수 없는 상태가 되면서 문제가 발생하기 시작했다. DNS는 종종 인터넷 전화번호부라고 칭한다. 바로 facebook.com과 같이 사용자가 URL 탭에 입력한 호스트 명칭을 사용자가 접속하고자 하는 사이트가 있는 IP 주소로 변환한다.

DNS 오류는 보편적인 문제이지만, 이번 페이스북 사태와 같은 사이트 접속 장애의 원인은 아니다. 각종 결함이 있는 기술적 문제가 원인이 되며, 주된 원인은 구성 문제와 관련이 있다. 그러나 이는 상대적으로 어렵지 않게 직접 해결할 수 있는 문제이다. 그러나 이번 페이스북 대규모 접속 장애 사태는 처음 발생한 것보다 더 심각한 문제로 드러났다.
 
[사진=Unsplash]
[사진=Unsplash]

사이버 위협 정보 기업 배드 패킷츠(Bad Packets)의 최고 연구 관리자인 트로이 머쉬(Troy Mursch)는 “페이스북의 대규모 접속 장애 원인은 DNS이다. 그러나 DNS는 단순히 문제 증상일 뿐이다”라고 말했다. 이어, 근본적인 원인은 페이스북이 IP 주소와 DNS 네임 서버 등을 포함한 이른바 경계 경로 프로토콜(BGP) 제공을 중단한 것이라고 덧붙였다. 다른 여러 전문가도 머쉬의 주장에 동의했다. DNS가 인터넷 전화번호부라면, BGP는 경로 시스템이라고 볼 수 있다. BGP는 경로 데이터가 초고속 정보통신망을 이동하면서 선택할 경로 데이터를 판단한다.

네트워크 모니터링 기업 시스코 사우전드아이즈(Cisco ThousandEyes)의 제품 마케팅 국장인 안젤리퀴 메디나(Angelique Medina)는 “전화 간의 경기라고 생각할 수 있다. 사람이 경기하는 대신 소규모 네트워크가 서로 접근 방법을 알도록 하는 것이다. 네트워크는 다른 네트워크에 경로를 공개하고, 그 주변 다른 네트워크가 이를 다른 네트워크에 널리 확산시킨다”라고 설명했다

여러 가지 특수 용어가 필요하지만, 페이스북이 인터넷 지도를 포기했다는 사실을 분명하게 나타낼 수 있다. IP 주소 연결 여부를 판단할 질문을 하고자 하는가? 머쉬는 “결국 패킷이 경로를 찾지 못한다”라고 말했다.

여전히 해결되지 않은 것이 분명한 의문 사항은 처음 BGP 경로가 사라진 원인이다. 특히, 페이스북의 규모나 접속 장애 발생 시기를 고려하면, BGP 경로 문제는 보편적인 문제가 아니기 때문이다. 페이스북은 접속 장애 당시 “최대한 빨리 정상화하기 위한 작업 중”이라는 내용의 트윗 이외에 별다른 내용을 발표하지 않았다. 10월 4일 오후, 서비스가 서서히 정상화되자 페이스북은 기술적인 상세 정보가 부족한 공식 성명을 발표했다. 페이스북은 문제 해결 후 발표한 공식 성명을 통해 “페이스북과 계열사 플랫폼 접속 장애로 피해를 본 모든 사용자에게 공식 사과를 올린다. 전 세계 사용자 수십억 명이 페이스북과 계열사 제품, 서비스 접속을 위해 사업에 의존한다는 사실을 알고 있다. 온라인 접속이 정상적으로 이루어질 때까지 불편함을 참고 기다려준 점에 감사하다”라고 말했다.

와이어드와 인터뷰한 다수 인터넷 기반 시설 전문가는 페이스북의 접속 장애를 해결할 확률이 가장 높은 해결책은 페이스북 내 구성 오류라고 말한다. 페이스북 접속 장애 당시 발생한 문제를 자세히 알지 못한 점이 불편했다고 밝힌 인터넷 기반 시설 기업 클라우드페어(Cloudflare) 최고 기술 관리자인 존 그레엄 커밍(John Graham-Cumming)은 “페이스북이 페이스북 네트워크를 나머지 인터넷에 연결하는 사내 라우터를 고친 듯하다”라고 말했다. 이어, 결국 인터넷은 기본적으로 서로 다른 네트워크에 존재를 알리는 네트워크의 네트워크라고 덧붙였다. 페이스북 접속 문제는 일시적으로 자체 네트워크가 다른 네트워크에 존재를 알리지 못한 것이 원인이다.

이는 페이스북 외부 서비스 이외에 많은 요소가 접속 장애 문제의 영향을 받았다는 의미이다. 페이스북 계정을 통해 다른 웹사이트에 접속할 수 없었던 것을 한 가지 문제로 언급할 수 있다. 페이스북 자체 내부 네트워크가 외부 인터넷에 도달하지 못하면서 페이스북 직원도 많은 서비스를 사용할 수 없었던 것으로 알려졌다. 인스타그램 CEO인 애덤 모세리(Adam Mosseri)는 ‘눈이 내리면서 교통이 마비될 것과 같았다’라는 트윗을 게재했다.

네트워크 문제로 문제를 복구하고 서비스를 정상적으로 제공하는 데 오랜 시간이 걸린 이유도 설명할 수 있다. 2019년, 구글 클라우드 접속 장애 발생 당시 구글 엔지니어는 온라인에 접속해 오프라인으로 전환된 접속 장애 문제를 해결했다. 적어도 페이스북이 구글 클라우드 문제와 비슷한 딜레마 때문에 인터넷에 접속하도록 할 수 있도록 BGP 경로 문제를 고치기 위해 인터넷에 접속할 수 없었던 것으로 보인다.

희소식이 있다면, 페이스북이 무엇이든 구성을 변경할 수 있다면, 서비스를 정상 운영하는 데 그리 오랜 시간이 걸리지 않을 것이라는 점이다. 메디나 국장은 “구성 오류를 수정했다면, 트래픽이 실행되기 시작될 것이다”라고 언급했다.

한편, 인터넷 공간의 다른 부분에서는 페이스북의 접속 오류 문제를 체감할 수 있었다. 더 구체적으로 말하자면, 도메인 이름을 IP 주소로 변환하는 서비스인 클라우드페어와 같은 DNS 해결 기업도 평소보다 트래픽 양이 두 배 더 증가한 사실을 확인했다. 전 세계 많은 사용자가 소용이 없는 상황에서도 페이스북과 인스타그램, 왓츠앱 등에 계속 접속 시도를 했기 때문이다. 접속 장애 발생 시 접속 요청은 시스템을 압도하기 충분하지 않으며, 인터넷이 상호 의존성을 지닌 상태이면서 간혹 취약하다는 사실을 상기시킨다.

그레엄 커밍은 “페이스북의 대규모 접속 장애는 인터넷 전체가 접속 장애 문제를 겪는 문제나 그와 비슷한 극적인 문제는 아니다. 페이스북의 상호 연결 시스템과 더 관련이 깊은 문제이다. 또, 이번 문제는 기술적 요인과 낮과 밤 모두 항상 페이스북과 계열사 SNS에 항상 접속 상태를 유지하고자 하는 전 세계 사용자 모두 부분적인 원인이 되었다”라고 설명했다.

이 기사 내용은 페이스북의 공식 성명 발표 이후 수정되었다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Why Facebook, Instagram, and WhatsApp All Went Down Today
이 기사를 공유합니다
RECOMMENDED