본문 바로가기 주메뉴 바로가기 검색 바로가기
자율주행차, 데이터 줄이기 나선다
상태바
자율주행차, 데이터 줄이기 나선다
차량의 발전과 더 화려한 센서, 이전보다 넉넉하지 않은 예산 때문에 자율주행차 개발사가 자사 서버에 저장하는 데이터를 신중하게 엄선한다.
By PARESH DAVE, WIRED US

아이폰과 구글 포토 사용자와 마찬가지로 클라우드 저장 파일 비용 증가가 자율주행 차량 개발자의 골칫거리가 되었다.

초기 로보카 개발 기업은 주행 거리와 데이터 최대화 목적의 무작위 입력 접근 방식을 중단했다. 구글 자율주행 프로젝트 초기 지도자였던 크리스 엄슨(Chris Urmson)은 2015년 테드 토크에 출연해, “시간이 지나면서 차량 데이터와 수십만 명의 보행자, 사이클리스트, 다른 차량의 움직임 데이터를 가져오고는 이동 방향을 예상하는 모델을 확보할 수 있다”라고 말했다.

엄슨이 테드 토크 강연에 나선 때는 자율주행 차량 프로토타입이 상대적으로 적고, 자율주행 차량을 테스트하는 기업 중 도로에서 수집한 거의 모든 데이터 포인트를 보관한 기업이 거의 없는 시점이었다. 그러나 약 10년이 지나자 구글 프로젝트를 비롯한 여러 자율주행 기술 프로젝트는 자체 예상 성공 시점보다 뒤떨어진 성과를 거두었다. 차량의 발전과 더 화려한 센서, 부족한 예산 때문에 로보택스와 로보화물 서비스 기업이 어쩔 수 없이 자사 서버에 보관할 대상을 매우 신중하게 선택할 수밖에 없는 상황이 되었다.

자율주행 차량 개발 과정의 새로운 제한점은 이미 일부 도시에서 날씨가 좋으면서 도로 상황이 비교적 원활할 때 운전자가 없는 차량에 승객이나 제품을 싣고 도로를 달리기 시작했으나 매출을 달성하지 못한 자율주행 차량 산업의 포화도 조짐이 된다. 많은 기업이 미묘한 변화를 적용한 새로운 영역에서 자율주행 기술을 훈련하는 가운데, 차량에 유지할 데이터와 폐기할 데이터를 찾아내는 일이 자율주행 서비스 운영 지역 확장의 핵심이 되었다.

구글 무인 자율주행 기술 분리 기업 웨이모(Waymo) 컴퓨팅 인프라 감독 담당자 앤드류 채텀(Andrew Chatham)은 “갈수록 다량의 데이터를 더 많이 쌓는 것이 일부 맥락에서는 가치 있는 일이다. 그러나 어느 시점에는 더 흥미로운 데이터를 보유하는 것이 중요하다”라고 설명했다. 오로라, 크루즈, 모셔널(Motional), 투심플(TuSimple) 등 여러 경쟁사가 보관한 데이터를 더 유심히 관찰한다.

데이터양이 아닌 데이터 종류를 더 중요하게 여기는 추세는 무인 자율주행 프로젝트가 수년간 손실을 기록한 뒤 지출 통제 압박을 받자 확산될 수 있다. 로보택시 서비스 기업인 크루즈(Cruise)를 소유한 제너럴 모터스부터 웨이모를 소유한 알파벳까지 많은 기업이 2023년 들어 대규모 정리해고를 포함해 광범위한 영역에서 비용을 절감하는 데 한창이다. 불안정한 경제 상황 때문에 핵심 사업의 매출 성장세가 둔화된 탓이다. 반면, 자율주행 차량 스타트업을 대상으로 한 저렴하면서도 쉬운 자금 지원은 사라졌다.

모든 지출 금액이 감시 대상이 된 것은 자연스러운 일이다. 아마존 웹 서비스(AWS)는 인기 클라우드 저장 서비스인 S3 클라우드 저장소 사용료를 1GB당 약 2센트로 책정했다. 데이터 사용량이 많은 프로젝트의 비용은 급속도로 증가한다. 간혹 데이터 전송을 위한 대역폭 비용과 같은 요소를 고려하면, 비용이 두 배 증가한다. 2016년, 인텔은 자율주행 차량 한 대당 약 4,000GB 상당의 데이터를 생성한다고 추산했다. 아마존의 현재 가격 기준 연간 클라우드 데이터 저장 비용은 약 35만 달러에 이르는 것으로 추산된다.

데이터를 포기하는 것이 테크 업계에서는 잘못된 방향인 듯하다. 구글, 메타와 같은 기업은 사용자 행동 이해 수준 향상이 더 나은 서비스를 설계할 수 있다는 주장을 내세워 사용자의 위치, 클릭, 검색 기록을 포함한 모든 것을 수집한다는 이유로 조롱받고, 처벌을 받기도 했다. 사용자 이해 수준이 서비스 품질과 관련이 되었다는 주장은 분명한 적용 사례가 없는데도 데이터 수집 문화를 형성했다. 일례로, 2019년, 선다 피차이 구글 CEO는 소수 하위 범주에 해당하는 데이터 만이 광고 제공에 이용된다”라고 인정했다.

자율주행 차량 개발사도 초기에 테크 기업과 비슷한 데이터 수집 최대화라는 전략을 추구했다. 자율주행 차량 개발사는 차량 내부와 외부의 영상과 마이크를 이용한 오디오 녹음, 라이다와 레이더를 이용한 점 자료 매핑, 차량 부품의 진단 결과 판독 결과, GPS 판독 등 다양한 요소를 생성했다.
 
[사진=Freepik]
[사진=Freepik]

시장 조사 기관 카운터포인트(Counterpoint) 소속 자율주행 기술 전문 연구원인 브래디 왕(Brady Wang)이 언급한 바와 같이 일각에서는 데이터 수집양이 많을수록 자율주행 시스템의 지능이 향상할 것으로 추측한다. 그러나 데이터 수집양을 최대화하는 접근 방식이 항상 효과가 있는 것은 아니다. 왕 연구원은 데이터양과 복잡함 때문에 체계화와 이해가 어려울 수도 있다고 지적했다.

비교적 최근, 수년간 자율주행 기술 기업은 특히 유용하다고 판단한 데이터만 보유하기 시작했다. 또한, 데이터 제공에도 주력한다. 사실상 화창한 날 사막에서 한 시간 이상 주행하면서 수집한 데이터는 반복된 요소를 보기 때문에 사막 주행 과정에서 수집한 데이터 모두 보관할 필요성에 의문을 제기할 수 있다.

데이터 수집의 제한 사항은 전혀 새로운 일이 아니다. 웨이모의 차별화 소프트웨어 엔지니어이기도 한 채텀은 10여 년 전, 구글 내부에서 소규모 프로젝트를 진행할 당시 디지털 저장소 접근성 추가가 간단하지 않았으며, 구글 내부 프로젝트 당시 프로젝트팀에 자신 이외에 다른 인력이 없었다고 밝혔다. 무인 자율주행 기술 실패 기록과 같이 확실한 사용 사례가 없는 데이터는 삭제된다. 채텀은 “저장소 용량이 무제한인 것처럼 사용한다면, 그 비용은 천문학적인 수준에 이를 것이다”라고 언급했다.

웨이모는 거액의 외부 투자를 받은 독립 기업이 된 후 자율주행 차량 개발 프로젝트는 데이터 저장 공간을 이전보다 마구 차지하기 시작했다. 2019년 말, 웨이모가 크로스오버 SUV 차량인 재규어 I-페이스(Jaguar I-Pace) 테스트를 시작했을 당시 광범위한 정보를 생성하는 더 강력한 센서를 탑재했다. 한 시간 동안의 주행 데이터를 모두 수집하면, 저장소 공간 1,100기가바이트 이상 차지하게 된다. 저장소 사용 공간은 DVD 240편을 저장할 수 있는 수준에 해당한다. 웨이모는 당시 데이터 저장 용량을 대거 확장했으며, 웨이모 측은 저장할 데이터를 신중하게 선택하지 않았다.

비교적 최근, 채텀의 팀은 저장할 데이터를 엄격하게 할당하기 시작하고, 웨이모 전체 부서에 저장할 데이터 선택 시 더 신중하게 판단할 것을 요청했다. 이제 웨이모는 새로 생성한 데이터 일부만 저장하며, 비교적 최근에는 저장한 데이터를 삭제했다. 저장된 데이터가 현재 기술과 상태, 우선순위와 비교했을 때 오래된 데이터였기 때문이다. 채텀은 차량에 저장할 데이터를 신중하게 택하는 전략이 꽤 효과적이라고 말한다. 그는 “웨이모는 자율주행 차량 서비스가 발전함에 따라 데이터 폐기 속도를 높이기 시작해야 한다”라고 전했다.

웨이모는 2022년 9월부터 11월까지 캘리포니아주에서 자율주행 차량에 운임을 결제한 승객을 태운 채로 2만 3,000마일(약 3만 7,014km) 이상 이동했다. 캘리포니아주 당국이 공개한 데이터 기준, 비슷한 시간대의 6개월 전 주행거리 대비 약 1만 3,000마일(약 2만 921km) 더 증가한 것으로 확인됐다.

데이터 저장 용량 제한은 자율주행 차량 기업의 우선순위가 되었다. 채텀의 팀은 일부 협상을 허용하면서 차량 주변에 존재하는 대상 식별 목적의 인공지능(AI) 개발이나 과거 차량 탑승 경험 대비 계획된 소프트웨어 업데이트 테스트 등 다양한 작업을 담당하는 엔지니어 그룹의 분기별 저장 용량 할당량을 부여한다. 각각의 엔지니어팀은 긴급 구조 차량의 행동 데이터 등 저장할 가치가 있는 데이터와 그 외 모든 요소를 분류한 자동화 시스템 등 보관할 가치가 있는 데이터를 결정한다. 채텀은 “사업 결정 사항이 되었다. 눈이나 비와 관련된 데이터가 자율주행 차량 사업에 더 중요한 데이터인가”라고 말했다.

현재 눈과 관련된 데이터는 저장 대상이 되었다. 웨이모가 지금까지 제한된 주행 데이터만 저장했기 때문이다. 채텀은 “모든 정보를 저장하려 한다”라고 말했다. 비와 관련된 데이터는 우선순위에서 밀렸다. 이에, 채텀은 “비가 오는 날 주행 수준이 더 나아졌기 때문에 비와 관련된 데이터는 무제한으로 저장할 필요가 없다”라고 말했다. 저장할 데이터를 신중하게 엄선하는 행위는 간혹 창의성이나 가치 발견을 촉진할 수도 있다. 웨이모는 어느 순간이면 비와 관련된 데이터가 주차 도중 차량이 수집한 모든 센서의 판독 값이 불필요하게 포함된 사실을 확인했다.

자율주행 차량 프로젝트 전반에 걸쳐 차량 이동이 많고 혼잡한 시간대의 데이터가 차량에 저장될 확률이 가장 높다. 현대와 자동차 공급사 앱티브(Aptiv)의 합작 벤처로 탄생한 자율주행 기술 개발사 모셔널의 자율성 부사장 바라지 칸난(Balajee Kannan)은 “도로 장애물이나 서핑보드를 싣고 이동하는 자전거 탑승자 등과 같은 물체와 비정상적인 상황은 드물다”라고 말했다.

빠른 성장세를 기록하는 크루즈는 샌프란시스코 도로 주행 시 수집한 데이터 중 크루즈 팀이 유용한 정보라고 판단한 데이터는 1%도 되지 않는다고 밝혔다. 따라서 현재 크루즈는 주행 도중 수집한 데이터를 모두 저장하지 않는다. 크루즈의 자율주행 차량인 쉐보레 볼트는 2022년 가을, 운임을 결제한 승객이 탑승한 채로 샌프란시스코 도로를 총 1만 3,000마일 이상 주행했다. 자율주행 차량 호출 서비스 운영을 시작한 2022년 여름 주행 거리가 3,400마일인 것과 비교하면, 주행 거리가 급격히 증가했다. 크루즈는 자사 자율주행 차량 배치 범위가 증가하는 가운데, 더 쉽고 저렴한 비용에 서비스를 확장하도록 데이터 저장 시스템 개선 작업을 진행 중이다. 다만, 레이첼 홈(Rachel Holm) 크루즈 대변인은 구체적인 사항을 공유하지 않았다.

데이터 삭제가 유일한 해결책은 아니다. AWS가 월 1GB당 0.1센트를 청구하는 콜드 저장소로 데이터를 이관한다면, 비용 부담을 없앨 수 있으나 서서히 접근해야만 하면서 유용함이 제한된다.

텍사스 자유로에서 자율주행 트럭을 시험 운행 중인 오로라는 텍사스주 전역의 시범 프로젝트 참여 고객이 일주일당 50회 화물 운송 시 주행하면서 수집한 테라바이트 단위의 데이터를 분류하는 자동화 시스템을 사용한다. 엔지니어는 위험한 도로 잔해나 난폭 운전 등 최근 발생한 사고와 같은 중요한 데이터를 분류해 정기 저장소에 데이터를 보관하도록 보장한다. 보호되지 않거나 사용하지 않은 데이터 모두 제거 데이터로 지정돼, 3개월이 지나면 다량의 데이터가 삭제될 때까지 매달 콜드 저장소로 이동하게 된다. 원데이터에서 계산된 측정값만 보관된다.

오로라 기반 시설 운영 책임자 팀 켈톤(Tim Kelton)은 “손톱을 정돈하는 것과 같다. 매주 데이터를 정리해야 한다. 무시할 수 없는 부분이다”라고 말했다. 오로라는 자사 기술이 실제 원활하게 주행하거나 구형 센서를 실행할 때 수집한 데이터도 삭제한다. 모두 얻을 만한 정보가 적은 데이터이기 때문이다. 전체적으로 오로라 데이터 약 15%만 가장 접근성이 좋은 저장소에 보관된다.

그러나 모든 기업이 데이터 저장을 제한하지는 않는다. 또 다른 자율주행 트럭 기업 투심플은 2015년 창업 당시부터 수많은 주행 과정에서 수집한 모든 데이터 수집, 압축, 나열, 분류 작업을 한다. 그러나 투심플 운영 부사장 로버트 로시(Robert Rossi)는 2021년 12월, 최초로 자율주행 경로를 따라 주행 시범 운영을 진행한 투심플은 데이터 50페타바이트를 보관하는 데 주목하고 있다고 전했다. 대다수 데이터는 4년 뒤 콜드 저장소로 이동하게 된다.

델라웨어대학교 컴퓨터 과학자 시웨이송(Weisong Shi)은 압축 파일에서 중요한 데이터를 별도로 선택하는 AI 소프트웨어는 결과적으로 기업이 데이터 뱅크를 침해하지 않고 더 많은 기록을 보관하는 데 도움이 될 것이라고 설명했다. 시 박사는 자동차 제조사와 데이터 저장 용량 제한 및 데이터 전송 작업을 위해 협력한 적이 있다.

다만, 웨이모와 그 경쟁사가 자율주행 차량 운행 범위를 넓히고 자율주행 대형차의 도로 주행이 이루어진다면, 지금보다 훨씬 더 많은 데이터를 삭제해야 할 것이라고 지적했다. 시 박사는 “자율주행 차량 양산 시 비용이 중요한 문제가 될 것이다. 아직 더 넉넉한 데이터 저장소가 절실히 필요한 시점에 이르지는 않았지만, 머지않아 실제로 저장 용량이 더 많이 필요해질 수도 있다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Self-Driving Cars Are Being Put on a Data Diet
이 기사를 공유합니다
RECOMMENDED