학습 능력 갖춘 기계, 학습 정보를 잊을 수 있을까?

By TOM SIMONITE, WIRED US

모든 업계의 기업이 머신러닝을 이용해 대중의 바람이나 관심사, 얼굴 등을 분석한다. 현재 일부 머신러닝 연구원은 이와 상반된 질문을 한다. 기계가 망각 능력을 갖추도록 할 방법은 없을까?

최근 들어 급부상하는 컴퓨터 과학 영역인 ‘머신언러닝(machine unlearning)’은 인공지능(AI) 소프트웨어의 선별적인 부분 기억 상실을 인위적으로 생성할 방법을 모색한다. 머신언러닝의 목표는 머신러닝 시스템의 성능에 지장을 주지 않은 채로 특정 인물이나 데이터 포인트의 모든 흔적을 제거하는 것이다.

머신언러닝의 목표가 현실에서 성공한다면, 인간의 데이터 제어 능력이 향상되면서 데이터 제어에서 발생하는 가치도 커질 것이다. 이미 사용자가 기업에 개인 데이터 삭제 요청을 하고 있으나 일반적으로 알고리즘 능력 개선이나 훈련에 도움을 주는 개인 정보의 종류를 사용자에게 안내하는 사례는 극히 드물다. 머신언러닝은 대중의 개인 정보 파기 능력은 물론이고 기업이 자신의 정보를 이용해 수익을 취하지 못하도록 막을 수 있다.

온라인에 개인 정보를 공유한 것을 후회한다면 누구나 쉽게 이해할 수 있지만, 인위적인 부분 기억 상실에는 컴퓨터 과학 분야의 새로운 아이디어가 필요하다. 상당수 기업이 천문학적인 비용을 지출해 머신러닝 알고리즘이 개인의 얼굴이나 SNS 게시글 등을 인지하도록 훈련한다. 알고리즘이 종종 인간 코드 작성자가 단독으로 처리하는 것보다 더 빠른 속도로 문제를 해결할 수 있기 때문이다. 그러나 알고리즘을 한 번 훈련한 뒤에는 머신러닝 시스템을 쉽게 변경하거나 심지어 이해할 수 없는 문제가 발생한다. 특정 데이터 포인트의 영향력을 제거하는 기존의 방식은 시스템을 처음부터 재구성한다. 알고리즘 훈련과 마찬가지로 큰돈을 지출해야 할 수도 있다. 머신언러닝을 연구하는 펜실베이니아대학교의 아론 로스(Aaron Roth) 교수는 “개인이 데이터 삭제를 요청할 때, 개인 데이터에 미치는 영향을 없애면서도 처음부터 알고리즘을 다시 훈련해야 하는 전체 비용 지출 문제를 피할 수는 없을까?”라는 질문을 던졌다.

머신언러닝 작업의 부분적인 계기는 AI가 서서히 프라이버시를 침해하는 문제에 갈수록 주목하는 상황이다. 세계 각지의 데이터 규제 당국은 오래전부터 기업이 부당한 방식으로 획득한 정보 삭제 조치를 강행할 권한을 지녔다. 유럽연합과 캘리포니아주 등 일부 지역 시민은 자신이 공개하고자 하는 사항을 바꾸기로 결정했을 때, 기업에 개인 데이터 삭제를 요청할 권리가 있다. 최근에는 미국과 유럽 규제 당국 모두 AI 시스템을 소유한 개인이나 기업은 데이터 삭제에서 한 단계 더 나아가 민감한 데이터를 훈련한 시스템을 전면 삭제해야 한다고 발표했다.

“개인이 데이터 삭제를 요청할 때, 개인 데이터에 미치는 영향을 없애면서도 처음부터 알고리즘을 다시 훈련해야 하는 전체 비용 지출 문제를 피할 수는 없을까?”
아론 로스, 펜실베이니아대학교

2020년, 유럽 데이터 규제 당국은 기업을 대상으로 AI 시스템이 개인 데이터를 보유할 가능성이 있어, 일부 머신러닝 소프트웨어가 데이터 삭제 권리 조항을 포함한 유럽연합의 개인정보보호 규정 적용 대상이 될 수 있다고 경고했다. 다수 보안 연구원은 알고리즘이 생성 과정에 사용하는 민감 데이터를 유출할 수밖에 없는 상황이 간혹 발생할 수 있다는 사실을 입증했다. 2021년 초, 미국 연방거래위원회(FTC)는 안면 인식 기술 스타트업 패러비전(Paravision)에 부적절하게 수집한 얼굴 사진과 이를 이용해 훈련한 머신러닝 알고리즘을 모두 삭제하라는 명령을 내렸다. FTC 국장 로힛 초프라(Rohit Chopra)는 데이터 규정을 위반한 기업을 대상으로 거짓 성과를 상실하도록 강행할 새로운 법률 집행 전략이라며 당시 FTC의 명령에 찬사를 보냈다.

머신언러닝 연구라는 작은 분야는 규제가 변경한 뒤 제기된 일부 실질적이면서도 실존하지 않을 듯한 의문 사항을 다루는 데 어려움을 겪고 있다. 머신언러닝 연구원은 알고리즘이 특정한 조건에 따라 특정 부분을 잊을 수 있다는 사실을 입증했으나 머신언러닝 기법 자체가 황금기를 맞이하기에는 시기상조이다. 로스 교수는 “여러 신생 분야의 공통적인 특징과 마찬가지로 머신언러닝 분야에는 연구 목표로 지닌 야망과 실제 인간이 알고 있는 개발 방법 간의 격차가 있다”라고 설명했다.

2019년, 토론토대학교 연구원과 위스콘신대학교 매디슨캠퍼스 연구원으로 구성된 합동 연구팀이 제시한 새로운 머신러닝 프로젝트의 소스데이터를 여러 조각으로 분리하는 접근방식을 한 가지 희망적인 방안으로 언급할 수 있다. 모든 데이터를 별도로 처리한 뒤 최종 단계에서 탄생하는 머신러닝 모델에 각각의 데이터 처리 결과를 결합한다. 추후 한 가지 데이터 포인트를 지울 필요가 있을 때, 초기 입력 데이터의 일부만 다시 처리하면 된다. 이미 온라인 구매와 백만 장이 넘는 사진 데이터를 모은 데이터 처리 과정으로 선보인 적이 있는 방법이다.

로스 교수는 최근 펜실베이니아대학교와 하버드대학교, 스탠퍼드대학교 소속 전문가와 함께 소스 데이터 분리 방식의 결함을 설명했다. 로스 교수 연구팀은 특정 명령이 주어진 상황에서 삭제 요청을 보내면, 시스템 자체가 의도하지 않은 문제나 해커가 악용하면서 언러닝 시스템 자체에 문제가 발생할 수 있다는 사실을 입증했다. 그와 동시에 문제를 완화할 방법도 함께 제시했다.

머신언러닝을 연구하는 캐나다 워털루대학교의 과탐 카마스(Gautam Kamath) 교수는 머신언러닝 프로젝트가 발견하고 해결한 문제 자체가 연구실에서의 단순한 호기심으로 시작된 단계를 넘어선 머신언러닝 개발 방법에 앞으로 추가로 답을 제시할 수 있는 다양한 의문 사항이 여전히 존재한다는 사실을 보여주는 사례라고 말한다. 카마스 교수 연구팀은 여러 데이터 포인트 학습 내용 제거에 성공한 뒤 시스템의 정확도가 얼마나 감소할 수 있는지 연구했다.

카마스 교수는 특정 데이터 포인트 학습 내용을 완전히 제거했다는 추측 사항이 사실임을 기업이 입증하거나 규제 당국이 확인할 방법을 찾는 데도 관심을 두고 있다. 그는 “미래의 일인 듯하지만, 결국 시스템 감사 기관이나 담당자가 성공적인 데이터 제거 사실을 입증하는 것과 같은 작업을 하게 될 것”이라고 주장했다.

머신언러닝 가능성을 조사해야 할 규제 사유도 증가할 듯하다. FTC를 비롯한 여러 규제 기관이 알고리즘의 권한을 이전보다 더 자세히 살펴보기 때문이다. 데이터 보호를 연구하는 옥스퍼드대학교의 루벤 빈스(Reuben Binns) 교수는 미국과 유럽에서 지난 몇 년간 개인이 자신의 데이터의 운명과 개인 데이터로 얻을 수 있는 권한을 지녀야 한다는 개념이 강화됐다고 설명했다.

테크 기업이 실제로 머신언러닝 시스템을 구축해 알고리즘에 달린 개인 데이터의 운명을 통제할 권한을 확대하기 전, 고도의 기술적 작업이 이루어질 것이다. 그러나 머신언러닝 시스템 보급 이후에도 기술이 AI 시대의 프라이버시 위험을 크게 바꾸지는 못할 수도 있다.

시스템이 유출할 수 있는 개인 정보와 관련 실존하지 않을 듯한 경계를 둔 영리한 기법인 차등 개인 정보와 함께 실질적인 비교를 할 수 있다. 애플과 구글, 마이크로소프트 모두 차등 개인 정보를 극찬하지만, 사용 사례는 상대적으로 적기 때문에 여전히 프라이버시 위험 요소가 무수히 많다.

빈스 교수는 차등 개인 정보가 실제로 유용하지만, 반대로 기업이 혁신을 선보이기 위한 수단에 더 가까워질 수 있다고 주장한다. 그는 머신언러닝도 차등 개인 정보와 비슷하게 데이터 보호의 중대한 변화보다는 기술적으로 뛰어난 판단 능력을 입증하는 요소에 더 가까워질 수 있다고 예측한다. 기계가 학습한 사항을 자체적으로 망각할 능력이 있더라도 사용자는 항상 데이터 공유 대상을 기억하는 신중한 태도를 지녀야 한다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Now That Machines Can Learn, Can They Unlearn?

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다