본문 바로가기 주메뉴 바로가기 검색 바로가기
대규모 신규 데이터세트, 암호화폐 자금 세탁 목적 찾기에 혈안인 AI 성능 강화
상태바
대규모 신규 데이터세트, 암호화폐 자금 세탁 목적 찾기에 혈안인 AI 성능 강화
블록체인 분석 기업 엘립틱과 MIT, IBM이 2억 가지 변수를 담은 데이터세트로 훈련받은 신규 AI 모델을 개발했다. AI는 비트코인 자금 세탁 형성 지점 탐지를 목적으로 개발되었다.
By ANDY GREENBERG, WIRED US

인공지능(AI)이 특히 인간을 초월한 능력을 입증한 작업 중 하나는 다량의 데이터를 분석하여 인간이 볼 수 없는 패턴을 보는 작업이나 인간이 발견할 수 있는 패턴 발견 자동화 및 가속화 작업이다. 바로 10억 건에 육박하는 익명의 주소 간 거래를 처리하는 공개 기록인 비트코인 블록체인이 하는 일이자 AI가 해결하는 완벽한 퍼즐 형태이기도 하다. 이제 광범위하면서 새로이 공개된 암호화폐 범죄 훈련 데이터와 함께 새로이 발표된 한 편의 연구 논문이 비트코인 경제 전체 영역에 걸친 자동화 툴의 불법 자금 발견 능력의 도약을 촉진할 수도 있다.

2024년 5월 1일(현지 시각), 암호화폐 추적 기업 엘립틱(Elliptic)과 MIT, IBM이 비트코인 블록체인에서 발견한 자금 세탁의 새로운 접근방식을 설명하는 내용의 논문을 게재했다. 연구팀의 논문은 암호화폐 지갑이나 다크웹 암시장, 탈취범, 사기꾼 등 범죄 조직과 관련된 자금 세탁을 찾을 새로운 접근 방식을 상술했다. 또, 연구팀은 결과적으로 직접 불법 암호화폐 인출이 가능한 암호화폐 거래소로 향하는 비트코인 거래 데이터도 수집했다. 이후 예시 패턴을 이용하여 비슷한 자금 활동을 탐지할 수 있는 AI 모델을 훈련했다. 연구팀은 AI 모델이 블록체인에서 자금 세탁으로 의심할 만한 형태를 탐지할 수 있다고 설명했다.

이제는 단순히 AI 모델 실험 버전 배포만이 아니라 AI 모델의 이면에 있던 훈련 데이터세트도 공개했다. 바로 엘립틱의 태그와 분류가 적용된 블록체인 데이터의 2억 가지 거래 데이터이다. 연구팀은 훈련 데이터세트를 지금껏 공개한 같은 종류의 데이터보다 천 배 더 규모가 큰 데이터라고 설명했다. 엘립틱 공동 창립자 겸 최고 과학자 톰 로빈슨(Tom Robinson)은 “천 배 더 많은 데이터를 제공하면서 불법 지갑을 분류하는 대신 거래의 연속 과정을 구성할 수도 있는 자금 세탁 예시를 분류한다”라며, “블록체인 분석을 활용하는 방식의 패러다임 전환이다”라고 말했다.

블록체인 애널리스트는 암호화폐 자금 추적과 범죄 행위 식별 목적의 툴 자동화와 정확도 강화 목적으로 다년간 머신러닝 툴을 이용했다. 사실, 엘립틱스는 2019년에 이미 MIT, IBM과 협력하여 의심스러운 자금 이동 탐지용 AI 모델을 생성하고, AI 모델 훈련 당시 사용한 약 20만 가지 거래로 구성된 규모가 훨씬 더 작은 데이터세트를 공개했다.
 
[사진=Freepik]
[사진=Freepik]

반면, 이번 연구에서는 더 야심 찬 접근 방식을 택했다. 각각의 거래를 개발로 합법성을 분류하기보다는 이미 불법 활동 세력과 과거 불법 기관에 암호화폐를 판매한 것으로 확인된 거래소로 확인된 비트코인 주소 최대 6개로 구성된 주소 모음을 분석한다. 그리고 범죄 세력과 인출 시점 간 거래 패턴을 자금 세탁 활동의 예시로 다루어 제시한다.

엘립틱은 위와 같은 가정을 따라 이른바 하위 그래프 혹은 2억 가지 거래로 구성된 전체 데이터세트 내 자금 세탁 행위로 알려진 패턴 12만 2,000가지를 모았다. 이후 훈련 데이터를 활용하여 비트코인 블록체인 전체 영역에서 자금 세탁 패턴을 식별하고자 설계된 AI 모델을 생성했다.

연구팀은 결과물로 생성된 AI 툴 테스트에서 연구 논문에서는 이름을 밝히지 않은 어느 한 암호화폐 거래소를 통해 AI 모델의 자금 세탁 활동 탐지 결과를 확인했다. AI 모델은 실험 당시 결과적으로 거래소로 유입된 의심스러운 거래 체인 52건을 확인했다. 해당 거래소는 이미 의심스러운 자금을 전달한 계정 14개를 불법 활동으로 의심할 만한 자금으로 분류했다. 그중에는 계정 소유자에게 요청하는 고객알기제도(KYC) 정보의 일환을 바탕으로 자금 세탁이나 사기와 관련성이 있는 계정 8개도 포함되었다. 연구팀의 AI 모델은 KYC 데이터나 자금 출처 정보 접근 권한이 없어도 거래소 자체 조사 담당자가 내린 결론과 일치하는 정보를 확인할 수 있었다.

52개 계정 중 14개를 의심스러운 계정으로 정확하게 분류한 것이 의심스러운 계정 탐지율이 높지 않은 것처럼 들릴 수 있으나 연구팀은 거래소 계정 중 단 0.1%만이 자금 세탁에 연루되었을 수도 있는 계정으로 분류되었다고 설명했다. 연구팀은 자체 개발 자동화 툴이 기본적으로 의심스러운 계정 탐지율을 4개 중 한 개 이상으로 줄였다고 주장한다. 연구 논문 공동 저자이자 MIT 미디어 랩(Media Lab)의 연구 펠로인 마크 웨버(Mark Weber)는 “1,000개 중 한 개꼴로 불법 계정을 탐지했으나 52개 중 14개로 불법 계정 탐지율이 증가한 것은 매우 큰 변화이다. 이제 조사 담당자는 실제로 놓친 바를 찾을 것이다. 아니, 그 전에 엘립틱과 MIT, IBM 연구팀이 놓친 것이 있나?”라고 말했다.

엘립틱은 AI 모델을 이미 자체 작업을 위해 비공개로 사용했다고 밝혔다. AI 모델이 유용한 결과를 생성한다는 증거가 증가하면서 연구팀은 AI 모델이 확인한 일부 의심스러운 거래 체인의 자금 출처를 분석하면서 비트코인 주소가 블록체인상 비트코인 추적이 불분명해지도록 설계된 암호화폐 믹서를 이용한 러시아 다크웹 암시장과 파나마에 기반을 둔 폰지 작전으로 통제하는 주소라는 점을 확인할 수 있었다. (엘립틱은 와이어드의 문의에 범죄 의혹이나 서비스 이름 공개를 거부하며, 현재 진행 중인 조사 대상의 정체를 식별하지 않는다고 전했다.)

연구팀의 AI 모델 사용 사례 중 가장 실용적인 사례보다 더 중요한 점은 구글이 소유한 머신러닝 및 데이터 과학 커뮤니티 사이트 케이글(Kaggle)에 연구팀이 공개한 엘립틱의 훈련 데이터이다. 웨버 연구원은 “엘립틱은 훈련 데이터를 자체적으로 비공개 상태로 보유할 수도 있었다. 대신, 엘립틱은 경쟁사를 포함한 커뮤니티 구성원 모두가 무언가를 기여하는 더 나은 자금 세탁 방지가 가능하도록 오픈소스 정신을 고수했다”라고 전했다. 엘립틱은 공개한 훈련 데이터가 익명이 되어 비트코인 주소 소유자나 주소 자체의 정체를 식별할 정보가 일절 포함되지 않았다는 사실에 주목했다. 공개된 데이터에는 자금 세탁 의심 등급으로 분류한 거래 하위 그래프의 구조 데이터만 포함되었다.

2013년 게재된 비트코인 추적 논문 세미나 제1 저자의 자문 위원 역할을 한 캘리포니아대학교 샌디에이고캠퍼스 컴퓨터 과학 교수 스테판 새비지(Stefan Savage)는 거대한 데이터세트가 AI 중심 연구가 비트코인 자금 세탁에 더 초점을 맞추는 계기가 될 수 있다는 점은 분명하다고 전했다. 새비지 교수는 현재 사용하는 툴이 현재 암호화폐의 자금 세탁 방지 노력 혁신을 가져오자는 못하지만, 개념 증명 역할을 할 수 있다고 본다. 새비지 교수는 “애널리스트의 관점에서 말하자면, 간혹 정확한 툴을 갖추기 매우 어려울 것이다. 자금 세탁 탐지용 AI 모델을 보고, 새로운 툴을 출시하면서 더 많은 이들이 개발 작업에 참여하도록 유도하는 것과 같다고 생각했다”라고 말했다.

하지만 새비지 교수는 결과적으로 실제 범죄 증거에 동원된다면, AI 기반 자금 세탁 조사 툴이 새로운 윤리적, 법적 의문 사항을 제기할 것으로 내다보았다. 그 부분적인 이유는 AI 모델이 종종 생성 과정 설명이 없이 결과물을 제공하는 블랙박스와 같은 역할을 하기 때문이다. 새비지 교수는 “안면 인식 기술을 불편하게 받아들이는 방식처럼 많은 이들이 불편해하는 부분이다. AI 모델의 작업 방식을 설명할 수 없으며, 이제는 인간의 자유에 영향을 미칠 수도 있는 AI 모델의 결정에 의존해야 한다”라고 말했다.

웨버 연구원은 자금 세탁 조사 담당자가 항상 알고리즘을 활용하여 의심스러울 만한 행동을 분류하였다고 반박했다. 웨버 연구원은 AI 기반 툴이 단순히 알고리즘의 효율성을 높이고, 조사 담당자의 시간을 허비하여 잘못된 의심으로 처벌할 수도 있는 거짓 양성 비율을 줄일 수단이라고 말했다. 웨버 연구원은 “자금 세탁 탐지용 AI 툴 채택은 자동화와 관련된 것이 아니다. 사막에서 바늘을 찾는 격이며, 조금 더 의심스러운 활동 탐지에 도움이 되고자 하기 위한 것이다”라고 설명했다.

새비지 교수는 이번 연구가 블록체인 분석을 넘어선 영역에도 영향을 미칠 것으로 예상했다. 엘립틱의 훈련 데이터는 양이 매우 많으면서 상세하여 다른 AI 연구도 헬스케어, 추천 시스템 등과 비슷한 문제에 도움을 줄 수 있을 것으로 예상한다. 다만, 연구팀이 AI 모델 개발 작업이 실질적인 효과를 지니도록 노력하고, 금융 범죄를 드러낼 패턴을 찾을 실질적이면서도 새로운 방식이 실현되도록 해야 한다고 덧붙였다.

웨버 연구원은 “학술 연구보다 훨씬 더 넓은 영역에서 블록체인 추적 조사 담당자가 실제로 AI 모델을 실행하고 활용하기를 바란다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
A Vast New Data Set Could Supercharge the AI Hunt for Crypto Money Laundering
이 기사를 공유합니다
RECOMMENDED