트위터 봇 퇴치, 무엇 때문에 어려운가?

By WILL KNIGHT, WIRED US

@ElonMusk라는 트위터 계정은 봇일까? 어쩌면, 최고의 가짜 계정 감지 알고리즘 중 하나는 일론 머스크의 트위터 계정을 봇으로 의심할 수도 있다. 알고리즘은 트위터 전체의 가짜 계정 비율을 수치로 계산하는 방법을 제시한다.

트위터 봇 퇴치는 현재 진행 중인 일론 머스크의 440억 달러 트위터 인수 논쟁의 쟁점이 되었다. 5월 13일(현지 시각), 머스크는 트위터가 수익 활동을 하는 일일 활성화된 사용자 계정 중 스팸 혹은 가짜 계정 비율이 5% 미만임을 입증할 구체적인 증거를 제공할 때까지 인수를 보류한다는 트윗을 게재했다. 머스크가 언급한 인수 조건은 최근 미국 증권거래위원회(SEC) 제출 서류에 명시된 바이기도 하다. 머스크는 트위터 공식 계정 팔로워 100명의 계정 표본 선정을 포함해, 트위터 계정 중 봇의 수를 확인하는 봇 집계 계획을 자세히 기술했다. 그와 동시에 자신이 제시한 봇 집계 방식을 기준으로 보았을 때, 전체 계정 중 가짜 계정은 20%가 넘는다는 사실을 제시했다.

하지만 많은 전문가가 설명한 바와 같이 트위터 봇의 비율을 정확히 수치로 제시하는 일은 매우 어렵다.

봇을 찾을 수 있는 곳을 알고 있다면, 전체 봇의 수를 찾는 일은 어렵지 않다. 머스크 계정을 포함한 특정 계정은 수많은 봇의 팔로우를 유도하는 듯하다. 소셜미디어를 연구하는 듀크대학교 사회학부의 크리스 베일(Chris Bail) 교수는 “단순히 트위터에서 일론 머스크를 언급하기만 해도 무수히 많은 암호화폐 봇이 트윗 대화에 참여하는 것을 볼 수 있다”라고 말했다.

소셜 네트워크 중 트위터만 가짜 봇 퇴치에 난항을 겪는 것이 아니다. 페이스북은 매년 가짜 계정 수십억 개를 제거한다. 하지만 트위터 계정이 봇이라는 사실을 확실하게 확인하기는 어렵다. 정상적인 사용자라도 팔로워나 트위터 게시글이 거의 없거나 이상한 사용자명을 정했을 수도 있기 때문이다. 심지어 플랫폼 전체에서 운영 중인 봇 계정 수를 전반적으로 추산하는 일은 더 어렵다.

과거, 미국 유권자 사기 관련 각종 거짓 정보 확산 계정 중 봇과 같은 활동을 파악한 인공지능(AI) 기업 IV.ai는 머스크가 제안한 봇 계정 추산 방법을 실험하고자 머스크가 운영 중인 자동차 제조사 테슬라를 팔로우하는 트위터 계정 100개를 조사했다.

5월 17일(현지 시각), 알고리즘 계정 검토 결과, 계정 100개 중 20개 이상은 봇 계정으로 추정했다. 또, 인간이 수동으로 같은 계정 100개를 조사했을 때, 절반 이상을 봇으로 추정했다. 또, 조사 대상이 된 계정이 논의한 주제를 보았을 때, 봇으로 추정한 계정이 홍보 계정이라는 증거는 없었다. 다만, 상당수 계정이 생성 직후 사라졌다. 트위터가 꽤 빠른 속도로 봇을 퇴치한다는 점을 시사한다. IV.ai CEO 빈스 린치(Vince Lynch)는 의심스러운 계정 확인 과정 자체가 본질적으로 주관적이며, 여러 단계에 걸쳐 불확실성을 포함한다고 설명했다.

머스크의 트위터 계정이 봇 의심 지수가 높다고 평가한 보토미터(Botometer) 알고리즘 개발을 주도한 필리포 멘처(Filippo Menczer) 인디애나대학교 교수는 “봇 확인 작업은 매우 어려운 문제이다”라고 말했다. 멘처 교수는 트위터 계정 100개를 조사한 결과가 트위터의 일일 활성화된 사용자 수를 나타낼 수 없으며, 조사 표본으로 선정한 계정 종류에 따라 분석 결과의 차이가 클 것이라고 지적했다. 멘처 교수는 “머스크의 봇 계정 확인 방식이 농담이기를 바란다”라며, 계정 100개를 이용한 트위터 봇 계정 수 확인 방법에 반대한다는 의견을 내비쳤다.

자동화 계정은 지난 몇 년 사이에 매우 교묘하면서 복잡해졌다. 상당수 가짜 계정은 기계와 인간이 부분적으로 운영한다. 혹은 실제 인간이 작성한 메시지를 강화하기도 한다. (멘처 교수는 이를 ‘사이보그 계정’이라고 칭했다.) 상당수 계정이 인간과 알고리즘 감지를 피하도록 설계한 속임수를 이용한다. 트위터 게시글에 재빨리 ‘좋아요’나 ‘싫어요’를 누르거나 트위터 게시글 게재 및 삭제와 같은 기능을 이용한다. 유해한 계정은 아니지만, 여러 기업이 운영하는 자동화 계정 혹은 반자동 계정도 있다.

보토미터 알고리즘은 머신러닝을 사용해 한 계정과 관련된 공개 데이터를 폭넓게 평가하고는 봇 계정일 가능성을 판단한다. (공개 데이터는 트위터 게시글 콘텐츠뿐만 아니라 계정 팔로워, 팔로잉하는 계정 등 다양한 정보를 포함한다.) 알고리즘은 최신 개발 상태이지만, 멘처 교수는 “대다수 계정은 기본적으로 알고리즘이 인간이라고 확신하지 못하는 계정에 해당한다”라고 언급했다.

멘처 교수를 비롯해 봇 계정을 감지한 많은 전문가가 트위터 봇 확인을 쫓고 쫓기는 게임과 같다고 말했다. 하지만 앞으로는 봇 계정을 발견하기 훨씬 더 어려울 것이라고 전했다. 스팸 계정 운영 세력이 신빙성 있는 텍스트 생성 및 일관적인 대화 유지 능력이 더 뛰어난 알고리즘을 이용하기 때문이다.

트위터도 머신러닝을 이용해 봇 감지 능력이 더 우수한 수단을 갖춘다. 각각의 계정 판단 시 사용하는 데이터가 증가하기 때문이다. 계정 판단 시 사용하는 데이터 중에는 전체 활동 이력과 계정 주인이 사용하는 IP 주소 및 기기 정보 등이 있다. 그러나 2011년부터 2013년까지 트위터의 스팸 감지 작업을 한 적이 있는 머신러닝 전문가 델립 라오(Delip Rao)는 트위터가 봇 계정 감지 방식을 밝힐 수 없을 것이라고 설명했다. 봇 계정 감지 방식을 공개하면, 트위터 추천 시스템 조작에 이용할 수 있는 개인 데이터나 정보까지 공개될 수도 있기 때문이다.

최근 머스크는 트위터 CEO 파라그 아그라왈과 트위터의 손쉬운 봇 계정 감지 작업 공개 방식을 두고 언쟁을 벌였다. 5월 16일(현지 시각), 아그라왈은 지금도 봇 계정 확인 방법과 감지 작업 공개가 어렵다는 사실을 설명하는 트위터 스레드를 게재했다. 아그라왈은 트위터가 보유한 개인 데이터 때문에 트위터의 봇 계정 수 계산 방법이 달라질 수 있다는 점에 주목했다. 그는 트위터 스레드에 “첫 이름에 많은 숫자를 작성하면서 프로필 사진이 없고, 이상한 트윗을 게재한 계정을 봇이나 스팸으로 의심할 수 있다. 그러나 트위터는 보이지 않는 부분에서 종종 봇 의심 계정이 사실은 진짜 인간이 보유한 계정임을 확인한다”라고 작성했다. 이어, 트위터가 봇 계정 평가 방식을 자세히 공개할 수 없다고 덧붙였다.

머스크는 트위터가 봇 계정 확인 방식을 공개할 수 없거나 공개할 의사가 없다면, 봇 계정 수와 관련된 상세한 부분까지 볼 수 없으므로 인수 과정이 계속 보류될 수밖에 없다고 주장했다. 물론, 머스크는 이를 인수 가격 인하 협상 수단으로 최대한 이용한다.

현재 머스크는 봇 계정 확인 방식이 생각처럼 쉽지 않은 이유를 설명하려는 트위터의 노력에 실망한 듯하다. 머스크는 아그라왈의 트위터 스레드에 단 하나의 웃는 대변 이모지만 남기며, 잠정적인 트위터 인수자보다는 봇 계정에 훨씬 더 가까운 반응을 남겼다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Why It's So Hard to Count Twitter Bots

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다