본문 바로가기 주메뉴 바로가기 검색 바로가기
美 대학원생의 보조 프로젝트, 트위터 인수 분쟁서 일론 머스크 돕는다?
상태바
美 대학원생의 보조 프로젝트, 트위터 인수 분쟁서 일론 머스크 돕는다?
트위터 인수 논란을 둘러싼 다툼에서 트위터 봇이 핵심 문제가 되었다. 그러나 문제는 아무도 정확한 봇의 수를 집계할 방법을 알지 못한다는 사실이다.
By MORGAN MEAKER, WIRED UK

2022년 8월 5일은 카이청 양(Kaicheng Yang)에게 특별한 날이었다. 미국 법원이 일론 머스크의 트위터 인수 철회 주장을 발표하고 하루 지난 날이기도 하다. 인디애나대학교 대학원생인 양은 직접 개발한 봇 감지 소프트웨어가 트위터 인수를 둘러싼 대규모 분쟁의 핵심이 되었다는 사실에 놀랐다.

2022년 7월, 트위터는 머스크를 제소했다. 머스크가 440억 달러에 트위터를 인수한다는 협상을 파기했기 때문이다. 이에, 머스크는 플랫폼 내 봇 계정 수를 잘못 알려주었다는 이유로 트위터를 상대로 맞고소를 진행했다. 트위터는 수익성이 있는 전체 사용자(광고를 볼 수 있는 사용자) 중 스팸 봇 계정 비율 5% 미만이라는 수치를 오랫동안 유지했다.

법원 문건에는 특정 계정이 봇 계정일 확률을 정확하게 확인한다고 주장하는 양이 개발한 소프트웨어인 보토미터(Botometer)는 머스크 측이 트위터의 봇 계정 집계 결과가 거짓임을 증명하는 데 큰 역할을 했다. 법원 문건에는 “가짜 계정이나 스팸 계정이 사업에 미치는 영향이 최소화된 수준이라는 트위터 측의 주장과 달리 머스크 측은 다른 방식으로 봇 계정 수를 집계했다는 사실이 중요하다”라는 내용이 명시되었다.

하지만 인간과 봇의 차이점을 직접 확인하는 일은 말보다 어렵다. 어느 한 연구원은 보토미터가 봇 계정을 손쉽게 집계할 수 있는 것처럼 보이도록 하는 유사 과학을 내세운다고 비난했다. 트위터는 머스크가 사용한 집계 방식에는 오류를 일으킨 이력이 있는 툴이 포함되었다는 점을 재빨리 지적했다. 트위터는 고소장을 통해 보토미터가 머스크의 개인 계정도 봇 계정일 확률이 높다는 결과를 제시한 적이 있다는 사실을 재차 설명했다.

하지만 보토미터는 여전히 대학 연구원을 중심으로 널리 확산되었다. 대학 연구원 사이에서 봇 계정과 인간을 구분한다고 약속하는 수단의 수요가 높았던 탓이다. 결과적으로 머스크와 트위터는 2022년 10월, 법정 공방을 펼치게 되었다. 또한, 봇 감지 방식에 적용한 과학적 근거도 논란이 되었다.
 
[사진=Freepik]
[사진=Freepik]

양이 보토미터 운영을 시작한 것이 아니다. 양은 보토미터 개발자에게서 보토미터 운영 권한을 물려받았다. 보토미터는 8년 전, 프로젝트로 탄생했다. 그러나 개발자가 졸업과 함께 인디애나대학교를 떠난 뒤 양이 보토미터 관리, 업데이트 책임자가 되었다. 양은 일론 머스크 변호인단의 연락을 받았는지 밝히는 것을 거부했다. 양은 보토미터 운영자로 전일제로 근무하지 않는다. 양은 보토미터가 다른 프로젝트의 추가 프로젝트였다고 밝혔다. 현재 진행 중인 박사학 프로젝트 연구를 진행하지 않을 때, 보토미터 툴을 관리한다. 양은 “현재 보토미터 관리자는 나와 조력자 단 두 명이다. 실제로 내가 보토미터 코딩 작업을 한다”라고 말했다.

보토미터는 감시된 머신러닝 툴이다. 즉, 봇을 인간과 구분하도록 자체적으로 훈련 과정을 거친다는 의미이다. 양은 보토미터가 이름과 프로필 사진, 팔로워, 트윗 게재 및 리트윗 비율 등 특정 트위터 계정과 관련된 상세 정보 1,000여 가지를 보고, 0~5점까지 점수를 평가한 뒤 봇과 인간을 구분한다고 설명했다. 양은 “점수가 높을수록 봇일 확률이 높다는 의미이다. 반대로 점수가 낮을 때는 인간일 확률이 높다”라며, “만약, 특정 계정의 점수가 4.5점일 때는 봇일 확률이 매우 높다고 볼 수 있다. 계정 점수가 1.2점일 때는 인간일 확률이 더 높다는 의미이다”라고 덧붙였다.

하지만 보토미터가 최종 평가 점수가 높은 계정이 봇임을 구분할 뿐 봇과 인간을 구분하는 기준이 되는 절대적인 점수를 정확히 제공하지 않는다는 점이 중요하다. 양은 개인 계정이나 그룹 계정을 봇과 구분할 때, 보토미터 사용에만 전적으로 의존해서는 안 된다고 언급했다. 이어서 다른 주제보다 특정 주제에서 봇이 문제를 일으킨 사례가 상대적으로 많은가 비교할 때 보토미터 사용을 선호한다고 밝혔다.

양은 지금도 일부 연구원이 보토미터를 잘못 사용한다고 지적한다. 또한, 보토미터가 인간과 봇을 구분하는 절대적인 점수 기준이 없다는 점이 모호한 부분이라는 점을 인정했다. 인간과 봇 계정을 구분하는 정확한 기준 점수가 없다면, 봇 정의 기준에 대한 합의는 없을 것이다. 봇 계정을 더 많이 찾고자 하는 연구원은 봇보다는 인간 계정 구분에 초점을 맞추는 연구원보다 인간 계정으로 구분하는 기준 점수를 더 낮출 수도 있다. 플로리안 갈위츠(Florian Gallwitz) 독일 뉘른베르크 기술대학교(Nuremberg Institute of Technology) 컴퓨터 과학 교수가 언급한 바와 같이 명확함을 추구하는 동시에 거짓 정보 발견에 초점을 맞추는 연구원이 기본적으로 보토미터의 계정 평가 점수 2.5점 이상인 계정 수가 약 50%라고 집계했다.

갈위츠 교수는 대표적인 보토미터 비판론자이며, 학계의 트위터 거짓 정보 연구 방식을 방해한다고 주장한다. 2022년 7월, 갈위츠 교수는 보토미터의 점수 2.5점 이사인 계정 수백 개 중 실제 봇 계정은 단 하나도 없었다는 사실을 입증한 연구 논문을 발표했다. 논문에는 “보토미터가 봇으로 의심한 계정 상당수는 학계와 전문가의 상당한 신뢰를 받는 이가 운영하는 계정이다”라는 내용이 작성되었다.

보토미터가 계정 점수 2.5점을 기준으로 정한 채로 봇으로 의심한 계정 중에는 아날레나 베르보크(Annalena Baerbock) 독일 외교부 장관의 계정도 포함되었다. 베르보크 장관의 계정은 보토미터의 계정 평가 점수 5점 만점 2.8점을 받았다. (다만, 보토미터는 봇 계정 점수 2.8점인 계정 중 19%는 인간의 계정이라는 결과를 경고했다.) 베르보크 장관 관계자는 와이어드에 장관의 트위터 계정에는 자동화 기술을 일절 적용하지 않았다고 전했다.

갈위츠 교수는 보토미터와 같은 계정 평가 방식이 보토미터의 프로그램 실행 방식으로는 판별할 수 없는 기준에 거짓 양성 반응을 보일 수 있다고 지적한다. 그는 “누구나 유사 과학을 이용할 수 있다”라고 주장했다. 또한, 학계에서 봇 계정 식별 시 보토미터를 누구나 검증할 수 있는 수단에 의존하는 연구원이 많다는 사실에 분노를 드러냈다. 이어서 한 가지 예시로 2022년 8월, 호주 애들레이드대학교 연구팀이 발표한 논문을 제시했다. 애들레이드대학교 연구팀은 보토미터를 사용할 때, 우크라이나 지지 성향의 계정과 친러 성향의 해시태그를 포함한 트윗을 게재한 계정 각각 60%와 80%를 봇으로 분류한 점을 지적했다. 해당 연구 논문 저자 중 한 명인 조슈아 와트(Joshua Watt)는 “프라이버시와 윤리 문제 때문에 개인 단위 데이터 보고는 기피한다”라고 언급했다.

양은 보토미터 점수 2.5점을 기준으로 봇과 인간을 구분하는 것이 보토미터의 신뢰성을 저하하는 신호로 볼 수 없다고 확신한다. 양은 갈위츠 교수의 연구와 같은 주장은 이전에도 제기된 적이 있다고 덧붙이며, 일각에서 보토미터의 구분 기준 점수를 소셜 봇 연구에 헌신하는 학계 전체를 폄하한다는 부분에 주목했다. 또한, 보토미터의 기준 점수를 모든 감시형 머신러닝 알고리즘에 불가피한 요소라고 덧붙였다.

그러나 봇과 인간 계정 구분 기준 범수는 머스크의 변호인단이 보토미터를 활용할 때 평가해야 할 중요한 상세 조건이다. 양은 “머스크 변호인단은 보토미터를 이용할 때 적용한 기준 점수를 정확히 밝히지 않았다. 머스크 측이 제시한 봇 계정 수가 정확한지 확신할 수 없다. 봇 계정 집계 시 원하는 결과를 얻기 위해 기준 점수를 임의로 적용할 수 있다”라고 말했다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
This Student’s Side Project Will Help Decide Musk vs. Twitter
이 기사를 공유합니다
RECOMMENDED