머스크의 트위터 알고리즘 공개 계획, 어떠한 문제도 해결하지 못한다

By WILL KNIGHT, WIRED US

4월 25일 저녁(현지 시각), 일론 머스크가 승리감에 고취한 채로 440억 달러에 트위터를 인수한다는 내용의 트윗을 게재했을 때, 무엇보다도 트위터의 알고리즘을 오픈소스로 두어 신뢰도를 높이겠다고 약속했다.

4월, 테드 토크(TED talk) 인터뷰 당시 트윗 홍보와 순위 저하를 결정하는 알고리즘을 소프트웨어 호스팅 플랫폼 깃허브(GitHub)에 등록해, 트위터 외부 인물도 접근하도록 만들 수 있다고 말했다. 그는 “누구나 트위터 알고리즘을 보고 문제를 발견할 수 있다. 그리고 문제 제기와 함께 변경을 요청할 수 있다. 리눅스나 시그널 업데이트와 같은 방식을 트위터 알고리즘에 적용하는 것이다”라고 설명했다.

하지만 트위터를 오픈소스로 전환해 실제 작동 방식을 확인하는 과정에는 깃허브 코드 등록보다 훨씬 더 많은 작업이 필요하다. 본질적으로 눈치채기 어려울 정도로 매우 미세해, 계속 변화하는 요소에 따라 정도가 다양한 편견 존재 혹은 부재 사실 입증 자체는 머스크가 제안한 것보다 훨씬 더 어렵다.

표면적으로 보았을 때, 투명성 강화가 여러모로 합리적인 주장인 듯하다. 트위터와 페이스북, 틱톡 등과 같은 SNS 플랫폼은 매우 큰 영향력과 권력을 행사하지만, 대부분 사용자와 규제 당국에는 불투명하다. 컴퓨터 프로그램 소스코드가 버그나 백도어를 조사해 트위터가 인식했을 수도 있는 코드를 공개하는 일은 이론적으로 타인에게 특정 콘텐츠를 홍보한다.

대규모 소셜 플랫폼을 연구하는 캐나다 맥길대학교 부교수 데렉 루스(Derek Ruths)는 “머스크가 트위터를 인수한 뒤 어떤 변화가 일어날지 지켜보는 일이 흥미로울 것이다”라고 말했다. 루스 부교수는 불투명성 때문에 강의 시 소셜 추천 시스템을 가르치지 않는다고 밝혔다.

루스 부교수는 머스크가 약속한 또 다른 개선사항이기도 한 플랫폼 관리 감소가 트위터에 의미하는 바가 불안하다는 점을 인정했다. 루스 부교수는 투명성 강화가 트위터에 유용할 것이며, 다른 소셜 네트워크에도 운영 방식을 더 공개해야 한다는 압박감을 줄 것이라고 확신한다. 그는 “오랫동안 이루어지지 않은 매우 흥미로운 실험이 될 것이다”라고 말했다.

알고리즘 오픈소스 전환이라는 아이디어는 플랫폼을 둘러싼 정치적 편견 논쟁을 촉발했다. 일부 우익 세력은 드디어 보수적 관점의 부당한 차단 혹은 실제로 누려야 할 중요한 요소를 얻지 못하도록 막는 일이 일상화됐다는 사실 입증 전망에 매우 만족한다. 하지만 트위터의 실제 운영 방식을 이해하면서 실망할 수도 있다.

첫 번째 문제는 머스크가 과거 시사한 바와 달리 트위터가 특정 콘텐츠를 강화하거나 주목받지 못하도록 판단하는 기준 지침이 없다는 점이다. 대신, 익명을 요청한 어느 한 트위터 기술팀 관계자는 트위터의 콘텐츠 강화 결정은 다량의 데이터와 다양한 인간 행동에서 복잡한 작업을 처리하는 여러 알고리즘의 결과라고 설명했다. 또, 개인 정보와 행동에 따라 결과를 결정하기도 한다. 그는 “트위터의 모든 것을 장악하는 알고리즘은 없다”라고 말했다.

또 다른 문제는 트위터가 머신러닝을 사용해 여러 가지 결정 사항을 학습한다는 점이다. 예를 들어, 트위터는 수많은 머신러닝 모델을 학습해 셀 수 없을 정도로 많은 요소를 기준으로 사용자 피드에서 우선순위로 둘 게시글을 결정한다. 머신러닝 모델은 주기적인 코드처럼 검사할 수 없다. 현실 세계를 최대한 가까이 복제한 환경에서 테스트해야 한다. 또, 머신러닝 모델은 끊임없는 신규 데이터와 사용자 행동, 관리자의 입력 사항에 대응하여 현실 세계의 시스템에서 급속도로 변화한다. 이는 신뢰할 수 없는 정보 출처를 빠르게 생성한다.

MIT 컴퓨터 공학부 교수인 데이비드 카거(David Karger)는 “머신러닝 시대에는 알고리즘이 아닌 데이터가 중요하다”라고 말했다. 카거 교수는 머스크가 플랫폼 개방성을 확대해, 누구나 새로운 방식으로 플랫폼을 구축하도록 개선할 수 있다고 주장했다. 그는 “알고리즘이 아닌 트윗을 게재하는 사용자가 트위터를 중요한 플랫폼으로 만든다”라고 언급했다.

트위터 운영 방식이라는 더 깊은 사항 확인은 손수 개발한 알고리즘 이상의 개방성을 의미하기도 한다. 인공지능(AI)이 사회에 미치는 영향을 연구하는 브루킹스 연구소(Brookings Institution) 소속 관리 연구 펠로인 알렉스 엥글러(Alex Engler)는 “코드는 훌륭하다. 데이터는 향상되었다. 코드와 데이터를 모델로 결합하는 것이 가장 좋을 것이다”라고 말했다. 엥글러는 트위터 알고리즘을 훈련하는 의사결정 과정 이해가 매우 중요하다고 덧붙여 전했다.

트위터가 사용하는 머신러닝 모델은 전반적인 큰 그림의 일부분에 불과하다. 전체 시스템이 복잡한 방식으로 실시간 사용자 행동에도 반응하기 때문이다. 사용자가 특정 뉴스 스토리에 관심을 보인다면, 자연스럽게 관련 트윗을 더 강화하여 보여준다. 익명의 트위터 관계자는 “트위터는 사회기술 시스템이다. 인간의 행동에 반응한다”라고 말했다.

트위터가 인간의 행동에 실시간 반응한다는 사실은 2021년 12월, 우익 성향의 게시글이 좌익 성향의 게시글보다 더 강조된다는 사실을 입증한 트위터의 연구 결과에서도 설명한 부분이다. 다만, 특정 정치 성향 게시글 강조 현상을 견인하는 요소는 불확실하다.

매사추세츠앰허스트대학교 교수인 에단 저커만(Ethan Zuckerman)은 특정 콘텐츠 강조 요인이 불확실하므로 플랫폼 감사 활동을 진행한다고 말했다. 저커만 교수는 “트위터 알고리즘 툴을 개발하는 이들도 결국 놀라운 단점과 결함을 발견한다”라고 말했다.

저커만 교수는 머스크의 트위터 인수 제안 동기 중 한 가지 역설적인 부분으로 트위터가 최근 들어 알고리즘 운영 방식의 투명성을 놀라울 정도로 우수한 방식으로 유지했다는 점을 지적했다. 2021년 8월, 트위터는 외부 연구원이 인간의 편견 행동에 따라 사진을 게재하는 이미지 편집 알고리즘에 접근하도록 경연을 개최했다. 또한, 트위터는 알고리즘 지식을 갖춘 이들과의 작업에 따라 사용자에게 콘텐츠를 보여주는 알고리즘 관리 권한을 부여하도록 노력했다.

소셜 네트워크를 포함해 복잡한 대규모 시스템의 보안과 프라이버시를 연구하는 뉴욕대학교 부교수 데이먼 맥코이(Damon McCoy)는 트위터 코드를 공개하면, 투명성이 강화될 것이라고 주장했다. 다만, 코드를 공개해도 트위터를 개발하는 이들은 알고리즘 작동 방식을 완벽히 이해하지 못할 것이라고 덧붙여 전했다.

각종 복잡한 요소 속에서 트위터 엔지니어링 팀이 우려하는 바는 일부 코드를 맥락과 상관없이 편집하면서 편견 징후를 강조할 수 있다는 사실이다. 트위터 추천 시스템 운영 방식을 과도하게 공개한다면, 보안 문제를 유발할 수도 있다. 맥코이 부교수는 “지금 당장 악의적인 사이버 공격 세력이 시스템을 자세히 조사하면서 테스트할 수 있다. 트위터 모델 접근성은 외부인이 특정 콘텐츠 강화에 사용하는 일부 원칙을 이해하는 데 도움이 될 수도 있다”라고 말했다.

4월 18일(현지 시각), 머스크가 트위터 인수 계획을 진지하게 드러내자 트위터가 이미 일부 코드를 게재한 트위터 깃허브 소스 접근 권한을 지닌 이들은 ‘알고리즘’이라는 이름으로 새로운 저장소를 생성했다. 트위터가 알고리즘 작동 방식을 상세한 부분까지 손쉽게 공개할 수 있다는 사실을 개발자가 이해한 듯하다. 그러나 머스크의 트위터 인수 협상 소식 발표 직후 알고리즘 저장소가 사라졌다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Musk’s Plan to Reveal the Twitter Algorithm Won’t Solve Anything

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다