본문 바로가기 주메뉴 바로가기 검색 바로가기
마오리족, 테크 기업으로부터 모국어 보호 나선다
상태바
마오리족, 테크 기업으로부터 모국어 보호 나선다
테 히쿠 미디어는 마오리어 음성 데이터를 광범위하게 수집했다. 여러 기업이 마오리족의 마오리어 보존 권리를 얻으려 한다.
By DONAVYN COFFEY, WIRED UK

2018년 3월, 피터 루카스 존스(Peter-Lucas Jones)와 뉴질랜드 북쪽 끝에 있는 테 히쿠 미디어(Te Hiku Media)라는 소규모 비영리 라디오 방송국에 당시 근무하던 직원 10명은 불신에 찬 상황이었다. 테 히쿠 미디어가 시작한 경쟁 덕분에 10일 만에 뉴질랜드 전역의 마오리족 언어 구사자가 총 300시간이 넘는 모국어 소개 오디오를 녹음했다. 이는 자동 대화 인식 기능과 자동 음성 인식 기능 등 마오리어의 언어 기술을 구축하기 충분한 데이터였다. 

마오리어 방송사의 몇몇 직원과 엔지니어 한 명이 마오리아의 음성 인식 기술 선구자가 되려던 참이었다. 그러나 언어 기술을 위한 툴 구축은 경쟁의 절반에 불과했다. 테 히쿠 방송사는 곧 마오리어 데이터 세트를 개발하려는 기업체에 방어막을 치고는 피해를 일으키고는 하는 서구 세계의 데이터 공유에 저항하고 있다는 사실을 깨닫게 되었다. 마오리족이 모국어 데이터를 스스로 보호하는 것이 우선순위였다. 마오리어에 활력을 불어넣는 데 진정으로 관심이 있는 이들은 마오리족이 유일했기 때문이다.

전 세계의 여러 언어가 사라지고 있다. 국제연합기구(UN)는 2주 단위로 부족 언어가 사라진다고 추산한다. 인종 말살 정책 탓이 크다. 20세기에 걸쳐 마오리족 아이들은 종종 학교에서 마오리어를 사용하면 망신을 당하거나 체벌을 받았다. 그 결과, 학교에서 마오리어 사용을 금지당한 세대가 성인이 되면서 많은 이가 자녀에게 똑같은 수모를 당하지 않도록 하기 위해 마오리어를 알려주지 않았다. 이는 1920년부터 1960년 사이에 마오리어 구사자 수가 크게 줄어든 주된 원인이다. 이제 여러 부족에서 자신의 부족 언어를 유창하게 구사하는 이들의 수가 줄어드는 동시에 연로해지고 있다. 언어와 언어에 고스란히 담겨있는 부족의 전통 모두 멸종 위기에 처했다.

테 히쿠 CEO 존스와 CTO 케오니 마헤로나(Keoni Mahelona)는 지난 30년간 방송국에서 축적한 다량의 오디오 데이터를 디지털화하면서 마오리어 음성 인식 기술의 필요성을 느끼기 시작했다. 존스는 “마오리어의 모든 관용어구와 일상적 표현, 고유 표현 모두 정확히 기록했다”라고 밝혔다. 테 히쿠 측이 수집한 오디오 데이터는 모두 마오리어를 정확히 구사하는 원주민의 음성이다. 마오리어는 한때, 영어 때문에 정확히 기록되지 않았다. 그러나 뉴질랜드 전역에 거주하는 마오리족은 물론이고, 전 세계 인구가 정확한 마오리어 데이터 자원을 사용할 수 있도록 만들기 위해 테 히쿠 방송사 관계자는 오디오를 텍스트로 변환해야 했다. 총 수천 시간 분량의 마오리어 음성 데이터를 텍스트로 변환하기 위해 컴퓨터에 마오리어를 가르쳐야 했다.

테 히쿠 관계자가 음성 콘텐츠를 텍스트로 변환하도록 하는 자동 음성 인식 시스템 툴과 모질라의 오픈소스 툴인 딥 스피치(Deep Speech) 등 여러 음성 인식 기술은 매우 접근성이 좋았다. 원주민 사회에 들이닥친 진정한 문제는 기술 구축을 위한 부연 설명 데이터이다. 오픈소스 음성 기술 스타트업 코키(Coqui) 공동 창립자인 켈리 데이비스(Kelly Davis)의 설명에 따르면, 사전 데이터가 없는 상태에서 처음부터 음성 인식 툴을 생성하기 위해 일반적으로 1만 시간 분량의 부연 설명 오디오의 측정값이 필요하다. 불가능한 것은 아니더라도 사전 문서가 거의 없는 소규모 부족 언어에는 매우 힘든 요구사항이다.
 
[사진=Pixabay]
[사진=Pixabay]

그러나 테 히쿠 측은 초기에 보유한 320시간 상당의 데이터로 음성 자동 인식 기술 엔진을 구축할 수 있었다. 테 히쿠에서 7년간 근무한 하와이 원주민인 마헤로나는 초기 기술 엔진의 오류 발생률이 14%였다고 알려주었다. 참고 자료를 제시하자면, 2018년 콘퍼런스 기준으로 구글의 자동 음성 인식 기술은 총 1만 2,500시간의 데이터 세트에서 오류 발생률 6.7%를 기록했다. 데이비스는 “불과 300시간에 걸쳐 이전에 음성 인식 기술이 기본적으로 지원되지 않는 언어의 인식 오류 발생률이 갈수록 줄어들었다. 이는 매우 인상적인 결과이다”라고 말했다.

마헤로나와 존스는 여러 콘퍼런스에 참석해, 마오리어 자동 음성 변환 기술 구축 성공 사례를 설명했다. 테 히쿠 관계자가 부족 언어를 지원하는 자동 음성 변환 기술을 최초로 구축한 것은 중요하지 않다. 마헤로나는 이전의 데이터가 부족한 부족 언어도 자동 음성 변환 기술 구축이 가능하다는 사실이 중요하다고 말했다. 캐나다 남동부의 모호크족과 하와이 원주민 등 다른 여러 원주민 부족 집단 소속 언어 활성화 전문가들은 테 히쿠에 연락해, 테 히쿠가 구축한 코드를 활용하고 마오리어 자동 음성 변환 기술 구축 전략을 따라 했다. 캐나다 퀸즈대학교의 모호크족 교수인 나단 브링크로우(Nathan Brinklow)는 “기술은 언어 활성화를 강화하는 요소이다. 기술이 멸종 위기에 처한 부족 언어 활성화를 이끈다. 그러나 이는 일반인도 할 수 있는 일이다”라고 말했다.

2018년 여름, 테 히쿠는 오류 발생률을 10% 미만으로 줄였다. (테 히쿠의 자동 음성 변환 기술은 외부에서 유효성 평가를 받지 않았다) 테 히쿠 홈페이지 설명에 따르면, 그 시기에 미국의 글로벌 기업 번역 및 로컬화 솔루션 전문 기업 라이언 브리지(Lion Bridge)의 요청을 받았다.

마헤로나는 “기본적으로 라이언 브리지는 전 세계에 서비스를 판매한다”라고 말했다. 그는 고객 대신 라이언 브리지가 몇몇 마오리족 학자와 라디오 그룹과 접촉해, 마오리어 음성 데이터를 제공하는 이들에게 시간당 45달러를 지급했다. 마헤로나는 그저 전화에 마오리어를 말하기만 하면 됐다고 회상했다. 그는 “시간당 45달러라는 금액은 원주민 부족 구성원 중 누군가에게는 매우 큰돈이라는 사실을 알게 됐다”라고 말했다. 라이언 브리지는 이 기사 작성을 위한 질문에 답변하지 않았다.

테 히쿠가 라이언 브리지의 제안을 거절한 직후, 마헤로나와 존스는 미국 기업에 마오리어를 판매하는 것이 위기가 되는 이유를 설명하는 영상과 함께 제안 거절 사유를 알렸다. 존스는 “미국은 마오리어를 억압하고는 조부모 세대를 신체적으로 학대했다. 그리고, 이제는 마오리어를 마오리족에게 되팔려고 한다”라고 말했다.

테 히쿠는 유일하게 마오리어를 이용해, 같은 마오리족에게 금전적 이익을 취하는 것을 거부한 유일한 이들이다. 또한, 테 히쿠는 지난 30년간 수집한 마오리족 데이터 주권을 유지하며 마오리족의 권리를 열렬히 보호했다. 마헤로나는 “테 히쿠는 마오리족의 가치관을 그 무엇과도 교환하지 않는다. 마오리족 관련 데이터를 판매하거나 연구를 위해 공유하지 않을 것이다”라고 밝혔다.

존스는 마오리어 데이터를 판매하거나 내주는 행위는 서양 기업이 마오리어, 그리고 언어에 담긴 수천 년의 전통 지식을 상업적 기회를 위해 사용하도록 하는 행위라고 말한다. 이는 마오리어와 아무 관계가 없는 데이터 과학자가 마오리어의 미래를 형성하기 위한 툴을 개발하도록 믿는 것을 의미한다. 또, 최악의 상황에 처한다면, 마오리족은 모국어였던 마오리어를 이용한 경제적 기회를 놓치게 될 것이다. 이는 한 민족이 자국 영토의 경제적 이익을 인식하지 못한 것과 같다. 존스는 “아픈 역사가 반복되지 않도록 막는 것이다”라고 말했다. 마오리어 데이터를 보호하는 것은 마오리족이 자치권을 유지하는 것이다.

그 후, 테 히쿠는 마오리어 데이터나 테 히쿠가 개발한 자동 음성 변환 모델 사용을 위한 연락을 10여 차례 받았다. 2018년 말, 데이비스는 모질라에서 오픈소스 언어 기술 작업을 계속하고 있었다. 데이비스는 과거, 1년간 함께 일한 테 히쿠 팀에 접촉해, 테 히쿠의 데이터를 모질라 오픈소스 데이터베이스인 커먼 보이스(Common Voice)에 추가하고자 했다. 테 히쿠 팀은 또다시 제안을 거절했다.

존스는 “오픈소스의 가치를 인지하고 있다. 그와 동시에 마오리족 다수가 오픈소스를 활용할 자원을 충분히 보유하지 않고 있다는 사실도 알고 있다”라고 설명했다. 마오리족은 주기적으로 오픈소스 데이터베이스를 최대한 활용하는 이들만큼 충분히 교육과 첨단 기술에 접근할 기회를 감당할 경제적 여력이 없기 때문에 존스는 테 히쿠의 데이터를 오픈소스로 제작하는 일이 마오리족에게는 그리 도움이 되지 않는다고 말했다. 데이비스는 테 히쿠 측의 설명을 듣고 나서 바로 거절 사유를 이해했다. 그는 테 히쿠가 마오리어 데이터를 직접 보관하고자 하는 것은 매우 타당한 일이라고 말했다.

테 히쿠가 특히 대학 등 일부 기관과 협력 관계를 맺었지만, 약관에는 테 히쿠의 데이터 라이선스를 기반으로 한다고 상세하게 명시되었다. 라이선스 내용을 보면, 테 히쿠와 대학 기관의 협력 프로젝트는 반드시 마오리족에게 도움이 돼야 하며, 마오리어 데이터로 생성한 프로젝트는 모두 마오리족의 소유가 되어야 한다. 이와 같은 조건은 미래의 경제적 기회가 데이터를 직접 수집한 마오리족 부족 사회에 있음을 보장한다.

테 히쿠는 2019년, 1,300만 달러의 자금을 확보한 덕분에 데이터 과학자와 마오리어 전문가를 각각 5명씩 추가로 영입할 수 있었다. 이제는 단순히 마오리어 보존뿐만이 아니라 원주민 발음의 정확함도 함께 지키기 위해 마오리어 자동 음성 변환 툴을 개발하고 수정한다. 아직 데모 단계까지만 도달한 테 히쿠의 최신 마오리어 앱은 현재 마오리어를 구사하는 이들이 발음을 정확하게 교정하고, 마오리어에 영어의 영향을 없애고자 한다. 존스는 “마오리어에서 식민지배의 잔재를 없애고 있다. 마오리어를 원래 발음대로 구사해, 마오리어의 미래를 지키고자 한다”라고 밝혔다.

속도가 핵심이다. 마헤로나는 분류된 데이터가 거의 필요하지 않은 준감독 학습 등 기술이 있어, 결국 여러 테크 기업이 문화적 지식을 찾지 않고도 언어 서비스를 개발할 수 있다고 말한다. 한편, 테 히쿠 측은 철자 확인과 문법 조언, 가상 언어 튜터 등 필요한 툴을 먼저 서둘러 개발하고 있다. 마헤로나는 “어찌 됐든 더 나은 대체 기술을 개발할 필요가 있다. 테 히쿠는 모든 마오리족을 위해 더 나은 (온라인) 언어 사용 공간을 제공하고자 한다”라고 덧붙였다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Māori are trying to save their language from Big Tech
이 기사를 공유합니다
RECOMMENDED