구글 어시스턴트의 미래, 코 앞에서 사용자 얼굴 본다

By LAUREN GOODE, WIRED US

지난 몇 년간 테크 업계는 사용자에게 기기를 탭하는 행동이나 호출어 입력, 화면 스와이프가 아닌 말만 하면서 명령을 전달하는 컴퓨팅 미래를 약속했다. 물론, 음성 명령 실행이라는 약속에는 편리함이라는 장점이 기본적으로 포함되었다. 음성 컴퓨팅은 사용자가 손을 조작하지 않더라도 간단하게 사용할 수 있다. 게다가 매우 유용하면서도 효과적이다.

그러나 음성 명령의 간편함이라는 약속이 끝나지 않았다. 지난 몇 년간 스마트폰과 스마트홈 소비자가 인공지능(AI) 음성 비서를 기기에 함께 활용했기 때문이다. (간혹 실수로 음성 비서를 실행한 사례도 있다.) 대다수 사용자에게 음성 비서 활용 용도를 물어본다면, 날씨 보고와 저녁 식사 시간 안내 등을 말하는 이들이 많을 것이다. 음성 제어 미래가 매우 기초 수준에 머무르고 있는 듯하다. 사용자는 제한 없는 지능 사용 경험을 약속받았다. 그러나 실제로 사용자는 ‘아기 상어’를 수차례 말해야 아기 상어 동요 영상을 볼 수 있다.

이제 구글은 자연어 처리 기술과 AI의 작업을 다루도록 설계된 칩 발전의 조합 덕분에 음성 컴퓨팅의 새로운 시대를 향하고 있다고 말한다. 5월 11일(현지 시각), 씨씨 샤오(Sissie Hsiao) 구글 어시스턴트 사장은 캘리포니아주 마운틴뷰에서 진행된 연례 구글 I/O 개발자 컨퍼런스 현장에서 구글의 음성 비서 장기 계획의 한 부분이기도 한 신규 기능을 강조했다. 샤오 사장은 그동안 구글이 약속한 음성 컴퓨팅의 편리함이 현실에 한 발 더 가까워졌다고 말했다. 컨퍼런스 전 진행된 인터뷰 현장에서는 퇴근길에 “지난주 금요일 밤에 먹었던 피자 주문해줘”와 같은 명령어를 말하면서 피자 주문을 신속하게 완료할 수 있다는 예시를 언급했다. 구글 어시스턴트의 대화 능력이 이전보다 한 단계 더 강화됐다. “헤이, 구글”과 같은 오래된 명령 호출 언어는 서서히 사라지고 있다. 대신 사용자 얼굴을 이용해 음성 제어 기능을 실행할 수 있다.

프라이버시와 활용성이라는 의문을 촉발하기도 하는 음성 컴퓨팅의 야심 찬 비전이자 구글의 음성 컴퓨팅 수익화를 위한 최종 단계이다. 그러나 이 모든 기능을 오늘날 혹은 전 세계 모든 언어로 사용할 수는 없다. 샤오 사장은 “음성 컴퓨팅 발전을 향한 장기 여정의 일부분”이라고 말했다.

샤오 사장은 “지금은 사용자가 흥미로워하는 음성 기술의 첫 번째 시대가 아니다. 사용자가 여러 차례 반복하여 정보를 얻으려는 각종 음성 질의에 적합한 시장을 발견한 것이다”라고 언급했다. 훨씬 더 복잡한 활용 사례가 곧 등장하는 것을 볼 수 있다. 샤오 사장은 “불과 5년, 4년, 아니, 3년 전까지만 하더라도 실제로 인간이라고 착각할 정도로 컴퓨터가 인간에게 다시 말을 거는 일이 가능했는가? 당시 컴퓨터가 자연스럽게 인간에게 말을 거는 능력을 보여줄 능력이 없었다. 그러나 이제는 보여줄 능력이 있다”라고 말했다.

흠… 무언가 막힌 것 같다
두 사람이 다른 언어로 말하더라도 서로 이해하는 일은 기술자가 아닌 상담가에게 묻는 것이 가장 적합할 것이다. 언어학적으로 보자면, “흠…”과 같이 어색하게 대화를 중단하면서 자주 대화가 막히는 상황이더라도 대화 당사자는 서로 이해할 수 있다. 인간은 적극적인 청자이자 해석자이다. 컴퓨터는 인간처럼 상대를 훌륭하게 이해하지 못한다.

이에, 샤오 사장은 어시스턴트가 인간 대화의 완벽하지 않은 특성을 더 자세히 이해하면서 유창한 대화를 이어가도록 만들고자 한다고 밝혔다. 샤오 사장은 컨퍼런스 무대에 서서 “플로렌스…였나…? 그 가수 신곡 틀어줘”라고 말했다. 이때, 어시스턴트는 샤오 사장이 플로렌스의 곡 ‘머신(Machine)’을 말한다는 점을 이해했다. 빠른 데모였으나 불과 몇 년 전, 대화와 언어 모델 연구에서 앞서 탐색한 부분이다. 구글은 이미 기기의 대화 처리 과정을 어느 정도 다루면서 음성 비서의 대화 능력을 향상했다. 이제는 대규모 언어 모델 알고리즘도 함께 배포할 때이다.

대규모 언어 학습 모델(LLM)은 기술이 상황을 이해하고 처리하면서 인간과 더 비슷한 상호작용을 하도록 지원하는 대규모 텍스트 세트를 기반으로 개발된 머신러닝 모델이다. 구글이 LLM 연구에 공을 들인 유일한 기관이라고 보기는 어렵다. 가장 널리 알려진 LLM으로 오픈AI(Open AI)의 언어 모델 GPT-3와 그 자매 버전 이미지 생성 모델인 DALL-E를 언급할 수 있다. 최근, 구글은 기술적인 주제를 깊이 풀어서 작성한 블로그 게시글을 통해 PaLM(Pathways Language Model) 개발 계획을 설명했다. 구글은 PaLM이 여러 단계의 연산이나 상식적 추론이 필요한 컴퓨팅 작업의 획기적인 발전을 달성했다고 주장했다. 구글 픽셀 스마트폰이나 스마트홈 디스플레이의 구글 어시스턴트가 PaLM과 같은 수준으로 영리한 것은 아니지만, AI의 지능을 판별하는 튜링 테스트 통과 성공 이후의 미래를 엿볼 수 있다.

샤오 사장은 네스트 허브 맥스(Nest Hub Max) 스마트 디스플레이에서 “헤이 구글”이라는 호출 언어를 없앨 수 있는 룩앤톡(Look and Talk) 기능도 시연했다. 단, 사용자가 기기에 내장된 카메라를 보고 얼굴을 인식해야 음성 명령 기능을 실행하는 것에 거부감을 느끼지 않아야 한다. 부엌으로 들어가 수도꼭지가 새는 것을 발견했을 때, 네스트 허브 맥스를 향해 걸어간 뒤 화면을 보고 인근 배관공 연락처 공유를 요청할 수 있다.

사용자가 기존 호출 언어를 생략해도 음성 명령 기능을 사용하도록 지원하기 위한 구글의 광범위한 노력 중 일부분이다. 2021년 가을, 구글이 픽셀 6 시리즈를 공개했을 당시 간단한 문구 기능을 지원하기 시작했다. 결과적으로 사용자는 “헤이 구글”이라고 말하지 않더라도 전화 수신 혹은 거부, 타이머 중단 등과 같은 기능을 실행하게 되었다. 이제 네스트 허브 맥스 사용 시 “침실 불 켜줘”와 같은 단축 명령어를 포함할 수 있다. 단축 명령어는 기본적으로 음성 비서를 가장 빠르게 호출하면서 명령을 지시할 방법이 되었다.

네스트 허브 맥스의 얼굴 스캔 기능에 불쾌함을 드러낼 수 있다. (필자는 안면 인식 기능으로 영향을 받지 않을 것이라는 설명을 들었다.) 샤오 사장은 안면 스캔 기능을 100% 활성화 및 비활성화할 수 있다고 여러 차례 반복하여 말했다. 안면 스캔 기능은 구글 네스트 허브 맥스 홈 디스플레이에서 처음에만 실행되며, 카메라 비활성화를 위한 물리적 스위치가 있다. 누군가의 얼굴을 사용해 소프트웨어를 실행하지 않을 것이다. 따라서 초기 사용자를 대신해 다른 사용자가 음성 비서에 질문하도록 하는 일은 없을 것이다. 프라이버시 추가와 관련, 얼굴 스캔 기능은 구글 클라우드가 아닌 기기 자체에서 처리한다.

지금까지 모든 음성 비서가 프라이버시 위험성을 지닌 사실이 현실이었으며, 널리 인식된 부분이기도 하다. 음성 비서는 사용자 음성을 기록하는 마이크나 사용자 행동을 추적하는 네스트 허브 2세대에 적용된 것과 같은 내장 레이더 센서, 얼굴을 담은 사진, 영상을 촬영하는 완성도를 갖춘 카메라 센서 등을 활용한다. 음성 비서의 다양한 기기 내장 기능 활용성의 본질은 사용자가 알게 될 것이라고 구글이 약속한 부분이다. 사용자는 편리함이라는 대가로 수많은 개인 정보를 내주어야 한다. 그러나 이번 컨퍼런스에서 구글이 말한 편리함은 “헤이 구글”이라는 말을 생략해도 명령을 실행할 수 있다는 부분이 아니다.

헤이 구글, 아직 멀었니?
프라이버시 관련 의문점을 제외하고 샤오 사장이 언급한 기술 중 일부는 아직 연구 과정에서 진전을 거두지 못했다. 따라서 샤오 사장이 말한 것과 같이 대규모 시장의 소비자 제품으로 활용하기에는 갈 길이 멀다. 전적으로 대화형 AI가 등장했으나 아직은 지금 당장 소비자의 손에 들어오기는 어려울 수도 있다.

한 가지 예시를 살펴보자. 지금 당장 구글 어시스턴트를 실행해 농담을 던진다면, 사용자가 말한 농담을 훌륭하게 작성한 뒤 인간이 신중하게 검토한다. LLM의 능력은 훌륭하면서도 매우 불완전하다. LLM은 시를 작성할 수 있다. 그러나 노골적인 인종차별 발언을 할 수도 있다. 따라서 구글은 지금도 인간 콘텐츠 관리자를 두고 음성 비서 제품의 일부 요소를 검토한다. 하지만 아이디어, 성향, 식사와 수면, 물질이 필요한 뼈와 살을 갖춘 인간이라는 존재가 확장성을 갖추는 방법은 소프트웨어와 다르다. 음성 명령 기술이 이전보다 인간과 더 가까운 수준의 지능 표준 테스트를 그 어느 때보다 더 우수한 성적으로 통과할 수 있을 것이다. 하지만 음성 명령 기술을 수백만, 혹은 수십억 명이 구매하게 될 제품에 적용하고 모든 사용자에게 안정적으로 작동하도록 하는 일은 대대적으로 시행 중인 일이다.

기업 환경의 음성 비서 활용 사례를 연구 중인 번 엘리엇(Bern Elliott) 시장 조사 기관 가트너 리서치(Gartner Research) 부사장은 음성 비서가 전혀 정적이지 않다고 말했다. 엘리엇 부사장은 “음성 비서 흐름 개선과 활용성 증가, 고도로 발전하여 첨단화된 활용 사례를 향한 변화가 이루어지고 있다. 기업 환경의 상호작용을 갖춘 음성 비서 사용은 한 번 누르면 서비스 실행, 두 번 누르면 판매 등과 같은 방식으로 매우 간단하다. 이제 기업용 음성 비서는 훨씬 더 복잡한 대화를 이어갈 능력을 갖추었다.

엘리엇 부사장은 소비자 시장이 복잡한 대화를 진행할 수 있는 음성 비서 제품 상용화로 향하고 있다고 생각한다. 엘리엇 부사장은 “한 번에 간단하게 완료할 수 있다. 예를 들어, ‘알렉사, 지금 몇 시야?’, ‘시리야, 오늘 일정이 뭐야?’와 같이 명령을 실행할 수 있다”라고 덧붙여 설명했다.

광고와 구독
구글 어시스턴트가 음성 비서로 존재한다면, 다음 단계가 음성 상호작용의 수익화라는 점은 필연적일 것이다. 구글 렌즈(Google Lens)가 AR을 활용해, 사용자가 현실 세계의 제품을 물어보는 상황에서 검색 결과로 향하도록 하는 것과 같다. 구글 어시스턴트가 광고를 제공할 시점은 언제일까? 샤오 사장이 구글 디스플레이, 비디오, 모바일 광고 부서에서 다년간 근무한 뒤 구글 어시스턴트 사장이 된 16년 차 베테랑임을 고려하면, 그리 먼 시점이 되지는 않을 것이다. 현재 샤오 사장은 구글 어시스턴트 기술 작업자 2,000여 명으로 구성된 직원 수천 명을 관리한다.

샤오 사장은 구글 어시스턴트가 광고를 제공하는 일이 불가피하다는 주장에 동의하지 않는다. 샤오 사장은 음성이 명확한 광고 채널이 아니라고 언급하며, “광고 제공은 구글이 어시스턴트 진화 과정에서 구상하는 바가 아니다”라고 덧붙여 전했다.

게다가 규모 문제도 있다. 2020년, 5억 명을 기록한 구글은 어시스턴트의 월간 활성화된 사용자가 현재 7억 명을 돌파했다고 밝혔다. 사용자 수십억 명이 구글 검색창에 매일 수십억 가지 정보를 입력하는 것과 비교하면, 구글 어시스턴트 광고는 그리 중요하지 않다. (사소한 것까지 기업 수익화 수단으로 추가할 것인가?) 샤오 사장은 구글 어시스턴트가 광고를 제공할 일이 절대 없다고 확실히 말하지 않았다. 하지만 구글 어시스턴트의 사용자 규모는 적어도 지금 프라이버시 침해 문제를 일으킬 수 있는 광고 제공을 합리화할 정도로 충분히 규모가 크지 않다는 점을 시사한다.

필자는 샤오 사장이 언급한 퇴근길 피자 주문 사례를 계속 이야기했다. 이때, 운전 중 음성 비서를 통해 피자를 주문하도록 지원하지만, 판매자가 음성 검색 결과에서 우선순위로 노출되도록 비용을 부담할 수 있지 않은가 물어보았다. 그리고 검색 결과 노출 순위에 따라 광고가 되지 않을지도 물어보았다. 샤오 사장은 가능한 일이라고 가정할 수 있다고 답변했다. 그러나 광고가 잠재적인 수익화 모델이지만, 광고를 이용한 수익화 모델이 꼭 필요한 것은 아니라고 덧붙였다. 샤오 사장은 “실제로 도움이 되고 대화 능력이 우수하며, 유용한 제품이 되도록 만드는 일에 집중한다"라고 거듭 주장했다.

컴퓨팅의 대다수 진화 과정과 같이 음성 비서의 가장 중요한 변화는 서서히 등장할 것이다. 이미 음성 비서의 변화가 소비자 곁으로 다가오고 있다. 이미 자연스러운 대화 능력이 더 우수한 음성 기술의 기본 토대가 있다. 언젠가는 구글 어시스턴트 사용자가 네스트 허브 맥스를 흘끗 보면서 음성 명령을 호출한 뒤 구글 어시스턴트가 사용자의 명령 수행 준비를 하면서 명령어를 기다리게 될 것이다. 다만, 구글의 AI로도 답변할 수 없는 한 가지 의문점으로 사용자가 복잡한 대화 기능을 사용하면서 구글을 신뢰할 것인지, 아니면 단순히 일기예보만 확인할 것인지를 언급할 수 있다. 또, 사용자가 지금처럼 기본적인 기능만 반복하여 사용하는 일이 끊임없이 이어질 수도 있을 것이다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Google Assistant’s Future Is Looking Us Right in the Face

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다