본문 바로가기 주메뉴 바로가기 검색 바로가기
제미나이 만난 안드로이드...구글, 모바일 컴퓨팅의 미래와 과거 지목
상태바
제미나이 만난 안드로이드...구글, 모바일 컴퓨팅의 미래와 과거 지목
구글이 선보인 제미나이 모델과 서클 투 서치 업그레이드는 안드로이드의 변화와 인공지능을 중심으로 한 진화 과정을 엿볼 기회를 제공한다.
By JULIAN CHOKKATTU, WIRED US

구글은 10여년 전 안드로이드 마시멜로의 기능으로 ‘나우 온 탭(Now on Tap)’이라는 기능을 선보였다. 홈 버튼을 꾹 누르면, 구글이 화면에 등장한 정보와 관련하여 도움을 줄 만한 맥락에 따른 정보를 보여준다. 문자로 친구와 함께 영화 관련 대화를 하고자 하는가? 나우 온 탭을 사용하면, 문자 메시지 앱을 종료하지 않고도 영화 제목을 눌러 상세 정보를 확인할 수 있다. 옐프(Yelp)에서 음식점 정보를 찾고 있는가? 홈 버튼을 한 번 누르면, 오픈테이블(OpenTable) 추천 정보가 등장할 것이다.

필자는 대학 시절에 나우 온 탭을 사용했다. 당시 나우 온 탭의 개선 사항이 흥미로운 마법 같다고 느꼈다. 화면 속 정보를 이해하고, 사용자가 미래에 접하기를 바란다고 느낄 법한 행동을 예측하기 때문이다. 나우 온 탭은 필자가 가장 좋아하던 안드로이드 기능 중 하나였다. 이후 서서히 구글 어시스턴트로 바뀌었다. 구글 어시스턴트 자체도 훌륭한 기능을 제공하지만, 나우 온 탭과는 다르다.

2024년 5월 14일(현지 시각), 캘리포니아주 마운틴뷰에서 열린 I/O 개발자 컨퍼런스(I/O developer conference) 현장에서 구글은 과거의 나우 온 탭과 비슷한 안드로이드 운영체제의 새로운 기능을 홍보했다. 해당 기능은 사용자 주변의 맥락에 적합한 정보를 최대한 제공하여 스마트폰을 수월하게 활용하도록 도움을 주는 기능이다. 이와 비슷한 기능은 그동안 대규모 언어 모델에 10년간의 발전 사항을 바탕으로 실행되었으나 이번은 예외이다.

데이브 버크(Dave Burke) 안드로이드 엔지니어링 부사장은 필자와 구글밋 영상 통화로 진행된 인터뷰에서 “구글 내부에서는 이제 실제로 흥미로운 어시스턴트가 존재한다는 점을 흥미롭다고 본다. 구글은 직접 보는 화면을 이해하는 컴퓨터 시스템을 갖출 수 있어야 한다. 개인적으로 구글이 그동안 화면 속 정보의 맥락을 이해하는 컴퓨터 시스템을 제대로 갖추지 못했다고 생각한다. 하지만 이제는 맥락을 이해하는 컴퓨터 시스템을 보유했다”라고 말했다.

필자는 버크, 사미르 사마트(Sameer Samat) 구글 안드로이드 생태계 책임자와 안드로이드 세계의 새로운 기능, 신규 AI 어시스턴트인 제미나이(Gemini), 안드로이드 운영체제의 미래를 위해 보유한 특징 등을 주제로 대화했다. 사마트는 이번 안드로이드 업데이트 사항을 한 세대에 걸쳐 한 번 발생하는 스마트폰의 역할 재구성과 안드로이드 자체를 새로이 생각할 기회라고 말했다.

‘서클 투 서치’로 과제 해결하기
구글의 새로운 모바일 검색 경험 접근 방식인 서클 투 서치(Circle to Search)부터 대화를 시작할 수 있다. 나우 온 탭 사용 경험과 상당 부분이 비슷하며, 2024년 1월 공개된 서클 투 서치는 단순히 검색창에 검색어를 입력하는 것 이상의 경험을 선사한다. (말 그대로 검색하고자 하는 화면 속 사물에 원을 그려서 검색 기능을 실행할 수 있다.) 버크 부사장은 “감정적인 흥미와 현대의 검색 방식을 제공한다. 검색 기능의 재미를 선사하여 젊은 사용자의 검색 서비스 사용 방식을 바꾼다”라고 말했다.

사마트는 구글이 소비자에게서 긍정적인 피드백을 받았다고 말했다. 그러나 서클 투 서치의 최신 기능은 학생의 특별 피드백을 바탕으로 제작되었다. 현재 서클 투 서치는 사용자가 문제에 원을 그리면, 물리와 수학 문제만 풀 수 있다. 사용자가 문제에 원을 그리면, 구글은 단계별 문제 풀이 지시 사항을 알려준다. 사용자는 강의 앱을 종료하지 않고, 문제 풀이를 확인할 수 있다.

사마트는 제미나이가 단순히 답을 알려주는 것에 그치지 않고, 문제 풀이 방법까지 보여준다는 점을 분명히 밝혔다. 2024년 후반, 서클 투 서치는 다이어그램과 그래프 등 더 복잡한 문제 풀이 능력도 갖출 예정이다. 모두 구글이 교육 목적으로 개선한 AI 모델인 LearnLM 모델을 바탕으로 한다.
 
[사진=Unsplash]
[사진=Unsplash]

제미나이, 안드로이드에서 정보 맥락 이해 수준 향상
제미나이는 여러모로 구글 어시스턴트의 존재를 가릴 만한 AI 어시스턴트이다. 대다수 안드로이드 기기에서 구글 어시스턴트를 실행한다면, 이제는 제미나이로 구글 어시스턴트를 대신할 수 있다. 따라서 필자는 버크 부사장과 사마트에게 구글 어시스턴트 지원이 종료될 예정인가 물어보았다.

사마트는 “제미나이를 스마트폰에서 활성화하는 방식으로 구글 어시스턴트를 대체하고자 한다. 시간이 지나면서 제미나이가 분명히 고급 기능을 추가로 갖추어 진화할 것으로 예상한다. 지금 당장 제미나이의 구글 어시스턴트 대체 가능성과 관련하여 특별히 발표할 내용은 없다. 다만, 소비자가 새로운 AI 기반 어시스턴트인 제미나이를 대신 사용할 것인지 선택할 것이다. 많은 사용자가 제미나이를 사용할 때 구글은 제미나이의 사용 실태를 살펴보고, 다양한 피드백을 받을 것이다”라고 전했다.

컨퍼런스 현장에서 안드로이드에 적용된 제미나이 업데이트 사항은 약 10년 전 나우 온 탭이 선보인 기능처럼 정보 맥락 이해도를 높이고자 적용되었다. 2024년 하반기 중으로 제미나이로 이미지를 생성하고, 이를 지메일이나 구글 메시지에 끌어서 옮긴 뒤 타인에게 전송할 수도 있을 것이다. 버크 부사장은 필자에게 제미나이가 피클볼을 이용한 테니스 이미지를 생성했다. 버크 부사장은 타인이 보낸 피클볼을 즐기는 모습을 이야기한 문자 메시지에 답변했다. 이때 버크 부사장은 메시지 앱에 중첩하여 등장한 제미나이에 이미지를 생성하도록 요청했다. 이후 제미나이가 완성한 이미지를 메시지 앱으로 옮겨서 상대방의 메시지에 답변했다.

그리고 피클볼 규칙을 설명하는 유튜브 영상을 중단했다. 영상을 재생하다가 제미나이를 호출하면, “이 영상 질문하기”라는 명령어를 볼 수 있다. 해당 명령어는 사용자가 모든 정보를 직접 준비하지 않더라도 영상 속 특정 정보를 찾도록 제미나이를 실행할 수 있다. (오랜 시간을 들여 직접 영상 속 모든 정보를 찾는 사용자가 있을까?) 버크 부사장은 피클볼의 특정 규칙을 질문했다. 이후 제미나이는 즉시 영상을 바탕으로 답을 찾아냈다. PDF 파일 요약, 영상 요약, 메모 요약, 뉴스 요약 등 각종 정보 요약 기능은 여러 AI 툴의 대표적인 기능이 되었다.

PDF 요약 정보를 더 자세히 설명하자면, 조만간 PDF 파일에 제미나이를 첨부할 수 있다. (이때는 “PDF 정보 질문하기”라는 명령어가 등장할 예정이다.) 제미나이는 PDF 문서 속 특정 정보를 제공하여 사용자가 직접 PDF 문서 페이지를 읽는 데 걸리는 시간을 단축할 수 있다. 버크 부사장은 앞으로 수개월에 걸쳐 안드로이드 기기 수백만 대에 제미나이의 요약 기능을 배포할 예정이라고 밝혔다. 다만, PDF 요약 기능은 제미나이의 최첨단 기능 접근 권한을 지원하는 월 20달러(국내 구독료 월 2만 9,000원)짜리 구독 서비스인 제미나이 어드밴스드(Gemini Advanced) 가입자에게만 제공된다.

제미나이는 전반적으로 화면에서 발생하는 일을 바탕으로 더 역동적인 제안사항을 제공할 것이다. 요약 기능은 사용자가 어시스턴트를 실행할 때 제미나이 기능의 바로 위에 중첩하여 등장할 것이다.

제미나이 나노 업그레이드
제미나이 나노(Gemini Nano)는 픽셀 8 시리즈, 삼성 갤럭시 S24 라인업, 최신 픽셀 8A까지 특정 안드로이드 스마트폰 모델에서 선정된 기기 기능의 근간이 되는 대규모 언어 모델이다. 제미나이 나노 기반 기능을 기기의 기능으로 실행한다면, 데이터를 클라우드로 전송할 필요가 없다는 점에서 데이터 보호 수준이 향상된다는 의미이다. 제미나이 나노 기반 기능은 오프라인 상태에서도 실행할 수 있다.

현재 제미나이 나노는 자막 내용을 요약하는 구글 리코더(Recoder) 앱의 요약 기능, 맥락을 더 깊이 이해한 자동 답변을 전송하는 선택된 메시지 앱의 스마트 리플레이(Smart Reply) 기능 등 일부 기능을 지원한다. 구글의 최신 버전 모델인 구글 제미나이 위드 멀티모달리티(Gemini Nano with Multimodality)는 구글 픽셀 스마트폰을 시작으로 2024년 중으로 배포될 예정이다. 약간 복잡하지만, 제미나이 나노가 단순한 텍스트 처리 능력 이상의 기능을 선보일 수 있다는 의미이다.

버크 부사장은 “38억 가지 변수를 지닌 멀티모달 모델이다. 기기에 기본으로 설정된 최초의 멀티모달 모델이기도 하다. 매우 강력한 성능을 갖추었다. 학계 벤치마크 테스트에서 소규모 모델 중 꽤 놀라운 점수를 기록한 제미나이 1.0보다 약 80% 우수한 점수를 기록했다”라고 전했다.

제미나이 나노 위드 멀티모달리티는 안드로이드 기기에서 저시력자와 시각장애인이 화면 속 이미지와 글을 이해하도록 돕는 기능인 구글의 기존 토크백(TalkBack) 화면 인식 기능을 지원한다. 제미나이 나노는 각각의 이미지를 더 풍부하면서도 정확하게 설명할 예정이다. 구글은 토크백 기능 사용자가 하루 동안 라벨이 적용되지 않은 이미지 평균 90개를 본다고 전했다. 하지만 제미나이는 화면 속 이미지를 보고 이해한 뒤 사용자에게 오프라인 상태에서도 이미지를 설명할 수 있다는 점에서 라벨이 적용되지 않은 이미지 격차를 채울 수 있을 것이다.

구글은 지난 몇 년간 로보콜을 제한하고자 콜 스크리닝 기술을 개선하는 데 AI 스마트 기능을 대거 적용했다. 이제 제미나이 나노 위드 멀티모달리티는 스마트폰에서 사기를 피하도록 실시간으로 도울 수 있다. 새로이 적용된 스캠 탐지(Scam Detection) 기능은 제미나이가 사용자의 통화 내용을 듣고, 상대방의 발언 중 특정 문구나 요청 사항을 파악하고는 스캠 위험성을 직면한 상태일 수도 있다는 경고를 보낸다. 버크 부사장은 제미나이가 피싱 피해 예방 정보 웹사이트인 BanksNeverAskThat.com 등 여러 웹사이트의 데이터를 바탕으로 훈련을 받아 실제 은행이 고객에게 요청할 일이 없는 정보와 사기꾼이 요청하는 정보의 전형적인 특징 등을 인지한다고 설명했다. 제미나이의 통화 내용 청취와 사기 탐지는 기기 내에서 이루어지므로 개인 정보 보호가 이루어진다고 덧붙였다. 사용자가 활성화하여 실행할 수 있는 스캠 탐지 기능 정보는 추후 추가로 공개될 예정이다.

구글이 I/O 개발자 컨퍼런스 당일 새로운 기능을 모두 요약하여 발표하는 대신 일부 기능은 컨퍼런스 개최 다음 날 발표한 점이 이례적이다. 따라서 컨퍼런스 개최 당일 이후에도 구글이 새로 선보이고자 발표한 바를 놓치지 않기 위해 구글 소식에 계속 귀를 기울여야 했다.

스마트폰 대체 경쟁에 뛰어드는 AI 하드웨어가 증가한 데다가 앱을 사용하지 않는 생성형 인터페이스 논의도 활발한 상황에서 필자는 사마트에게 앞으로 5년 동안 안드로이드 기기에 적용될 변경 사항을 물어보았다. 사마트는 신생 기업과 기존 기업이 새로운 기술을 선보이고자 선보이는 혁신을 지켜보는 것이 흥미롭다고 말하며, 구글 내부에서도 미래 변화를 위해 다양한 혁신 노력을 펼치고 있다고 전했다. 그러나 AI 발전의 비교 대상을 자동차 산업으로 축소했다.

자동차를 구매하면, 핸들 등 특정 표준 기능을 접할 것을 예상한다. 하지만 AI에서는 한 가지 부문에서 크게 도약한다면, 해당 기능이 사라진다. 핸들도 사라지고, 인터페이스도 사라진다. 사마트는 “일각에서는 AI의 도약을 흥미롭게 지켜볼 것이다. 반대로 AI 도약을 달가워하지 않는 이들도 있을 것이다”라고 말했다. 사마트는 오늘날 스마트폰으로 사용하는 특정 기능에 AI를 더하면, 더 큰 도움을 받을 수 있을 것이라고 말한다. 또, 사용자는 AI가 적용되면서 특정 기능이 대체될 것을 예상할 수 있다.

사마트는 “AI 발전이 계속 이루어지면서 구글의 자체 테스트로 발견한 부분과 앞으로 발견하게 될 부분은 AI를 적용했을 때 도움이 되는 순간부터 기존 기능을 새롭게 활용할 방식이라고 판단하는 순간까지 특정 영역에서 사용자 인터페이스가 근본적으로 변화할 기회이다. 바로 지금 당장 흥미롭다고 느끼면서 관심을 보이는 부분이다. AI 개발 작업을 하기 매우 좋은 시기이다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
With Gemini on Android, Google Points to Mobile Computing’s Future—and Past
이 기사를 공유합니다
RECOMMENDED