본문 바로가기 주메뉴 바로가기 검색 바로가기
차세대 AI 어시스턴트, 직접 써보니...소비자에게 ‘놀라움' 선사할 것
상태바
차세대 AI 어시스턴트, 직접 써보니...소비자에게 ‘놀라움' 선사할 것
와이어드는 웹 검색 기능, 온라인 작업 수행 능력을 갖춘 새로운 형태의 음성비서를 실험용으로 사용했다. 시리, 알렉사 등 여러 음성비서가 훨씬 더 강력한 성능을 갖출 날이 다가올 것이다.
By WILL KNIGHT, WIRED US

오늘날 가장 유명한 가상 음성비서는 최신 인공지능(AI) 기반 챗봇인 챗GPT나 구글 바드 등보다는 성능이 현저히 낮은 수준이다. 최근의 생성형 AI 호황으로 얻은 결실을 기존 음성비서 봇에 통합할 때는 훨씬 더 흥미로운 결과를 볼 수 있다.

필자는 차세대 음성비서를 미리 살펴보고자 실험용 AI 음성 도우미인 vimGPT를 사용해 보았다. vimGPT에 “와이어드를 구독하라”라는 명령어를 입력하자 놀라운 능력을 선보이면서 작업을 처리하고는 와이어드의 웹페이지를 정확히 찾아내고는 온라인 버전 구독 서비스 신청을 완료했다. 필자의 신용카드 상세 정보에 접근했다면, 성공적으로 결제 요청을 처리했을 것으로 예상한다.

인간에게는 드문 지능 테스트이지만 공개된 웹 환경에서의 온라인 상품 구매는 시리나 알렉사, 구글 어시스턴트가 일반적으로 처리하는 작업보다 훨씬 더 복잡하고 어렵다. (설정 리마인더나 스포츠 경기 결과 확인 기능 등은 2010년에 접한 것과 큰 차이가 없는 수준이다.) 요청을 처리하려면, 논리적으로 말이 되는 명령어를 입력하고 올바른 웹사이트를 찾기 위한 웹 접근 후 관련 페이지나 양식과의 상호작용이 필요하다. 필자가 사용한 AI 도우미는 와이어드 구독 페이지로 이동하고는 와이어드의 모든 흥미로운 심층 분석 기사를 월 1달러에 구독할 수 있는 구독 신청 양식도 찾아냈다. 그러나 마지막 단계에서는 신용카드 단계가 없었던 탓에 작업 요청 장벽을 마주했다. vimGPT는 사용자 정보를 저장하지 않는 구글의 오픈소스 브라우저 크롬을 사용했다. 하지만 필자는 vimGPT 기능을 평가한 또 다른 실험 과정에서 흥미로운 고양이 영상 검색이나 저가 항공편 발견과 같은 작업을 자연스럽게 처리했다.
 
[사진=Freepik]
[사진=Freepik]

vimGPT는 개인 개발자인 이샨 샤(Ishan Shah)가 단 며칠 만에 개발한 개발 중인 제품이 아닌 실험용 오픈소스 프로그램이다. 애플, 구글 등 여러 기업도 시리와 같은 음성비서 업그레이드 사항을 보고자 비슷한 실험을 진행한다. vimGPT는 오픈AI의 유명 언어 모델의 멀티모달 버전인 GPT-4V를 기반으로 개발됐다. vimGPT는 요청을 분석하면서 텍스트만 처리하는 소프트웨어보다 클릭할 내용이나 입력할 내용을 더 안정적으로 판단한다. 복잡하게 얽힌 HTML로 구성된 웹을 이해하기 위한 노력이다. 샤는 “지금부터 1년간 컴퓨터를 사용하면서 접하는 경험이 크게 달라질 것으로 기대한다”라며, “대다수 앱의 클릭 횟수는 줄어들고, 채팅 횟수는 증가할 것이다. 또, 에이전트는 웹 브라우저 사용 경험에 통합될 것이다”라고 말했다.

챗GPT와 같은 AI 챗봇 이후의 논리적인 단계가 컴퓨터 사용과 웹 이동 작업을 수행하는 에이전트의 등장이라고 생각하는 개발자는 샤 이외에도 더 찾아볼 수 있다. 2016년부터 2020년까지 애플 AI 연구 소장으로 근무한 카네기멜론대학교 교수 루슬란 사라쿠티노프(Ruslan Salakhutdinov)는 시리를 비롯한 여러 AI 어시스턴트가 AI 업그레이드를 위한 모든 과정과 일치하는 단계를 선보였다고 확신한다. 사리쿠티노프 교수는 “다음 진화 단계는 유용한 작업을 처리하는 에이전트의 등장이 될 것이다”라고 예측했다. 그는 “시리에 챗GPT의 근간이 된 것과 같은 AI를 연결한다면, 유용할 것이다”라면서도 “그러나 시리가 작업을 원활하게 처리한다면, 더 놀라울 것이다. 그리고 AI 전문가가 개발 과정에서 겪는 문제를 해결할 수 있을 것이다”라고 덧붙였다.

사리쿠티노프 교수는 제자를 이끌고 여러 작업을 처리할 수 있는 AI 도우미의 역량 테스트 및 개선을 위한 몇 가지 시뮬레이션 환경을 개발했다. 가짜 전자상거래 웹사이트와 레딧과 같은 메시지 보드 복제 버전, 분류된 광고 웹사이트 등도 시뮬레이션 환경에 포함됐다. 에이전트를 각각 적합한 속도를 통해 배치하는 가상 테스트 환경을 비주얼웹아레나(VisualWebArena)라고 칭한다.

테스트 환경 이야기는 AI 에이전트가 조만간 디지털 생활을 훨씬 더 수월하게 만들 정도로 멋진 작업을 할 수 있다는 의미이다. 예를 들어, AI 모델은 스웨터를 착용한 인물 사진을 보고 전자상거래 웹사이트에 등록된 판매 상품 중 특정 가격대에 해당하는 비슷한 의상을 찾고, 가장 저렴한 제품을 장바구니에 추가할 수 있다. 다른 예시로 레딧과 같은 웹사이트에서 특정 사용자를 차단하고자 한다는 정보가 주입된 에이전트는 사이트 설정에서 차단하고자 하는 사용자를 추가할 수 있다.

하지만 실수가 많다는 점에 주목할 수 있다. 사리쿠티노프 교수 연구팀은 실험 도중 AI 에이전트의 복잡한 작업 달성률이 16%임을 확인했다. 반면, 인간의 같은 작업 달성률은 88%였다. 웹사이트 이동 실패, 무한한 검색 허점과 같은 실수는 흔한 일이다. 그러나 AI 에이전트가 사용자 장바구니에 상품 수십 개를 담는 실수나 소셜 웹사이트에서 분노를 유발하는 사용자를 친구로 추가하는 등의 실수는 가끔 발생하는 일인 듯하다. vimGPT에 결제 정보를 입력하는 것이 현명하지 않은 일일 수도 있다.

사리쿠티노프 교수 연구팀의 가상 환경이 가치 있는 이유 중 하나는 AI 에이전트가 실제로는 어떠한 피해도 주지 않은 상태에서 내부에서 통제할 수 없는 행동을 할 수 있다는 사실이다. AI 에이전트 간의 충돌 데이터 수집은 연구팀이 에이전트의 주어진 작업 수행 능력과 잘못을 일으킬 수 있는 과정 등을 파악하는 데 도움이 된다. 사리쿠티노프 교수는 AI 에이전트를 비주얼웹아레나와 같은 환경 안에 느슨하게 연결되었다면, 시뮬레이션으로 게임 실행 머신러닝 알고리즘 훈련과 알파벳의 알파고(AlphaGo)처럼 챔피언을 이기는 데 집중하도록 하듯 AI 에이전트가 성공과 실패를 적극적으로 배울 수 있다.

사리쿠티노프 교수는 애플 내부에서 현재 진행 중인 작업 정보를 알지 못하지만, AI 에이전트 개발 작업을 분주하게 진행할 것으로 기대한다. 그는 “애플, 마이크로소프트, 구글 등 테크 업계 대기업 모두 기본적으로 AI 에이전트 부문 작업을 진행한다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
I Tested a Next-Gen AI Assistant. It Will Blow You Away
이 기사를 공유합니다
RECOMMENDED