본문 바로가기 주메뉴 바로가기 검색 바로가기
구글 최신 로봇, 웹 스크래핑으로 주문 접수 방법 학습
상태바
구글 최신 로봇, 웹 스크래핑으로 주문 접수 방법 학습
악명 높은 텍스트 생성 프로그램 GPT-3로 작성 방법을 학습한 머신러닝 기법은 로봇이 인간이 말로 하는 명령도 이해하도록 돕는다.
By WILL KNIGHT, WIRED US

2022년 8월, 구글 과학자 페이 시아(Fei Xia)가 밝은 개방형 주방 중앙에 앉아, 대형 램프와 비슷한 모습의 팔 하나와 바퀴를 장착한 로봇과 연결된 노트북에 명령어를 입력했다. 시아는 “배가 고프다”라는 명령어를 입력했다. 로봇은 재빨리 주변 주방조리대를 확대하여 보여준 뒤 플라스틱 집게와 잡곡 칩을 집고는 시아에게 건네주었다.

캘리포니아 마운틴뷰 소재 구글 로봇 연구소에서 진행된 데모 중 가장 인상적인 부분은 인간 코드 작성자가 별도로 프로그램을 구성하지 않았지만, 로봇이 시아의 명령을 이해하고 반응했다는 사실이다. 로봇의 제어 소프트웨어는 인간의 말을 웹에서 수집한 수백만 페이지 분량의 텍스트를 이용해, 실제 일련의 행동으로 변환하는 방식을 학습했다.

즉, 알렉사나 시리 등 음성 비서에 필요한 사전 승인된 특정 단어를 입력하지 않더라도 명령을 내릴 수 있다는 의미이다. 로봇을 보고 “목이 마르다”라고 한마디만 말해도 로봇이 마실 것을 찾아서 전달하려 한다. 로봇을 향해 “음료를 엎질렀다”라고 말하면, 로봇이 스펀지를 전달한다.

구글 수석 연구 과학자 캐롤 하우스만(Karol Hausman)은 데모 현장에서 “로봇은 현실 세계의 다양한 변수를 다루려면, 실제 상황에 적응하고 경험을 통해 학습할 능력을 갖추어야 한다”라고 말했다. 데모 당시 음료를 엎질렀다는 말에 로봇이 스펀지를 건네면서 반응할 수 있다는 사실을 입증했다. 기계가 인간과의 상호작용 능력을 갖추려면, 다양한 방식으로 단어를 조합해 다른 의미를 생성하는 방식을 이해해야 한다. 하우스만은 “언어의 미묘한 차이와 상세한 의미를 이해하는 것은 로봇의 몫이다”라고 언급했다.

구글의 데모는 복잡한 환경에서 인간과 상호작용할 수 있는 로봇을 개발한다는 장기 목표를 향한 걸음이었다. 지난 몇 년간 연구원은 책이나 웹에서 수집한 다량의 텍스트를 대규모 머신러닝 모델에 주입해, 훌륭한 언어 능력을 갖춘 프로그램을 생성할 수 있다는 사실을 발견했다. 그 대표적인 예시로 오픈AI의 텍스트 생성 프로그램 GPT-3를 언급할 수 있다. 소프트웨어는 온라인에 작성된 다양한 형태의 텍스트를 소화하며, 텍스트 내용 요약과 질문의 답변 제공, 주어진 주제에 따른 일관성이 있는 장문의 글 작성, 논리적인 대화 유지 능력을 갖추었다.
 
[사진=Google]
[사진=Google]

구글을 포함한 테크 업계 대기업은 검색과 광고 목적으로 대규모 언어 모델을 최대한 활용했다. 많은 기업이 클라우드 API를 통해 대규모 언어 모델 기술을 제공했다. 더불어 AI 언어 능력을 적용해 프로그램 코드를 생성하거나 광고 문구를 작성하는 신규 서비스가 우후죽순으로 등장했다. 구글 엔지니어 블레이크 르모인(Blake Lemoine)은 최근, AI 언어 생성 능력을 기반으로 개발한 챗봇 LaMDA가 지각력이 있다고 공개적으로 주장한 뒤 해고됐다. 지금도 구글에 근무 중인 구글의 어느 한 부사장은 이코노미스트 기사를 통해 챗봇과 대화할 때, 지능을 갖춘 무언가와 대화하는 것과 같다고 느낄 수 있다고 주장했다.

AI 프로그램이 장족의 발전을 기록했으나 여전히 혼란을 겪거나 같은 표현을 반복하는 등 의미 없는 말만 할 확률이 높다. 웹에서 수집한 텍스트를 활용한 훈련 과정을 거친 언어 모델도 진실을 이해하지 못하며, 종종 훈련 데이터에 포함된 편견이나 혐오 발언을 재생성한다. 심각한 피해를 일으키지 않고 신뢰할 수 있는 방향으로 로봇에 언어 능력을 가르치려면, 신중한 설계 작업이 필요하다는 사실을 시사한다.

하우스만이 선보인 로봇은 구글이 지금까지 발표한 언어 모델 중 가장 강력한 능력을 갖춘 모델인 PaLM을 적용한 로봇이다. PaLM은 자연어로 주어진 질문에 답변할 때 특정 결론을 도출하는 방법을 설명하는 등 다양한 변수를 다룰 능력을 갖추었다. 로봇이 주어진 작업을 실행할 때의 단계적인 반응 생성 과정에도 똑같은 접근방식을 적용했다.

구글 연구팀은 문샷(moonshot) 연구 프로젝트의 로봇 집사 개발 작업에 전념한 뒤 알파벳에서 분리된 기업인 에브리데이 로봇(Everyday Robots)의 하드웨어를 활용했다. 연구팀은 PaLM의 텍스트 처리 능력을 바탕으로 대화 표현이나 명령어를 서랍 열기, 칩 잡기 등 로봇이 수행할 수 있는 일련의 적합한 행동으로 변환하는 새로운 프로그램을 개발했다.

로봇의 물리적 행동 라이브러리는 별도의 훈련 과정을 통해 학습한다. 훈련 과정은 인간이 원격 제어해, 사물을 잡는 방법과 같은 행동을 선보이도록 한다. 로봇은 주어진 환경에서만 수행할 수 있는 작업 제한 사항을 설정해, 언어 모델을 잘못 이해하여 부적절한 행동을 하지 않도록 막는다.

PaLM의 언어 능력은 로봇이 상대적으로 함축된 명령어도 이해하도록 한다. 로봇은 색상 블록과 그릇 주변을 이동하도록 작업을 수행할 수 있다. 구글 연구원 앤디 정(Andy Zeng)은 “파란색 블록과 초록색 블록이 있다면, 두 블록을 더 가까운 곳에 모을 수 있다. 이때, 로봇은 파란색 블록을 초록색 블록 옆에 둔다”라고 설명했다.

로봇 학습과 로봇과 인간의 상호작용 전문가이기도 한 스테파니 텔렉스(Stefanie Tellex) 브라운대학교 부교수는 “대규모 언어 모델을 로봇에 적용하는 일은 흥미로운 일이다”라고 언급했다. 다만, 로봇의 작업 영역을 넓혀, 인간의 명령을 넘어선 작업을 하는 일은 아직 해결하지 못한 문제라고 덧붙여 전했다.
 

PaLM을 적용한 로봇 개발 프로젝트에 참여한 브라이언 이치터(Brian Ichter) 연구원은 구글의 주방 로봇이 수많은 사항을 제대로 이해하지 못할 수 있다는 부분을 인정했다. 불 끄기나 사물 옮기기와 같은 간단한 작업 변화만으로 기계가 사물을 제대로 이해할 수 없다. 이를 바탕으로 로봇이 인간에게는 사소한 물리적 행동을 처리하는 데 난항을 겪는 과정을 설명할 수 있다.

로봇의 시스템이 데모 현장에서 짧은 명령어에 적절한 반응을 하듯 복잡한 문장이나 명령어도 다룰 수 있는지 확실하지 않다. AI의 발전은 이미 로봇의 능력으로 확대되었다. 일례로, 산업용 로봇은 공장에서 제품을 식별하거나 결함을 감지할 수 있다. 이미 다수 연구원이 실제 상황이나 시뮬레이션 실습, 관찰을 통해 로봇이 학습할 방법을 연구 중이다. 그러나 구글의 데모는 제한된 환경에서만 인상적인 능력을 선보일 수 있는 듯하다.

이치터 연구원은 구글의 프로젝트가 실세 세계 이해 수준을 높인 언어 모델을 주입한 방식으로 향할 수 있다고 전했다. AI 언어 소프트웨어의 실수는 종종 인간이 언어의 모호함을 이해하는 데 이용하는 보편적 지식 이해 능력 부재가 원인이 된다. 이치터 연구원은 “언어 모델은 어떠한 형태든 세계를 경험하지 않았다. 인터넷에 작성된 단어 통계 결과만 반영한다”라고 설명했다.

구글의 연구 프로젝트는 인간의 언어 이해 능력을 갖춘 로봇 상용화를 향한 긴 여정이다. 그러나 구글의 다수 경쟁사가 최근 들어 가정용 로봇에 대한 새로운 관심을 불러일으켰다. 2021년 9월, 아마존은 구글의 로봇보다 능력이 훨씬 더 제한된 가정용 로봇 아스트로(Astro)를 공개했다. 2022년 8월, 아마존은 인기 로봇 청소기 룸바(Roomba) 제조사인 아이로봇(iRobot) 인수 계획을 발표했다. 일론 머스크는 테슬라의 휴머노이드 로봇 제작을 약속했으나 구체적인 정보는 알려진 바가 없다. 또, 일각에서는 테슬라의 휴머노이드 로봇 계획이 제품 발표로 이어지기보다는 홍보 확보 수단에 더 가까울 수도 있다고 본다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Google’s New Robot Learned to Take Orders by Scraping the Web
이 기사를 공유합니다
RECOMMENDED