본문 바로가기 주메뉴 바로가기 검색 바로가기
딥마인드, AI 휴머노이드에 축구 훈련 진행
상태바
딥마인드, AI 휴머노이드에 축구 훈련 진행
알파벳의 지원을 받는 AI 기업인 딥마인드는 가상 게임을 이용해 디지털 시뮬레이션으로 제작된 AI가 인간과 더 비슷한 모습으로 움직이도록 한다.
By AMIT KATWALA, WIRED UK

딥마인드가 땅 위에서 힘겹게 움직이는 가상 선수로 인공지능(AI)에 축구를 가르치려 한다. 훈련 뒤 경기 도중 학습한 동작 중 최소 한 가지를 완벽하게 선보이고자 한다.

그러나 달리기와 공 차기 등 기본적인 움직임부터 팀워크와 태클과 같은 상위 개념까지 정교한 움직임이 필요한 경기의 특성 작용 방식을 구체적으로 제한하는 일은 매우 어려운 것으로 입증됐다. 모두 알파벳의 지원을 받는 AI 연구 기관 딥마인드가 발표한 연구 내용이다. 8월 21일(현지 시각), 국제 권위 학술지 사이언스 로보틱스(Science Robotics)에 게재된 해당 연구 내용은 특별히 중요한 내용이 아닌 듯하지만, 축구의 기본을 훈련하는 것이 언젠가는 전 세계에 개발된 로봇이 이전보다 더 자연스러우면서도 인간과 비슷하게 움직이는 데 도움이 될 것이다.

딥마인드 연구원 가이 레버(Guy Lever)은 “축구 경기 도중의 움직임을 해결하려면, 범용 인공지능(AGI) 구현을 향한 경로에서 직면한 수많은 문제를 해결해야 한다. 완벽한 휴머노이드 로봇 몸통 제어 능력과 AGI가 갖추기 어려운 특성인 협력 능력, 하위 수준 모터 제어 능력 터득까지 모두 장기적인 계획이다”라고 설명했다.

AI는 축구 경기 도중 인간의 모든 행동을 새로이 제작해야 한다. 움직이는 공과의 연계된 움직임을 선보이기 위한 정교한 각각의 팔다리, 근육 움직임과 같은 부분까지 의식적으로 생각해야 한다. 그리고 초당 수백 가지 요소를 판단해야 한다. 가장 기본적인 움직임을 선보일 때도 필요한 정확한 시간과 제어 모두 실제로 정확히 결정하기 어렵다. 브라우저 게임 QWOP를 실행한 적이 있다면, 누구나 기억할 것이다. 레버 연구원은 “인간은 적합한 움직임을 위한 시간과 제어 모두 생각하지 않지만, AI에는 난제이다. 그리고 인간의 움직임을 확신하지 못한다”라고 말했다.

딥마인드의 시뮬레이션으로 움직이는 휴머노이드 로봇은 관절의 56개 지점과 제한된 움직임을 포함해, 실제 인간을 바탕으로 설계됐다. 예를 들어, 로봇은 무릎을 즐라탄 이브라히모비치와 같은 각도로 구부릴 수 없다. 이에, 연구팀은 득점 혹은 달리기, 공 차기 등 간단한 임무부터 시작한 뒤 시뮬레이션으로 구현한 휴머노이드 로봇이 시행착오와 강화학습 과정을 거치도록 한다. 연구팀은 시뮬레이션으로 구현한 휴머노이드 로봇에 장애물 통과 훈련을 통과하는 과정도 가르쳤다. (그러나 우스우면서도 꽤 부자연스러운 움직임을 선보이는 결과로 이어졌다.)

딥마인드 연구원 니콜라스 헤스(Nicolas Heess)는 “시뮬레이션으로 구현한 휴머노이드 로봇의 장애물 통과 훈련 효과가 좋지 않았다”라고 밝혔다. 헤스 연구원은 레버 연구원과 함께 축구를 이용한 AI 휴머노이드 로봇 훈련 연구 논문 저자로 이름을 올렸다. 복잡한 문제와 광범위한 선택권, 작업 사전 지식 부재 때문에 연구팀은 어느 부분부터 시작해야 하는지 알지 못했다. 그러므로 제한된 움직임과 갑작스러운 짧은 움직임을 선보이게 되었다.

따라서 헤스 연구원과 레버 연구원은 딥마인드 연구팀 소속 다른 동료와 함께 AI 모델이 서서히 인간과 비슷한 행동 양상을 보이도록 유도하는 학습 기법인 NPMP(neural probabilistic motor primitives)를 활용했다. 연구팀은 NPMP를 활용해, 강조된 지식이 가상 경기장에서 움직임의 어려움을 해결하는 데 도움이 될 것으로 내다보았다. 레버 연구원은 “기본적으로 모터 제어를 현실적인 인간 행동과 움직임을 향하도록 한다. 모션 캡처를 통해 학습한 부분이다. 여기서 인간은 축구 선수 역할을 한다”라고 설명했다.
 
[사진=Unsplash]
[사진=Unsplash]

이어서 NPMP를 활용한 AI의 움직임 훈련이 행동 공간을 재구성한다고 설명했다. 시뮬레이션으로 구현한 휴머노이드 로봇의 움직임은 인간과 같은 신체와 팀워크를 펼치는 시뮬레이션으로 구현한 다른 휴머노이드 로봇이 특정 방식으로만 관절을 구부리도록 제한했다. 레버 연구원은 “시행착오로 더 많은 움직임 능력을 발견할 확률이 높아, 유용하다”라고 말했다. NPMP는 학습 과정 속도를 높였다. AI 훈련과 AI의 인간과 같은 움직임 구현 간 맞추어야 할 미세한 균형이 있다. 그와 동시에 AI가 직접 문제 해결책을 찾도록 자율성을 주어야 한다. 인간이 스스로 생성하는 해결책보다 효율성이 더 우수할 수도 있을 것이다”라고 말했다.

기본 훈련은 시뮬레이션 로봇 플레이어 하나를 두고 달리기와 드리블, 공 차기 등과 같은 과정을 거친 뒤 인간이 새로운 스포츠를 익히는 과정을 흉내 낸 다음 전체 경기 상황에서 움직인다. 강화 학습 기법은 공을 잡지 않았을 때 목표물을 따라가는 데 성공하거나 골대 근처에서 드리블할 때 보상을 제공한다. 이와 같은 기술은 갈수록 더 복잡해지는 작업을 향해 AI의 능력을 자연스럽게 쌓는 데 중요한 역할을 한다.

AI 플레이어가 축구 경기가 아닌 다른 상황에서 터득한 능력을 활용하도록 유도하면서 다른 움직임 전략 간 전환을 일반화하면서 융통성을 갖추는 것을 목표로 한다. 유연한 움직임을 선보일 능력을 완벽하게 활용한 AI 플레이어는 다른 AI에 움직임을 가르치는 역할을 하는 데 활용한다. AI가 인간의 움직임을 따라하도록 유도한 방식은 인간 모션 캡처를 통해 학습한 부분이며, 적어도 처음에는 이미 움직임을 가르치는 AI 플레이어의 전략과는 너무 거리가 먼 방향으로 능력이 악화될 일이 없도록 한다. 레버 연구원은 “훈련 도중 최적화된 알고리즘의 변수이다. 시간이 지나면서 원칙적으로 움직임을 가르치는 AI 플레이어 의존도가 감소한다”라고 전했다.

가상의 AI 플레이어 훈련 후 2대2 경기와 3대3 경기부터 시작해, AI 플레이어가 각각의 시뮬레이션 라운드마다 쌓는 경험치를 최대한 늘리도록 한다. 물론, 비교적 최근 훈련 과정을 거친 AI 플레이어는 현실 세계의 소규모 게임부터 시작한다.) 공원에서 공을 쫓는 강아지와 같은 혼란스러운 에너지가 강조되었다. AI 플레이어는 앞으로 넘어지면서 많이 뛰지 않고, 땅 위로 넘어질 수 있다는 부분을 계속 생각한다. 득점 성공 원인은 복잡한 패스 움직임이 아닌 공이 발에 떨어지기를 기대하면서 테이블 축구와 같이 공이 벽을 맞고 튀어 오른 상황이었다.

그러나 게임 속 AI 플레이어는 득점 상황에서만 보상받는다. 이후 연구팀은 팀워크와 같은 특성이 강조되는 것을 확인했다. 레버 연구원은 “훈련 시작 단계에서 모든 AI 플레이어가 공을 향해 뛰고, 며칠 뒤에는 AI 플레이어가 팀원 중 한 명이 공을 제어하는 상황을 인지한 뒤 공을 소유한 AI 플레이어 주변에서 달리고, 팀원이 득점 시도를 하거나 공을 건네줄 것을 예상했다”라고 전했다. 복잡하면서도 빠른 속도로 움직이는 AI의 협력과 팀워크 사례는 이번이 처음이었다. 레버 연구원은 “AI의 팀워크가 흥미로웠다”라고 말했다.

이 모든 연구 과정의 목표가 궁금한가? 로봇 월드컵(Robot World Cup) 우승이 아니다. 헤스 연구원은 하위 수준의 AI 플레이어가 학습한 바를 현실 세계의 로봇에 적용해, 안전하면서 자연스러운 움직임을 선보이도록 투자하는 방식으로 작업한다. 인간이 상호작용하는 로봇을 보고 이상하다고 느끼지 않도록 하고, 구조화되지 않은 강화 학습이 특정 상황에 최적화되지 않은 로봇이 생성하는 불규칙한 움직임 때문에 발생하는 분노나 에너지 낭비 때문이다.

범용 인공지능이 물리적 형태를 갖춘 채로 세계에서 움직일 때 필요한 ‘체화된 인공지능(embodied intelligence)’ 개발 작업의 일부분이다. 헤스 연구원은 “신체 기반 시뮬레이션의 특성이 갈수록 증가하는 시뮬레이션으로 구현된 세계에서 흥미로운 부분이다. 그리고 로봇 학습 발전 방식이기도 하다”라고 말했다.

결과적으로 약간은 우스꽝스러운 AI 플레이어의 움직임이 로봇과 메타버스 아바타가 인간처럼 자연스럽게 움직이는 데 도움을 줄 수 있다. 물론, AI 플레이어가 절대로 인간을 이기지 못할 수도 있을 것이다. 레버 연구원은 “축구는 AI 개발의 최종 목표가 아니다. 목표 달성을 위해 해결해야 할 문제가 많다”라고 전했다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Why DeepMind Is Sending AI Humanoids to Soccer Camp
이 기사를 공유합니다
RECOMMENDED