더 나은 AI 슈퍼컴퓨터 개발에 필요한 것은 ‘빛’

By WILL KNIGHT, WIRED US

인공지능(AI) 전문가 대부분 다음의 대대적인 도약이 현실이 되기 위해 한때는 상상할 수 없었던 수준의 슈퍼컴퓨터를 개발하는 것이 적어도 부분적으로는 효과가 있을 것이라는 주장에 동의한다. 2024년 3월, 벤처 캐피털 기업 세쿼이아(Sequoia)가 주최한 행사에서 AI 스타트업 라이트매터(Lightmatter) CEO 닉 해리스(Nick Harris)는 빛과 함께 컴퓨터 칩 대화를 직접 이어가는 방식으로 슈퍼컴퓨터를 다시 생각하도록 하는 기술을 홍보했다.

오늘날 데이터는 보통 전기 신호를 통해 컴퓨터 내부와 데이터센터 내 컴퓨터 칩 사이 AI 알고리즘 훈련에 따라 이동한다. 컴퓨터 상호 연결의 일부분은 넓은 대역폭을 위해 광섬유 연결로 전환된다. 하지만 광학 신호와 전기 간 신호 전환은 통신 속도 저하나 일시 중단 원인이 된다.

이에, 라이트매터는 광학 연결로 AI 훈련 과정에서 매우 중요한 실리콘 칩인 GPU 수천 개 혹은 수백만 개를 직접 연결하고자 한다. 전환 지연 문제를 줄이려면, 칩 사이 데이터가 오늘날 가능한 수준보다 최대한 빠른 속도로 이동해야 한다. 초거대규모의 분산 AI 슈퍼컴퓨터가 실현될 수도 있다.

패시지(Passage)라는 이름으로 알려진 라이트매터의 기술은 광학 혹은 광전자 상호연결 형태로 실리콘에 구축되었다. 이는 하드웨어가 GPU와 같은 실리콘 칩에서 트랜지스터로 직접 인터페이스가 가능하도록 한다. 라이트매터는 대역폭이 평소와 같은 수준일 때 칩 사이 데이터가 100회 이동한다고 주장한다.

한 가지 상황을 제시하자면, 오픈AI의 가장 강력한 AI 알고리즘이자 챗GPT의 두뇌 역할을 하는 대규모 언어 모델 GPT-4는 2만 개가 넘는 GPU로 가동된다. 해리스는 2026년 정식 출시를 준비 중인 패시지가 같은 AI 훈련 과정에 있을 때 100만 개가 넘는 GPU를 병렬로 실행할 것이라고 말했다.

세쿼이아 행사 참석자 중에는 오픈AI CEO 샘 알트만(Sam Altman)도 있었다. 알트만은 더 발전한 AI로 더 빠른 속도를 구현하는 데이터센터 건설 방식 관련 질문을 멈추지 못할 정도로 큰 관심을 보였다. 2024년 2월, 월스트리트저널은 알트만이 AI 개발 시 사용할 다량의 칩 개발을 위해 최고 7조 달러 투자를 모색했다고 보도했다. 반면, 디인포메이션은 오픈AI와 마이크로소프트가 스타게이트(Stargate)라는 코드명으로 1,000억 달러 규모 데이터센터 건설 계획을 구상한다고 보도했다. 데이터센터는 칩 수백만 개를 사용하는 것으로 알려졌다. 전기 상호연결 방식은 전력 소모량이 매우 많다. 또, 거대한 규모의 시설에서 칩 여러 개를 함께 연결하려면, 훨씬 더 많은 에너지가 필요하다. 게다가 라이트매터가 제안한 방식처럼 새로운 칩 연결 방식에 의존해야 할 수도 있다.

AMD, GM 등 많은 기업의 칩 제조사인 글로벌 파운드리스(GlobalFoundries)는 과거, 라이트매터와 협력을 맺은 적이 있다. 해리슨은 마이크로소프트, 아마존, 구글 등 클라우딩 컴퓨터 분야 최고 기업을 언급하며, 라이트매터가 초거대 규모는 물론이고 반도체 분야 최고 기업과 협력한다고 밝힌 적이 있다.

라이트매터나 다른 기업이 대규모 AI 프로젝트 연결을 재구성한다면, 더 지능적인 알고리즘 개발의 핵심 지연 문제는 서서히 사라질 것이다. 연산 처리 능력 추가는 챗GPT 발전으로 이어진 근간이며, 다수 AI 연구원은 하드웨어 규모 추가 확장을 AI 분야 추가 발전 시 중요한 부분이라고 본다. 또, 그동안 정의가 모호했던 인간 지능과 같거나 더 우수한 방식으로 연결하는 프로그램인 범용 인공지능(AGI) 목표에 도달할 것을 기대할 수 있다.

해리스는 칩 수백만 대를 빛으로 연결한다면, 알고리즘은 오늘날 첨단 지능보다 몇 세대 더 앞설 것으로 예상한다. 그는 “패시지는 범용 인공지능 알고리즘을 실현할 것이다”라고 확언했다.

대규모 AI 알고리즘 훈련 목적으로 사용하는 데이터센터는 보통 특수 실리콘 칩을 가동하는 컴퓨터 수만 대와 주로 컴퓨터 사이의 복잡한 전기 연결로 구성되었다. 모두 와이어, 스위치로 연결된 수많은 시스템 전체에서 AI 훈련 진행은 대규모 엔지니어링이 수행된다. 전기 신호와 광학 신호 사이를 전환하는 일도 연산 처리를 하나로 운영할 칩의 역량을 제한할 수 있다.

라이트매터의 접근 방식은 AI 데이터센터 내 복잡한 신호를 간소화하는 것이다. 해리스는 “보통 다량의 GPU가 있으며, 스위치 레이어가 반복하여 존재한다. 그리고 GPU 두 대간 통신을 위해 복잡한 데이터센터 전 영역을 이동한다”라고 말했다. 해리스는 패시지로 연결된 데이터센터에서 모든 GPU에는 다른 GPU와 고속 연결될 것이라고 덧붙였다.

라이트매터의 패시지 개발은 최근 AI의 발전이 규모를 떠나 수많은 기업이 오픈AI의 챗GPT와 같은 첨단 기술의 근간이 되는 핵심 하드웨어 재개발 노력의 동기가 되었음을 보여준다. AI 프로젝트 GPU 공급 분야 선두 기업인 엔비디아는 2024년 3월, 연례 콘퍼런스를 개최했다. 이날 엔비디아 CEO 젠슨 황(Jensen Huang)이 최신 AI 훈련 칩인 블랙웰(Blackwell)을 공개했다. 엔비디아는 블랙웰 GPU를 엔비디아의 고속 통신 기술 NVLink-C2C로 모두 연결된 블랙웰 GPU 두 대와 기존 CPU 프로세서로 구성된 슈퍼칩으로 판매할 계획이다.

칩 제조 업계는 규모를 키우지 않고 칩의 연산 처리 전력을 연결할 방법을 찾는 것으로 널리 알려졌다. 그러나 엔비디아는 그 과정에 큰돈을 투자하는 추세와는 반대인 전략을 선택했다. 엔비디아 슈퍼칩에 포함된 블랙웰 GPU는 이전 세대보다 두 배 더 강력하며, 칩 두 개를 연결하여 구성되었다. 고속 연결 칩을 연결하는 엔비디아의 노력과 함께 엔비디아의 전략은 라이트매터가 제안한 바와 같이 AI 슈퍼컴퓨터의 다른 핵심 구성요소 업그레이드의 중요성이 커질 수 있음을 의미한다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
To Build a Better AI Supercomputer, Let There Be Light

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다