By PARESH DAVE, WIRED US
미국 동부 시각으로 평일 오전 11시께 유럽에서 하루를 마칠 준비를 할 때면, 미국 동부 해안가는 오후가 가까워지면서 힘겹게 컴퓨터 전력을 가동한다. 실리콘밸리에서는 데이터 센터 장비를 열심히 가동한다. 그와 동시에 이스라엘 텔아비브의 테크 스타트업 아스트리아(Astria)가 제공하는 인공지능(AI) 이미지 생성 툴은 그 어느 때보다 더 분주하다. 그러나 아스트리아의 AI 이미지 생성 툴 사용량이 급증한 것과 달리 매출이 많지는 않다.
아스트리아와 같은 AI 기술 개발 기업은 그래픽 프로세서(GPU)를 사용해 소프트웨어가 사진과 여러 미디어의 패턴을 학습하도록 훈련한다. GPU는 연산 작업도 다루거나 소프트웨어 훈련으로 학습한 바를 최대한 이용하여 사용자의 명령어에 따라 콘텐츠를 생성한다. 그러나 전 세계가 AI를모든 앱과 프로그램에 통합하려 서둘러 움직이는 상황에 코로나19 초기부터 오래 이어진 생산 과정의 어려움이 결합되면서 GPU 공급량이 부족해졌다.
GPU 공급 압박이 의미하는 바는 GPU 수요가 가장 많은 시간일 때 아스트리아가 고객사의 요구에 따른 이미지를 생성하는 데 필요한 핵심 클라우드 컴퓨팅 공급사인 아마존 웹 서비스(AWS)의 이상적인 GPU가 전체 용량을 가동한다는 것이다. 또한, 아스트리아는 성능이 더 강력하면서 비싼 GPU를 시용해 고객사의 작업 요청을 처리해야 한다는 점을 의미하기도 한다. GPU 비용은 급속도로 급증한다. 아스트리아 창립자 아론 버그(Alon Burg)는 “GPU를 사용하려면, 얼마면 되는지 묻는 것과 같다”라며, 세계 최대 GPU 생산 기업인 엔비디아 주식 투자가 아스트리아를 계속 운영하는 것보다 더 높은 수익을 기록할 수 있을지 궁금하다는 농담을 했다. 아스트리아는 고객에게 청구하는 사용료와 비싼 GPU 비용 간 균형을 맞추려 한다. 하지만 아스트리아가 실제로 지출하는 비용은 아스트리아 내부에서 바라던 지출 비용보다 더 많다. 버그는 “GPU 비용 부담을 줄이고, 엔지니어를 몇 명 더 채용하고 싶다”라고 말했다.
GPU 공급 압박이 조만간 끝날 기미는 보이지 않는다. 전 세계 AI 서버 칩 공급량 60~70%를 차지하는 GPU 시장 선두 기업 엔비디아는 8월 23일(현지 시각), 2023년 2분기 데이터 센터용 GPU 매출이 1년 전보다 171% 급증한 103억 달러를 기록했다고 발표했다. 그와 동시에 또 다시 엔비디아의 매출이 전망치를 상회했다고 전했다. 엔비디아 GEO 젠슨 황(Jensen Huang)은 실적 발표 현장에서 복수의 시장 분석가에게 “엔비디아 제품 수요가 매우 높다”라고 밝혔다. 시장 조사 기관 가트너(Gartner)는 2023년 전 세계의 AI 칩 지출 금액은 530억 달러를 기록하고, 앞으로 4년간 두 배 이상 증가할 것으로 전망했다.
현재 진행형인 GPU 공급량 부족 사태는 많은 기업이 필요한 자원 접근성을 유지하기 위한 혁신을 도모해야 한다는 의미로 볼 수 있다. 일부 기업은 현금을 공동으로 모아 사용자가 서비스를 사용하지 못하는 상황을 겪지 않도록 보장하고자 한다. 그 외에는 기업이 GPU 수요를 줄이려 ‘최적화’, ‘소규모 모델 크기’ 등과 같은 엔지니어링 용어를 일종의 유행처럼 사용하고 있다. 2023년, 투자자는 많은 기업이 GPU를 사용한 작업을 최대화하도록 돕는 소프트웨어를 공급하는 스타트업에 큰돈을 투자한다. AI 툴 사용 시 필요한 GPU 사용을 돕는 스타트업 중 한 곳인 모듈러(Modular) 공동 창립자이자 사장인 팀 데이비스(Tim Davis)는 2023년 5월 창업 후 총 3만 곳이 넘는 잠재적 고객사의 문의를 받았다고 밝혔다. 2024년 공급 압박을 헤쳐 나가도록 상황에 적응하는 일이 생성형 AI 경제 생존을 결정할 것이다.
AI 비즈니스 작성 보조 툴 개발사 여츠(Yurts) CEO 벤 반 루(Ben Van Roo)는 “현재 GPU 공급량이 제한된 세계에서 모든 자원을 압축하고 혼합하면서 균형을 맞출 창의성을 발휘해야 한다. 컴퓨터 전력에 거액을 지출하는 방안은 거부한다”라고 말했다.
클라우드 컴퓨팅 공급사는 자사 고객이 GPU 사용량 때문에 애먹고 있다는 사실을 자세히 인지했다. AWS 제품 관리 책임자 체탄 카푸(Chetan Kapoor)는 GPU 수요가 급증하면서 업계 전체가 준비되지 않은 상황을 직면했다고 전했다.
새로운 GPU를 확보하고 데이터 센터에 설치하려면, 클라우드 업계 대기업의 지원이 필요하다. 특히, GPU 수요가 최고치를 기록한 때의 특별 조항은 압박을 더 한다. 대다수 애플리케이션은 전 세계에 여유롭게 분산된 프로세서로 운영할 수 있다. 반면, 생성형 AI 프로그램 훈련 과정은 GPU가 물리적으로 밀집된 상태에서 수행된다. 간혹 칩 1만여 개가 밀집된 곳에서 AI 프로그램을 훈련하기도 한다. 이전에는 불가능했던 수준으로 활용 가능성을 다룬다.
카푸는 AWS의 일반 생성형 AI 고객사가 GPU 수백 개에 접근한다고 전했다. 카푸어는 “특정 고객사가 다음 날 1,000개가 넘는 GPU 접근을 요구한다면, 요청에 따라 사용할 수 있는 GPU를 할당하는 데 시간이 걸린다. 그러나 고객사가 GPU 사용 융통성을 갖추었다면, AWS도 융통성을 발휘하여 고객사의 요청을 지원할 수 있을 것이다”라고 말했다.
AWS는 고객사가 GPU 공급 부족을 걱정할 필요 없이 GPU 칩을 컴퓨터 전력 운영에 통합하는 베드록(Bedrock) 공급을 통해 더 비싼 비용과 맞춤 서비스를 채택했다고 암시했다. 혹은 고객사가 AWS의 고유 AI 칩인 트레이니엄(Trainium)과 인퍼런시아(Inferentia)를 사용할 수 있다. 두 가지 칩 모두 지정되지 않은 약간의 증가 수준을 등록한 칩이다. 프로그램 운영을 위해 엔비디아의 GPU 대신 트레이니엄, 인퍼런시아 등으로 개선하는 일은 그동안 식은 죽 먹기였다. 그러나 카푸는 이제 트레이니엄이 가끔 소프트웨어 코드 두 줄을 바꾸어야 한다고 전했다.
다른 기업에도 GPU 공급 부족 문제가 많다. 구글 직원이 언론을 통해 밝힌 바에 따르면, 구글 클라우드는 TPU라고 알려진 자체 개발 GPU 수요를 계속 충족할 수 없었다. 구글 대변인은 TPU 수요 관련 의견 공개 요청에 답변하지 않았다. 2023년 4월, 인포메이션의 보도에 따르면, 마이크로소프트 애저 클라우드팀은 예약한 GPU를 사용하지 못한 고객사의 서비스 결제 금액을 환불했다. 마이크로소프트는 클라우드 서비스 수요 관련 의견 공개에 답변을 거부했다.
클라우드 기업은 고객이 수개월부터 수년에 이르는 기간에 사용할 GPU를 예약해, GPU 공급사가 GPU 구매 및 설치 계획을 더 효과적으로 세우는 데 도움이 되기를 바란다. 하지만 주로 최소한의 자본으로 운영하면서 자사 상품 및 서비스를 찾는 데 필요한 중간 거래 기업이 필요한 스타트업은 그동안 장기간 GPU 사용량 사전 구매를 꺼리고, 구매 즉시 GPU를 사용하는 방안을 선호한다. 결국, 람다랩스(Lambda Labs), 코어위브(CoreWeave) 등 대체 클라우드 공급사가 우후죽순으로 등장하게 되었다. 대체 클라우드 서비스 기업의 2023년 투자자 자본 조달 금액은 총 5억 달러에 육박한다. 아스트리아는 대체 클라우드 공급사 중 한 곳이다.
AWS는 신규 시장 진입 사업을 잃는 것을 달가워하지 않기 때문에 추가 옵션을 고려 중이다. 카푸는 “AWS는 단기, 장기적으로 고객사가 원하는 경험을 제공할 다른 해결책을 생각 중이다”라며, 자세한 내용은 설명하지 않았다.
클라우드 공급사의 GPU 공급 부족은 간혹 테크 업계의 거물급 기업도 포함된 여러 고객사에도 전달된다. 소셜 미디어 플랫폼 핀터레스트 최고 기술 책임자 제레미 킹(Jeremy King)은 사용자와 광고 기업을 대상으로 더 나은 서비스를 제공하고자 한다고 밝혔다. 그는 “핀터레스트는 다른 여러 기업과 마찬가지로 더 많은 GPU가 필요하다. 칩 부족 사태는 테크 업계 여러 기업이 직면한 현실적인 문제이다”라고 말했다.
챗GPT 개발사이자 다른 기업에 챗GPT의 기반이 된 기술 라이선스를 공급하는 오픈AI(OpenAI)는 주로 애저의 칩에 의존하여 서비스를 공급한다. GPU가 부족한 탓에 오픈AI는 어쩔 수 없이 자사의 툴 판매 수준을 제한할 수밖에 없었다. 오픈AI 기술을 이용한 음성 회의 내용 요약 기능을 제공하는 AI 어시스턴트 제이미(Jamie) 개발사를 비롯한 여러 고객사에도 타격을 주었다. 제이미는 공개 출시 계획을 최소 5개월 미루었다. 제이미를 개발한 스타트업 공동 창립자인 루이스 모그너(Louis Morgner)는 시스템 완벽성을 갖추고자 하는 부분적인 이유도 있지만, 오픈AI의 서비스 사용량 제한 때문이기도 하다고 밝혔다. 그는 “제이미 공개 출시 예정일을 몇 중 앞두었다. 서비스 공급사의 제한 사항을 고려했을 때 공기 출시 후 제이미 시스템 규모 확장 수준을 면밀히 관찰해야 한다”라고 말했다.
오픈AI 대변인 니코 펠릭스(Niko Felix)는 “테크 업계의 GPU 수요가 매우 높다. 오픈API는 고객사에 제공하는 API가 고객의 수요를 충족한다는 사실을 확인하기 위해 꾸준히 노력해야 한다”라고 말했다.
현재 스타트업의 컴퓨터 전력 접근성 연결이 매우 중요하다. 투자자와 친구, 이웃 등 스타트업 경영진은 다양한 인맥을 동원해 AI 가동에 필요한 전력을 더 확보하고자 한다. 일례로, 아스트리아는 AWS와 긴밀한 관계를 형성한 기업이자 아스트리아의 서비스의 근간이 되는 테크 기업인 스테이빌리티 AI(Stability AI) CEO 에마드 모스타퀴(Emad Mostaque)의 도움으로 AWS가 제공하는 추가 GPU 공급량을 확보했다.
오픈AI 기술을 이용한 일상 데이터 분류 작업을 지원하는 회계 서비스 스타트업 파일럿(Pilot)은 대학 동문과 직원, 오픈AI와 인맥이 있는 벤처 자본가 등에게 도움을 청한 뒤 GPT-4 초기 접근 권한을 얻었다. 여러 인맥이 파일럿의 GPT-4 접근 대기 명단 순위를 앞당기는 데 도움이 되었는지는 확실히 알 수 없다. 하지만 파일럿 CEO 와심 다헤르(Waseem Daher)는 현재 매당 오픈AI에 약 1,000달러를 지출한다고 밝혔다. 다헤르는 “생성형 AI 기술을 최대한 활용하지 않는다면, 위험 감수를 원하지 않는 생성형 AI의 강력한 성능을 경쟁사가 이용하게 될 것이다. 고객에게는 최상의 결과를 제공하고, 업계에서 최고의 위치를 유지하게 될 것이다”라고 말했다.
컴퓨터 전력 추가 접근 경쟁을 펼치면서 많은 기업이 이전보다 훨씬 더 적은 작업을 처리하고자 한다. 생성형 AI를 시범삼아 채택한 기업은 이제 처리 과정에서 가장 저렴한 GPU를 사용하는 것이 가능하도록 하면서 만족스러운 결과를 제공하는 ‘최적화’에 집중한다. 음료 몇 개만 넣을 수 있는 수준의 에너지 소모가 심한 구형 냉장고를 버리고 주로 태양열 에너지로 전력을 공급하는 소형 냉장고에 투자하는 것과 같다.
많은 프로그래밍 지시 처리 방식을 두고 더 나은 지시 사항을 작성하고, AI 시스템 훈련 시 사용하는 데이터양 재구성 및 제한 후 주어진 작업 처리를 위해 필요한 수준을 최소화하도록 추론 코드를 제거하고자 한다. 즉, 다양한 소규모 시스템을 구축한다는 의미이다. 이미지 생성 프로그램 하나로 동물 이미지를 생성하고, 다른 프로그램으로는 인간의 이미지를 생성하고는 사용자가 입력한 명령어에 따라 두 프로그램이 생성한 이미지를 전환할 수도 있다.
GPU 사용량이 최고치에 도달하여 속도와 저렴한 비용 간 균형이 저하되었을 때 시간에 민감하지 않은 작업 처리 일정도 세운다.
대화 생성 서비스 스티트업 리젬블 AI(Resemble AI)는 고급 수준 옵션 1/10 지출을 명령한다면, 구형 칩을 이용하여 고객 요청을 처리하는 시간을 1/10초 더 투자하는 데 동의했다. 그러나 결과물로 얻는 오디오 품질의 차이는 없다. 리젬블 AI CEO 조하입 아흐메드(Zohaib Ahmed)는 람다 랩스와 코어위브를 넘어서고자 한다. 두 기업의 조건 모두 비교적 장기적 약속을 독려하면서 만족스럽지 않기 때문이다. 코어위브는 와이어드의 문의에 답변을 거부했으며, 람다 랩스는 이 기사가 송출될 시점까지 답변하지 않았다.
리젬블 AI는 1주 혹은 1개월간의 GPU 사용 예약을 환영하는 영세 공급사 플루이드스택(FluidStack)으로 눈을 돌렸다. 플루이드스택은 최근 들어 스타트업의 GPU 사용량 공동 구매 및 할당을 위한 콘소시엄인 샌프란시스코 컴퓨트 그룹(San Francisco Compute Group)에 합류했다. 아흐메드는 “스타트업 생태계는 협력하고, 대기업과의 경쟁 방안과 더 나은 컴퓨터 전력을 얻기 위해 경쟁할 방법을 찾고자 한다. 여러 스타트업이 협력하지 않는다면, 불공정한 시장 경쟁이 될 것이다. 비용이 너무 비싸기 때문이다”라고 말했다.
아흐메드는 매주 월요일이면 GPU 공급 부족 사태에서 한 줄기 희망을 얻는다고 밝혔다. 람다 랩스 영업팀 대표가 직접 연락하여 엔비디아의 최신 칩인 H100 사용량을 예약할 의사가 있는지 물어보았기 때문이다. GPU 사용량을 손에 넣는다는 희망이 흥미롭지만, H100은 2023년 3월부터 널리 공급되었다. 게다가 여러 기업이 코드가 위험성을 동반한 성과 달성을 위한 판단을 위한 코드의 완벽성을 테스트하기 전까지 시간 문제가 존재하기 때문이다. 엔비디아는 2024년 중으로 가장 강력한 성능을 자랑하는 최신 칩인 GH200를 출시할 예정이다. 그리고 희소성 순환이 한 차례 더 반복할 것이다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Nvidia Chip Shortages Leave AI Startups Scrambling for Computing Power
미국 동부 시각으로 평일 오전 11시께 유럽에서 하루를 마칠 준비를 할 때면, 미국 동부 해안가는 오후가 가까워지면서 힘겹게 컴퓨터 전력을 가동한다. 실리콘밸리에서는 데이터 센터 장비를 열심히 가동한다. 그와 동시에 이스라엘 텔아비브의 테크 스타트업 아스트리아(Astria)가 제공하는 인공지능(AI) 이미지 생성 툴은 그 어느 때보다 더 분주하다. 그러나 아스트리아의 AI 이미지 생성 툴 사용량이 급증한 것과 달리 매출이 많지는 않다.
아스트리아와 같은 AI 기술 개발 기업은 그래픽 프로세서(GPU)를 사용해 소프트웨어가 사진과 여러 미디어의 패턴을 학습하도록 훈련한다. GPU는 연산 작업도 다루거나 소프트웨어 훈련으로 학습한 바를 최대한 이용하여 사용자의 명령어에 따라 콘텐츠를 생성한다. 그러나 전 세계가 AI를모든 앱과 프로그램에 통합하려 서둘러 움직이는 상황에 코로나19 초기부터 오래 이어진 생산 과정의 어려움이 결합되면서 GPU 공급량이 부족해졌다.
GPU 공급 압박이 의미하는 바는 GPU 수요가 가장 많은 시간일 때 아스트리아가 고객사의 요구에 따른 이미지를 생성하는 데 필요한 핵심 클라우드 컴퓨팅 공급사인 아마존 웹 서비스(AWS)의 이상적인 GPU가 전체 용량을 가동한다는 것이다. 또한, 아스트리아는 성능이 더 강력하면서 비싼 GPU를 시용해 고객사의 작업 요청을 처리해야 한다는 점을 의미하기도 한다. GPU 비용은 급속도로 급증한다. 아스트리아 창립자 아론 버그(Alon Burg)는 “GPU를 사용하려면, 얼마면 되는지 묻는 것과 같다”라며, 세계 최대 GPU 생산 기업인 엔비디아 주식 투자가 아스트리아를 계속 운영하는 것보다 더 높은 수익을 기록할 수 있을지 궁금하다는 농담을 했다. 아스트리아는 고객에게 청구하는 사용료와 비싼 GPU 비용 간 균형을 맞추려 한다. 하지만 아스트리아가 실제로 지출하는 비용은 아스트리아 내부에서 바라던 지출 비용보다 더 많다. 버그는 “GPU 비용 부담을 줄이고, 엔지니어를 몇 명 더 채용하고 싶다”라고 말했다.
GPU 공급 압박이 조만간 끝날 기미는 보이지 않는다. 전 세계 AI 서버 칩 공급량 60~70%를 차지하는 GPU 시장 선두 기업 엔비디아는 8월 23일(현지 시각), 2023년 2분기 데이터 센터용 GPU 매출이 1년 전보다 171% 급증한 103억 달러를 기록했다고 발표했다. 그와 동시에 또 다시 엔비디아의 매출이 전망치를 상회했다고 전했다. 엔비디아 GEO 젠슨 황(Jensen Huang)은 실적 발표 현장에서 복수의 시장 분석가에게 “엔비디아 제품 수요가 매우 높다”라고 밝혔다. 시장 조사 기관 가트너(Gartner)는 2023년 전 세계의 AI 칩 지출 금액은 530억 달러를 기록하고, 앞으로 4년간 두 배 이상 증가할 것으로 전망했다.
현재 진행형인 GPU 공급량 부족 사태는 많은 기업이 필요한 자원 접근성을 유지하기 위한 혁신을 도모해야 한다는 의미로 볼 수 있다. 일부 기업은 현금을 공동으로 모아 사용자가 서비스를 사용하지 못하는 상황을 겪지 않도록 보장하고자 한다. 그 외에는 기업이 GPU 수요를 줄이려 ‘최적화’, ‘소규모 모델 크기’ 등과 같은 엔지니어링 용어를 일종의 유행처럼 사용하고 있다. 2023년, 투자자는 많은 기업이 GPU를 사용한 작업을 최대화하도록 돕는 소프트웨어를 공급하는 스타트업에 큰돈을 투자한다. AI 툴 사용 시 필요한 GPU 사용을 돕는 스타트업 중 한 곳인 모듈러(Modular) 공동 창립자이자 사장인 팀 데이비스(Tim Davis)는 2023년 5월 창업 후 총 3만 곳이 넘는 잠재적 고객사의 문의를 받았다고 밝혔다. 2024년 공급 압박을 헤쳐 나가도록 상황에 적응하는 일이 생성형 AI 경제 생존을 결정할 것이다.
AI 비즈니스 작성 보조 툴 개발사 여츠(Yurts) CEO 벤 반 루(Ben Van Roo)는 “현재 GPU 공급량이 제한된 세계에서 모든 자원을 압축하고 혼합하면서 균형을 맞출 창의성을 발휘해야 한다. 컴퓨터 전력에 거액을 지출하는 방안은 거부한다”라고 말했다.
클라우드 컴퓨팅 공급사는 자사 고객이 GPU 사용량 때문에 애먹고 있다는 사실을 자세히 인지했다. AWS 제품 관리 책임자 체탄 카푸(Chetan Kapoor)는 GPU 수요가 급증하면서 업계 전체가 준비되지 않은 상황을 직면했다고 전했다.
새로운 GPU를 확보하고 데이터 센터에 설치하려면, 클라우드 업계 대기업의 지원이 필요하다. 특히, GPU 수요가 최고치를 기록한 때의 특별 조항은 압박을 더 한다. 대다수 애플리케이션은 전 세계에 여유롭게 분산된 프로세서로 운영할 수 있다. 반면, 생성형 AI 프로그램 훈련 과정은 GPU가 물리적으로 밀집된 상태에서 수행된다. 간혹 칩 1만여 개가 밀집된 곳에서 AI 프로그램을 훈련하기도 한다. 이전에는 불가능했던 수준으로 활용 가능성을 다룬다.
카푸는 AWS의 일반 생성형 AI 고객사가 GPU 수백 개에 접근한다고 전했다. 카푸어는 “특정 고객사가 다음 날 1,000개가 넘는 GPU 접근을 요구한다면, 요청에 따라 사용할 수 있는 GPU를 할당하는 데 시간이 걸린다. 그러나 고객사가 GPU 사용 융통성을 갖추었다면, AWS도 융통성을 발휘하여 고객사의 요청을 지원할 수 있을 것이다”라고 말했다.
AWS는 고객사가 GPU 공급 부족을 걱정할 필요 없이 GPU 칩을 컴퓨터 전력 운영에 통합하는 베드록(Bedrock) 공급을 통해 더 비싼 비용과 맞춤 서비스를 채택했다고 암시했다. 혹은 고객사가 AWS의 고유 AI 칩인 트레이니엄(Trainium)과 인퍼런시아(Inferentia)를 사용할 수 있다. 두 가지 칩 모두 지정되지 않은 약간의 증가 수준을 등록한 칩이다. 프로그램 운영을 위해 엔비디아의 GPU 대신 트레이니엄, 인퍼런시아 등으로 개선하는 일은 그동안 식은 죽 먹기였다. 그러나 카푸는 이제 트레이니엄이 가끔 소프트웨어 코드 두 줄을 바꾸어야 한다고 전했다.
다른 기업에도 GPU 공급 부족 문제가 많다. 구글 직원이 언론을 통해 밝힌 바에 따르면, 구글 클라우드는 TPU라고 알려진 자체 개발 GPU 수요를 계속 충족할 수 없었다. 구글 대변인은 TPU 수요 관련 의견 공개 요청에 답변하지 않았다. 2023년 4월, 인포메이션의 보도에 따르면, 마이크로소프트 애저 클라우드팀은 예약한 GPU를 사용하지 못한 고객사의 서비스 결제 금액을 환불했다. 마이크로소프트는 클라우드 서비스 수요 관련 의견 공개에 답변을 거부했다.
클라우드 기업은 고객이 수개월부터 수년에 이르는 기간에 사용할 GPU를 예약해, GPU 공급사가 GPU 구매 및 설치 계획을 더 효과적으로 세우는 데 도움이 되기를 바란다. 하지만 주로 최소한의 자본으로 운영하면서 자사 상품 및 서비스를 찾는 데 필요한 중간 거래 기업이 필요한 스타트업은 그동안 장기간 GPU 사용량 사전 구매를 꺼리고, 구매 즉시 GPU를 사용하는 방안을 선호한다. 결국, 람다랩스(Lambda Labs), 코어위브(CoreWeave) 등 대체 클라우드 공급사가 우후죽순으로 등장하게 되었다. 대체 클라우드 서비스 기업의 2023년 투자자 자본 조달 금액은 총 5억 달러에 육박한다. 아스트리아는 대체 클라우드 공급사 중 한 곳이다.
AWS는 신규 시장 진입 사업을 잃는 것을 달가워하지 않기 때문에 추가 옵션을 고려 중이다. 카푸는 “AWS는 단기, 장기적으로 고객사가 원하는 경험을 제공할 다른 해결책을 생각 중이다”라며, 자세한 내용은 설명하지 않았다.
클라우드 공급사의 GPU 공급 부족은 간혹 테크 업계의 거물급 기업도 포함된 여러 고객사에도 전달된다. 소셜 미디어 플랫폼 핀터레스트 최고 기술 책임자 제레미 킹(Jeremy King)은 사용자와 광고 기업을 대상으로 더 나은 서비스를 제공하고자 한다고 밝혔다. 그는 “핀터레스트는 다른 여러 기업과 마찬가지로 더 많은 GPU가 필요하다. 칩 부족 사태는 테크 업계 여러 기업이 직면한 현실적인 문제이다”라고 말했다.
챗GPT 개발사이자 다른 기업에 챗GPT의 기반이 된 기술 라이선스를 공급하는 오픈AI(OpenAI)는 주로 애저의 칩에 의존하여 서비스를 공급한다. GPU가 부족한 탓에 오픈AI는 어쩔 수 없이 자사의 툴 판매 수준을 제한할 수밖에 없었다. 오픈AI 기술을 이용한 음성 회의 내용 요약 기능을 제공하는 AI 어시스턴트 제이미(Jamie) 개발사를 비롯한 여러 고객사에도 타격을 주었다. 제이미는 공개 출시 계획을 최소 5개월 미루었다. 제이미를 개발한 스타트업 공동 창립자인 루이스 모그너(Louis Morgner)는 시스템 완벽성을 갖추고자 하는 부분적인 이유도 있지만, 오픈AI의 서비스 사용량 제한 때문이기도 하다고 밝혔다. 그는 “제이미 공개 출시 예정일을 몇 중 앞두었다. 서비스 공급사의 제한 사항을 고려했을 때 공기 출시 후 제이미 시스템 규모 확장 수준을 면밀히 관찰해야 한다”라고 말했다.
오픈AI 대변인 니코 펠릭스(Niko Felix)는 “테크 업계의 GPU 수요가 매우 높다. 오픈API는 고객사에 제공하는 API가 고객의 수요를 충족한다는 사실을 확인하기 위해 꾸준히 노력해야 한다”라고 말했다.
현재 스타트업의 컴퓨터 전력 접근성 연결이 매우 중요하다. 투자자와 친구, 이웃 등 스타트업 경영진은 다양한 인맥을 동원해 AI 가동에 필요한 전력을 더 확보하고자 한다. 일례로, 아스트리아는 AWS와 긴밀한 관계를 형성한 기업이자 아스트리아의 서비스의 근간이 되는 테크 기업인 스테이빌리티 AI(Stability AI) CEO 에마드 모스타퀴(Emad Mostaque)의 도움으로 AWS가 제공하는 추가 GPU 공급량을 확보했다.
오픈AI 기술을 이용한 일상 데이터 분류 작업을 지원하는 회계 서비스 스타트업 파일럿(Pilot)은 대학 동문과 직원, 오픈AI와 인맥이 있는 벤처 자본가 등에게 도움을 청한 뒤 GPT-4 초기 접근 권한을 얻었다. 여러 인맥이 파일럿의 GPT-4 접근 대기 명단 순위를 앞당기는 데 도움이 되었는지는 확실히 알 수 없다. 하지만 파일럿 CEO 와심 다헤르(Waseem Daher)는 현재 매당 오픈AI에 약 1,000달러를 지출한다고 밝혔다. 다헤르는 “생성형 AI 기술을 최대한 활용하지 않는다면, 위험 감수를 원하지 않는 생성형 AI의 강력한 성능을 경쟁사가 이용하게 될 것이다. 고객에게는 최상의 결과를 제공하고, 업계에서 최고의 위치를 유지하게 될 것이다”라고 말했다.
컴퓨터 전력 추가 접근 경쟁을 펼치면서 많은 기업이 이전보다 훨씬 더 적은 작업을 처리하고자 한다. 생성형 AI를 시범삼아 채택한 기업은 이제 처리 과정에서 가장 저렴한 GPU를 사용하는 것이 가능하도록 하면서 만족스러운 결과를 제공하는 ‘최적화’에 집중한다. 음료 몇 개만 넣을 수 있는 수준의 에너지 소모가 심한 구형 냉장고를 버리고 주로 태양열 에너지로 전력을 공급하는 소형 냉장고에 투자하는 것과 같다.
많은 프로그래밍 지시 처리 방식을 두고 더 나은 지시 사항을 작성하고, AI 시스템 훈련 시 사용하는 데이터양 재구성 및 제한 후 주어진 작업 처리를 위해 필요한 수준을 최소화하도록 추론 코드를 제거하고자 한다. 즉, 다양한 소규모 시스템을 구축한다는 의미이다. 이미지 생성 프로그램 하나로 동물 이미지를 생성하고, 다른 프로그램으로는 인간의 이미지를 생성하고는 사용자가 입력한 명령어에 따라 두 프로그램이 생성한 이미지를 전환할 수도 있다.
GPU 사용량이 최고치에 도달하여 속도와 저렴한 비용 간 균형이 저하되었을 때 시간에 민감하지 않은 작업 처리 일정도 세운다.
대화 생성 서비스 스티트업 리젬블 AI(Resemble AI)는 고급 수준 옵션 1/10 지출을 명령한다면, 구형 칩을 이용하여 고객 요청을 처리하는 시간을 1/10초 더 투자하는 데 동의했다. 그러나 결과물로 얻는 오디오 품질의 차이는 없다. 리젬블 AI CEO 조하입 아흐메드(Zohaib Ahmed)는 람다 랩스와 코어위브를 넘어서고자 한다. 두 기업의 조건 모두 비교적 장기적 약속을 독려하면서 만족스럽지 않기 때문이다. 코어위브는 와이어드의 문의에 답변을 거부했으며, 람다 랩스는 이 기사가 송출될 시점까지 답변하지 않았다.
리젬블 AI는 1주 혹은 1개월간의 GPU 사용 예약을 환영하는 영세 공급사 플루이드스택(FluidStack)으로 눈을 돌렸다. 플루이드스택은 최근 들어 스타트업의 GPU 사용량 공동 구매 및 할당을 위한 콘소시엄인 샌프란시스코 컴퓨트 그룹(San Francisco Compute Group)에 합류했다. 아흐메드는 “스타트업 생태계는 협력하고, 대기업과의 경쟁 방안과 더 나은 컴퓨터 전력을 얻기 위해 경쟁할 방법을 찾고자 한다. 여러 스타트업이 협력하지 않는다면, 불공정한 시장 경쟁이 될 것이다. 비용이 너무 비싸기 때문이다”라고 말했다.
아흐메드는 매주 월요일이면 GPU 공급 부족 사태에서 한 줄기 희망을 얻는다고 밝혔다. 람다 랩스 영업팀 대표가 직접 연락하여 엔비디아의 최신 칩인 H100 사용량을 예약할 의사가 있는지 물어보았기 때문이다. GPU 사용량을 손에 넣는다는 희망이 흥미롭지만, H100은 2023년 3월부터 널리 공급되었다. 게다가 여러 기업이 코드가 위험성을 동반한 성과 달성을 위한 판단을 위한 코드의 완벽성을 테스트하기 전까지 시간 문제가 존재하기 때문이다. 엔비디아는 2024년 중으로 가장 강력한 성능을 자랑하는 최신 칩인 GH200를 출시할 예정이다. 그리고 희소성 순환이 한 차례 더 반복할 것이다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Nvidia Chip Shortages Leave AI Startups Scrambling for Computing Power
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다