본문 바로가기 주메뉴 바로가기 검색 바로가기
모두를 위한 머신 러닝
상태바
모두를 위한 머신 러닝
AWS가 만든 강력하고 가성비 높은 Inferentia와 Trainium 이야기

머신 러닝(ML)은 우리 삶의 다양한 분야에 미치는 영향력을 통해 혁신의 원동력이 되고 있습니다. 이는 자율 주행 자동차가 될 수도 있고, 대화를 자동으로 나눠주는 음성비서가 될 수도 있으며, 텍스트 기반 메시지 생성, 현실과 비슷한 이미지 생성이 가능한 소프트웨어가 될 수도 있습니다. 전통 산업 기반의 기업부터 새롭게 진입한 스타트업까지, 모두 빠르게 진화하는 이 기술을 통해 새로운 방식으로 문제를 해결하고 있습니다.

 

그러나 이러한 진화는 문제를 제기하기도 합니다. ML이 더 정교해짐에 따라 모델이 기하급수적으로 복잡해지고 있기 때문입니다. 지난 몇 년 동안 이러한 모델은 수억 개부터 수천억 개까지도 증가했으며, 구조가 복잡해질 수록 학습하고 배포하는데 비용이 높아지면서 기업의 부담이 늘고, 특히 스타트업의 혁신을 제한하는 요인이 되고 있습니다.

 

인간이 생성한 텍스트를 기계가 읽을 수 있도록 돕는 소프트웨어를 만드는 스타트업 Finch Computing의 CTO이자 공동 창업자 스콧 라이트너(Scott Lightner)는 최근까지도 비슷한 문제에 직면했었습니다. Finch는 다양한 언어로 된 정보 자산을 분석하고 인사이트를 제공하고 있으며, 설립 초기부터 Amazon Web Services(AWS)의 ML 인프라 솔루션을 사용해 왔습니다. 이 중에서도 특히, 문장의 어조와 의도를 해독하는 등 인간 언어의 뉘앙스를 이해할 수 있는 ML 알고리즘의 일부인 자연어 처리(NLP)를 사용하고 있습니다.

 

스콧과 그의 팀은 영어로 시작해 더 많은 언어를 상품에 추가해 확장하고자 했습니다. 하지만 이 알고리즘을 실행하기엔 너무 많은 인프라 비용의 지출이 필요했기 때문에 어려움이 있는 상황이었습니다.

 

바로 AWS를 찾기 전까지 말이죠.

 

추론의 대중화

 

2017년, AWS 엔지니어 팀은 ML 트렌드를 모니터링 하던 중 컴퓨팅 비용이 상승하고 있는 상황에서 고객이 효과적이면서 혜택을 얻을 수 있는 저렴한 대안에 주목했습니다. 그 결과, AWS는 ML 어플리케이션을 가성비 있게 제공할 수 있는 Inferentia를 개발하게 되었습니다.

 

Inferentia를 개발하는 것은 아주 긴 여정이었습니다.

 

AWS팀은 범용 컴퓨팅을 위한 AWS Graviton 프로세서와 같은 실리콘을 설계하고 구축한 경험이 10년 이상 보유하고 있었기 때문에, 초반에는 ML 워크로드를 위한 혁신적인 실리콘 역시 구축해 낼 수 있다고 믿었습니다. 이 팀은 ML 인프라 비용에 가장 큰 비중을 차지하는 ML 추론을 먼저 공략하기로 했는데, 이는 전용 가속기가 대규모 ML 워크로드의 성능은 높이고, 비용을 낮춤과 동시에 탄소발자국 역시 줄일 수 있는 효과가 있기 때문이었습니다.

 

ML 추론은 기존 모델을 통해 새로운 데이터 포인트를 실행하여 비용에 대한 예측을 생성해 내는 프로세스입니다. 애플리케이션에 따라 예측 모델 생성에 필요한 속도(지연 시간)와, 초당 생성해야 하는 예측의 수(처리량)이 있습니다. AWS 엔지니어들은 해당 지표에서 고성능 퍼포먼스와 비용 절감, 전력 소비까지 낮출 수 있는 칩을 설계하고 제작하기 시작했습니다.

 

2019년에 출시된 AWS Inferentia는 머신 러닝 추론과 이를 지원하는 서버를 위해 특별히 제작되었으며, 탁월한 가성비, 높은 처리량, 낮은 지연 시간을 제공하여 동급의 GPU 기반 서버에 비해 탁월한 제품성을 보입니다. 적은 비용으로 뛰어난 성능을 제공함으로써 AWS Inferentia는 ML 추론을 대중화했고, 고객에게 새로운 혁신안을 제시했습니다.

 

Finch의 스콧 라이트너는 바로 Inferentia의 가치를 알아봤습니다. “GPU 비용을 고려해 보았을 때, 고객에게 새로운 언어를 제공하는 동시에 높은 수익성을 유지하는 건 도무지 감당할 수 없었습니다", 그는 “AWS Inferentia가 이 문제를 해결해 줬다”고 전했습니다.

 

Finch는 GPU에서 AWS Inferentia를 이용, 컴퓨팅 집약적 모델 마이그레이션을 통해 추론 비용을 80% 이상으로 절감했습니다. Finch는 인프라 비용 절감 효과로 인해 3개 언어를 추가로 지원할 수 있었고, 해당 언어를 통해 인사이트를 얻고자 하는 신규 고객을 유치하고 기존 고객으로부터 긍정적인 피드백을 받을 수 있었습니다.

 

학습의 가속화

 

모델이 새로운 데이터 포인트를 처리한 후 예측하거나, ‘추론’할 수 있으려면 먼저 학습이 필요합니다. 예를 들어, 사기 거래를 식별하기 위한 학습을 하기 위해선 먼저 유효한 거래와 사기 거래 예시를 제공하여 학습시켜야 합니다. 이러한 학습은 모델이 자체 매개변수를 조정하고 모든 데이터 포인트에 대해 예측 정확도를 높일 때 가능합니다. 매개변수 수가 많을수록 모델을 튜닝하는 데 시간이 소요되고 학습 시간이 길어져, 컴퓨팅 인프라를 장기간 사용함으로 인해 비용이 올라갈 수밖에 없는 것이죠.

 

이는 비용의 문제에만 국한된 것이 아닙니다. 학습 시간이 길어지면 혁신도 느려집니다. 엔지니어링 팀은 보통 많은 반복을 통해 다양한 모델을 학습, 테스트 및 검증한 뒤 비즈니스 목적에 가장 적합한 모델을 선택합니다. 엔지니어링 팀이 충분히 빠르게 진행하지 못하면, 혁신 또한 느려지고 이는 최근 스타트업 대표들이 가장 힘들어하는 부분 중 하나이기도 합니다.

 

Helixon의 대표 지안 펭(Jian Peng)은 이런 문제에 익숙합니다. Helixon은 단백질 기반 치료제를 위한 차세대 AI 솔루션을 구축해 과학자들이 단백질 기능과 상호 작용을 해독하고, 표적 식별을 위해 대규모 게놈 데이터 세트를 조사하고, 항체 및 세포 치료제를 설계할 수 있도록 지원하는 AI 도구를 개발합니다. 현재 Helixon은 여러 GPU 기반의 서버를 통해 모델 학습을 병렬화하고 있지만 단일 모델 학습 시키는 데 여전히 몇 주나 걸리고 있습니다.

 

Helixon과 같은 수많은 고객을 위해 AWS는 Inferentia를 통해 얻은 인사이트를 바탕으로 AWS Trainium을 개발했습니다. Trainium 칩은 ML 학습을 가속화하기 위해 특별히 설계된 칩입니다. AWS는 Inferentia의 실리콘 혁신을 기반으로 ML 서비스를 만들어 냈고, ML 학습을 가속시키기 위한 특별히 설계된 칩 AWS Trainium을 통해 인프라를 구축하게 되었습니다.

 

ML을 학습시키는 것은 단일 서버가 처리할 수 있는 양보다 더 많은 프로세싱이 필요하므로 매우 어려운 일입니다. 이를 해결하기 위해 여러 서버를 이용해 학습을 분산시키기 위해 EC2 울트라클러스터에 Trainium 기반 서버가 배포되는데, 여기엔 수많은 Trainium 가속기가 페타비트 규모의 비차단 네트워크로 연결되어 있습니다. 그 결과, 고객은 수천억 개의 매개변수가 있는 가장 복잡한 딥 러닝 모델의 학습 시간을 단축하는 동시에, 인프라 비용도 절감할 수 있게 되었습니다.

 

지안 펭은 “AWS에서 가장 높은 네트워킹 대역폭을 제공하는 Amazon EC2 Trn1 인스턴스(Trainium 기반 서버)를 활용하여, 분산 학습 작업의 성능을 개선하고 모델 학습 시간을 단축하는 동시에, 학습 비용도 절감할 수 있게 되어 매우 기쁘다”고 전했습니다.

 

AWS Trainium은 머신 러닝 고유의 문제를 해결할 수 있는 혁신적인 기능 또한 제공합니다. 확률적 반올림을 예로 들자면, 난수를 기반으로 반올림하는 확률적 접근 방식인데 이 방법은 많은 양의 계산에선 더 나은 정확도를 제공하지만 컴퓨팅 능력에 많은 부분을 의존해야 합니다. 이를 해결하기 위해, Trainium은 확률적 반올림에 대한 추가 하드웨어 지원을 통해 더 나은 정확도와 빠른 학습 시간을 제공하며, 최대 20%까지도 효과를 얻을 수 있습니다.

 

이 외에도 AWS Trainium은 딥 러닝 학습에 일반적으로 사용되는 수학적 연산을 가속화하기 위해 몇 가지 다른 하드웨어 최적화 기능을 제공합니다. 또한, 코어 내부에 범용 프로세서를 내장하고 있어 자체 연산자를 정의하고 사용하려는 개발자가 접근할 수 있게 했습니다. 이 고유한 기능 덕분에 고객은 서버의 CPU로 데이터를 주고받을 필요 없이 Trainium 칩에서 맞춤형 연산자를 실행할 수 있습니다.

 

종단간 기계학습을 위한 목적 기반의 솔루션

 

Inferentia와 Trainium은 각자 보유하고 있는 고유한 기능이 있지만, 가장 큰 강점은 두 기술이 함께 작동하여 머신러닝 기술의 혁신적인 강점을 보여준다는 점입니다. 개발자는 단 몇 줄의 코드 입력만으로 ML 프레임워크에 상관없이 이 둘의 성능과 이점을 최대한 활용할 수 있습니다. Inferentia와 Trainium은 음성 인식, 추천, 사기 탐지, 이미지 및 비디오 분류와 같은 광범위한 분야에 걸쳐 ML 모델을 훈련하고 배포할 수 있는 엔드투엔드 솔루션을 제공합니다.

 

Amazon의 자체 상품 검색 엔진은 여러 ML 모델로 구동되는 적용 사례 중 하나입니다. 이 검색 엔진은 수십억 개의 제품을 색인하고 매일 수십억 건의 고객 쿼리를 처리하는, 전 세계에서 가장 많이 사용되는 서비스 중 하나입니다.

 

트리슐 칠림비(Trishul Chilimbi)는 Amazon 부사장 겸 저명한 과학자로, Amazon Search 내 Search M5 팀을 이끌고 있습니다. 그는 “우리는 사람들이 쇼핑 세션이라고 부르는 모델을 구축한다”라며, “Trainium은 모델을 보다 효율적으로 학습시키는 데 도움을 주며, Inferentia는 이러한 모델을 실제 제작을 위해 배포하고 실시간으로 실행할 수 있게 해준다. 고객에게 즐거운 쇼핑 경험을 제공하기 위해선 이 두 가지는 필수 요소다”라고 말했습니다.

 

첨단 기술이 가미된 ML 실리콘을 구축하는 것은 고객의 업무량에 맞는 최고의 가성비 있는 상품을 제공하고자 하는 AWS의 전반적인 노력의 일환입니다. 데이브 브라운(Dave Brown) Amazon EC2 부사장은 “우리는 항상 모든 사람이 머신 러닝에 액세스할 수 있는 것을 목표로 해왔다”며, “Inferentia와 Trainium은 뛰어난 성능과 부담스럽지 않은 가격의 ML 하드웨어를 이전에 쉽게 접하지 못했던 기업에게 혁신으로 다가가고 있다. 나는 앞으로 더 많은 기업이 이 기술을 통해 우리가 꿈으로만 접했던 것들을 창조해 낼 것으로 생각한다.”라고 말했습니다.

 

고성능 컴퓨팅, 그래픽, 머신 러닝 등 광범위한 어플리케이션을 위해 구축되고 사용되는 GPU와 달리, AWS의 Inferentia와 Trainium은 머신 러닝 가속화라는 특수한 목적을 위해 만들어졌습니다.

 

이 특수성으로 AWS는 점점 더 발전하고 정교해지는 머신 러닝 기술과 함께 가격도 함께 낮춘 새로운 미래를 그리는 데 기여하고 있습니다.

 

 

 

 

이 기사는 AWS를 위해 WIRED Brand Lab에서 작성되었습니다.

와이어드 코리아=국민호 dk@eclatnt.com
이 기사를 공유합니다
RECOMMENDED