생성형 AI 개발 경쟁 뒤 숨은 ‘더러운 비밀’

By CHRIS STOKEL-WALKER, WIRED UK

2023년 2월 초, 구글을 시작으로 마이크로소프트까지 연달아 자사 검색 엔진 서비스의 중대한 변화를 발표했다. 구글과 마이크로소프트 모두 생성형 인공지능(AI) 개발이나 인수에 거액을 투자했다. 생성형 AI는 대규모 언어 모델이 복잡한 질문을 이해하고, 답변할 능력을 선보였다. 이제 구글과 마이크로소프트 모두 생성형 AI를 검색 엔진에 통합하고자 하며, 사용자에게 더 풍부하면서 정확한 정보를 얻을 수 있는 사용 경험을 선사하고자 한다. 중국 검색 서비스 기업 바이두도 구글, 마이크로소프트에 이어 자체 AI 챗봇을 출시할 예정이다.

그러나 검색 엔진 경험을 강화할 AI라는 새로운 툴의 뒤에는 더러운 비밀이 숨어있다. 고성능 AI 기반 검색 엔진 개발 경쟁은 컴퓨터 전력 소모량과 테크 기업에 필요한 에너지양 검색 엔진 서비스를 제공하는 기업의 탄소 배출량의 급격한 증가로 이어질 확률이 높다.

영국 서레이대학교 사이버 보안 교수 앨런 우드워드(Alan Woodward)는 “이미 인터넷 콘텐츠 정보 정리 및 검색과 관련된 자원이 많지만, AI 통합에는 다른 종류의 기술이 필요하다. 검색 엔진에 AI를 통합할 때, 작업 처리전력과 저장, 효율적인 검색 모두 필요하다. 온라인 처리 작업의 단계 변화만 살펴보더라도 대규모 처리 센터에 막대한 양의 전력과 냉각 자원이 필요하다. AI 통합시 전력과 냉각 자원이 더 필요할 것으로 예상한다”라고 말했다.

마이크로소프트의 검색 엔진 빙(Bing)에 통합된 오픈AI(OpenAI)의 챗GPT(ChatGPT)와 구글의 바드(Bard) 등 대규모 언어 모델 훈련 시 다량의 데이터 내 상세 분석과 컴퓨터 전력 연결 작업이 필요하다. 보통 대규모 자원을 보유한 기업이 대규모 언어 모델을 개발한 이유이다.

스페인 코루냐대학교 컴퓨터 과학자인 카를로스 고메즈 로드리게즈(Carlos Gómez-Rodríguez) 박사는 “대규모 언어 모델을 훈련하려면, 상당한 양의 컴퓨터 전력을 사용해야 한다. 지금은 테크 업계 대기업만이 대규모 언어 모델을 훈련할 수 있다”라고 설명했다.

오픈AI와 구글 모두 자사 AI 챗봇의 컴퓨팅 전력 소모량을 밝히지 않았다. 하지만 외부 기관의 연구 분석 결과, 챗GPT의 텍스트 생성 작업에 일부 활용된 GPT-3 훈련 시 약 1,287MWh를 소모하며, 이산화탄소 550t 이상을 배출할 것으로 추산됐다. GPT-3의 이산화탄소 배출량은 한 명이 뉴욕과 샌프란시스코를 550회 왕복할 때 발생하는 배출량과 맞먹는다.

고메즈 로드리게즈 박사는 “언어 모델을 훈련하는 것 자체는 나쁜 일이 아니다. 하지만 언어 모델을 꾸준히 훈련한 뒤 언어 생성 기능을 지원하고, 사용자 수백만 명을 위한 서비스를 제공해야 한다는 책임을 져야 한다”라고 말했다.

투자 은행 UBS가 일일 사용자 수 1,300만 명으로 추산한 챗GPT를 독립 제품으로 활용하는 것과 일일 검색 처리 건수 5억 건에 이르는 검색 엔진 빙에 통합하는 것 간의 차이가 크다는 점도 고려해야 한다.

캐나다 데이터 센터 기업 큐스케일(QScale) 공동 창립자 마틴 부차드(Martin Bouchard)는 마이크로소프트와 구글의 검색 엔진 사업 계획과 생성형 AI를 이용한 검색 처리 작업 추가 시 검색 한 건당 컴퓨터 전력 소모량이 최소 4~5배 증가할 것으로 추산한다. 또한, 현재 챗GPT가 2021년 말 이후 현실 세계의 상황을 이해하지 못하는 이유는 컴퓨터 전력 소모량 감축 노력의 일부 때문이라고 지적했다.

검색 엔진 사용자가 요구하는 바를 충족하고자 한다면 변화가 필요한 부분이다. 부차드는 “오픈AI가 챗GPT 모델을 다시 훈련하면서 변수와 자원을 추가한다면, 언어 모델의 규모 자체가 달라질 것이다”라고 언급했다.

하드웨어에 거액을 투자해야 한다는 뜻이기도 하다. 부차드는 “현재 데이터 센터와 인프라로는 생성형 AI 경쟁을 다룰 수 없다”라고 말했다.

OECD 국제에너지기구(International Energy Agency) 추산 결과, 데이터 센터는 이미 전 세계 온실가스 중 1%를 배출한다. 클라우드 컴퓨팅이 증가하면서 데이터 센터의 온실가스 배출량이 증가할 것으로 보인다. 검색 엔진 서비스 운영 기업은 지구온난화에 영향을 미치는 정도를 줄일 것을 약속했다.

고메즈 로드리게즈 박사는 “검색 엔진 기업의 온실가스 배출 상황은 대중교통이나 직물 산업처럼 심각하지 않다. 그러나 AI가 전 세계 배출량 중 높은 비율을 차지할 수 있다”라고 설명했다.

마이크로소프트는 2050년까지 탄소중립을 달성한다고 공식 선언했다. 마이크로소프트는 2023년, 탄소 크레딧 150만 메트릭톤을 구매할 예정이다. 구글은 2030년까지 자사 사업 운영 및 가치 체인 전체의 배출량 제로 달성을 다짐했다. 오픈AI와 마이크로소프트 모두 와이어드의 탄소 배출 문제 관련 문의에 답변하지 않았다.

AI를 검색 엔진에 통합하는 과정에 발생하는 환경 발자국과 에너지 비용 모두 데이터센터의 청정에너지 자원 전환, 효율성 강화를 위한 신경망 재설계, 알고리즘의 신규 데이터 작업 처리에 필요한 컴퓨터 전력량을 의미하는 추론 시간 단축 등으로 줄일 수 있다.

자연어 처리 기술의 지속 가능성을 연구하는 셰필드대학교 자연어 처리 기술 강사 나피스 사다트 무사비(Nafise Sadat Moosavi)는 “대규모 언어 모델에 필요한 추론 시간 단축 방법을 연구해야 한다. 지금이 대규모 언어 모델의 효율성에 집중하기 가장 좋은 시점이다”라고 주장했다.

구글 대변인 제인 파크(Jane Park)는 와이어드에 구글이 초기에 에너지 소모량이 적은 대규모 언어 모델을 기반으로 한 바드를 배포하고자 했다고 밝혔다.

파크 대변인은 “구글은 초기 대규모 언어 모델인 LaMDA를 포함한 최신 언어 모델의 에너지 소모량을 상세하게 다룬 연구 논문을 발표한 적이 있다. 구글은 연구를 통해 효율적인 모델과 프로세서, 데이터 센터를 청정에너지 자원과 결합한다면, 머신러닝 시스템의 탄소 발자국을 최대 1/1,000 수준으로 감축할 수 있다는 사실을 발견했다”라고 설명했다.

적어도 구글의 사례에서 컴퓨터 전력 추가와 검색 정확도를 조금 더 향상할 수도 있는 부문에 AI를 최대한 활용할 가치가 있는지 의문을 제기할 수 있다. 그러나 무사비는 대규모 언어 모델이 생성하는 에너지와 탄소에 초점을 맞추는 것이 중요하지만, 몇 가지 관점을 고려할 필요가 있다고 주장한다.

무사비는 “검색 엔진에 AI를 통합하여 최종 사용자에게 더 나은 기술을 선보일 수 있다는 사실이 놀랍다. 기존 대규모 언어 모델은 누구나 접근할 수 없었기 때문이다”라고 말했다.

** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
The Generative AI Race Has a Dirty Secret

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다