본문 바로가기 주메뉴 바로가기 검색 바로가기
휴대용 기기에 적합한 규모로 축소된 AI 모델, 컴퓨팅의 새 시대 개방
상태바
휴대용 기기에 적합한 규모로 축소된 AI 모델, 컴퓨팅의 새 시대 개방
마이크로소프트 연구팀이 AI 모델을 중요한 타협 사항 없이 스마트폰이나 노트북에서 실행하여 지능적인 기능을 제공할 수 있을 정도로 작은 규모로 개발할 수 있다는 사실을 입증했다. 연구팀이 선보인 기술은 AI의 새로운 사용 사례를 형성할 수 있다.
By WILL KNIGHT, WIRED US

2023년 11월, 챗GPT 출시 당시 클라우드로만 접근할 수 있었다. 챗GPT의 근간이 되는 모델의 규모가 매우 거대했기 때문이다.

이제 필자는 맥북에어로 챗GPT와 비슷한 성능을 지원하는 인공지능(AI) 프로그램을 실행할 수 있다. AI 프로그램을 실행하는 내내 기기 발열 문제는 발생하지 않았다. AI 모델 규모 축소는 AI 연구원이 AI 모델의 용량 축소와 효율성 향상을 위해 신속하게 개선한다는 사실을 입증한다. 동시에 AI 모델의 규모가 커지는 것만이 기기의 지능을 향상하는 방법이 아니라는 점도 입증한다.

현재 필자는 챗GPT와 비슷한 유머와 지혜를 갖춘 AI 모델인 ‘파이-3-미니(Phi-3-mini)’를 맥북에어에서 실행한다. 파이-3-미니는 마이크로소프트 연구팀이 최근 발표한 소규모 AI 모델 시리즈 중 하나이다. 파이-3-미니는 스마트폰에서도 실행할 수 있을 정도로 규모가 작은 현이지만, 필자는 맥북에어로 테스트하면서 공식 챗GPT 앱과 비슷한 대화 인터페이스를 제공하는 앱인 인챈티드(Enchanted)를 통해 아이폰에서 파이-3-미니를 평가했다.

마이크로소프트 연구팀은 파이-3 시리즈 모델을 설명하는 논문을 통해 파이-3-미니가 오픈AI의 초기 챗GPT 버전의 근간이 된 언어 모델인 GPT-3.5와 비슷한 수준의 성능을 순조롭게 실행할 수 있다고 전했다. GPT-3.5와 대적할 만한 성능을 지원한다는 주장은 일반 상식과 타당성을 측정하도록 설계된 표준 AI 벤치마크 여러 가지로 테스트한 성능 평가 결과를 바탕으로 제시한 주장이다. 필자는 직접 테스트하면서 파이-3-미니의 성능이 GPT-3.5와 비슷한 수준임은 확실하다고 판단했다.

마이크로소프트는 2024년 5월 21일(현지 시각), 기업 자체 연례행사로 개최되는 개발자 컨퍼런스인 빌드(Build)에서 새로운 멀티모달 파이-3 모델은 오디오, 영상, 텍스트를 처리할 수 있다고 발표했다. 파이-3-미니는 오픈AI와 구글이 클라우드를 통해 접근한 멀티모달 모델을 관리하여 구축한 최신 AI 모델의 급격한 발전 사항을 홍보하고 며칠이 지난 시점에 발표됐다.

마이크로소프트의 소규모 AI 모델 시리즈는 클라우드에 의존하지 않고도 각종 간편한 AI 앱을 개발할 수 있다는 점을 암시한다. 소규모 AI 모델은 AI 기반 앱의 반응 능력이나 개인 정보 보호를 강화하는 등 새로운 사용 사례를 개방할 수 있다. (오프라인 알고리즘은 마이크로소프트가 사용자의 PC 사용 활동을 모두 검색하도록 AI를 사용한다고 발표한 기능인 ‘리콜(Recall)’ 기능의 핵심이다.)

그러나 파이-3 모델 시리즈는 현대 AI의 특성을 드러내기도 한다. 어쩌면, AI 모델 개선 방법을 나타낼 수도 있다. 파이-3 모델 프로젝트에 참여한 마이크로소프트 연구원 세바스티안 버벡(Sébastien Bubeck)은 필자에게 AI 시스템의 훈련 사항을 추가로 선별할 때 기능을 개선하는 방식을 제공할 수 있는가 평가할 목적으로 파이-3 모델을 개발했다고 전했다.
 
[사진=Unsplash]
[사진=Unsplash]

AI 챗봇을 비롯한 여러 생성형 AI 기반 서비스의 기능을 지원하는 오픈AI의 GPT-4나 구글 제미나이와 같은 대규모 언어 모델에는 보통 도서와 웹사이트, 기타 텍스트에 접근할 수 있는 모든 출처에서 별다른 노력 없이 조금씩 도용한 텍스트의 거대한 데이터가 주입된다. 외부에서 허락을 받지 않고 무단으로 수집한 데이터를 이용한 AI 모델 훈련이 법적 문제를 제기할 수 있으나 오픈AI 등 복수 대규모 언어 모델 개발사는 AI 모델에 주입하는 텍스트 데이터양과 AI 모델 훈련 시 사용하는 컴퓨터 전력량 증가 모두 새로운 성능 달성으로 이어질 수 있다는 사실을 발견했다.

대규모 언어 모델이 선보이는 지능의 특성에 관심이 있는 버벡 연구원은 AI 모델에 주입하는 데이터를 신중하게 엄선하여 훈련 데이터 규모가 과도하게 커지는 일 없이 기능을 개선할 수 있는가 확인하기로 결심했다.

2023년 9월, 버벡 연구원의 연구팀은 GPT-3.5 규모의 약 1/17 수준인 AI 모델을 완성했다. 모델은 프로그래밍을 포함한 특정 도메인의 단신 정보를 포함한 상대적으로 규모가 큰 AI 모델이 생성한 교과서와 같은 텍스트 품질을 갖춘 합성 데이터로 훈련을 받았다. 그 결과로 탄생한 AI 모델은 규모 대비 뛰어난 능력을 선보였다. 버벡 연구원은 “AI 모델 훈련 결과에 놀라면서도 AI 모델 훈련 기법을 활용하여 코딩 능력 측면에서는 GPT-3.5의 성능을 능가할 수 있다는 사실을 관측했다. 실제로 작업 도중 놀랐던 부분이다”라고 말했다.

연구팀은 같은 접근 방식으로 다른 사항도 발견했다. 초소규모 모델에 동화를 주입하여 꾸준히 일관성이 있는 결과물을 생성할 수 있다는 사실을 발견한 실험 결과를 그 예시로 언급할 수 있다. 비슷한 규모의 AI 프로그램이 보통 기존의 방식으로 훈련받으면, 의미가 없는 결과물을 생성한다는 점에서 더 주목할 만한 결과였다. 재차 언급하자면, 연구 결과는 올바른 데이터로 훈련했을 때 현재 규모가 작은 듯한 AI 소프트웨어가 이전보다 더 유용해질 수 있다는 점을 시사한다.

버벡 연구원은 실험 결과가 미래 AI 시스템의 지능을 향상하고자 할 때 단순히 데이터 규모를 확장하는 것 외에도 다른 조건이 필요하다는 사실을 시사한다고 설명했다. 특히, 파이-3 시리즈처럼 규모를 축소한 AI 모델은 미래 컴퓨팅의 중요한 기능이 될 수 있다. AI 모델을 스마트폰이나 노트북, PC 등 기기 내부에서 자체적으로 실행한다면, 클라우드에서 질문을 주입할 때 발생하는 답변 지연이나 실행 중단과 같은 문제를 줄일 수 있다. 데이터가 기기 자체에 보관된다는 사실을 보장하며, 클라우드 중심 모델에서는 불가능했을 AI의 새로운 사용 사례를 형성할 기회를 열 수도 있다. 그 예시로 기기 운영체제와의 통합 수준이 깊은 AI 앱을 언급할 수 있다.

한편, 애플이 2024년 6월, 자체 연례 컨퍼런스인 WWDC에서 전 세계가 오랫동안 기다린 AI 전략을 발표할 것이라는 기대가 널리 확산되었다. 또, 애플은 앞서 커스텀 하드웨어와 소프트웨어가 기기 내부에서 기계 학습이 이루어지도록 한다고 뽐내듯이 발표한 적도 있다. 단순히 그 어느 때보다 더 규모가 큰 클라우드 AI 모델을 개발하려 오픈AI, 구글과 경쟁하는 대신 소비자가 휴대하는 소형 기기에 적합한 수준으로 AI 규모를 축소하면서 다르게 생각한 것으로 보인다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Pocket-Sized AI Models Could Unlock a New Era of Computing
이 기사를 공유합니다
RECOMMENDED