By WILL KNIGHT, WIRED US
테크 업계가 생성형 인공지능(AI)을 향해 어리석은 수준의 열정을 보이던 중 한 기업은 한발 물러서서 시장 상황을 관망했다. 바로 애플이다. 애플은 아직 AI 생성 이모지만큼 많은 것을 도입하지 않았다. 뉴욕타임스의 2024년 3월 19일(현지 시각) 보도 기사와 그에 앞선 블룸버그 보도 기사는 애플이 구글과 구글의 제미니(Gemini) AI 모델을 아이폰에 추가하는 방안을 두고 초기 논의에 돌입한 소식을 전했다.
그러나 2024년 3월 15일(현지 시각) 온라인에 아무도 모르는 사이 애플 엔지니어팀이 게재한 연구 논문은 애플이 이미 결실을 본 AI에 새로이 거액을 투자한다는 사실을 시사한다. 논문은 텍스트, 이미지 작업 능력을 갖춘 신규 생성형 AI인 MM1 개발 과정을 상술했다. 연구팀은 MM1이 사진 관련 질문에 답하는 모습과 챗GPT와 같은 챗봇이 입증한 일반적인 지식을 보여준다는 점을 공개했다. MM1의 이름에 담긴 의미는 공개되지 않았으나 멀티모달 1(MultiModal 1)을 의미할 수도 있다.
MM1은 메타의 오픈소스 AI 모델인 Llama 2, 구글 제미니 등 다른 테크 업계 대기업의 다양한 최신 AI 모델과 디자인, 발전 수준이 비슷한 것으로 나타났다. 애플 경쟁사와 학계가 개발한 AI 모델은 멀티모달 AI는 강력한 챗봇 기능 제공 혹은 코드 작성, 컴퓨터 인터페이스나 웹사이트와 같은 행동 처리 등으로 문제를 해결할 에이전트 개발에 활용될 수 있음을 보여준다. 이는 MM1이 애플 제품 내에서 자체적으로 제 역할을 할 방법을 찾을 수 있음을 의미한다.
몇 년 전 애플의 AI 연구를 이끈 카네기멜론대학교 교수 루슬란 살라쿠티노프(Ruslan Salakhutdinov)는 “멀티모달 모델을 개발하면서 모델 훈련 방법과 개발 방법을 이해할 능력을 보여준다”라며, “AI 모델 개발 과정에는 일정 수준의 전문 지식이 필요하다”라고 말했다.
MM1은 텍스트는 물론이고, 이미지로도 훈련받은 멀티모달 대규모 언어 모델(MLLM)이다. 텍스트, 이미지를 활용한 훈련 과정은 모델의 텍스트 명령어 답변 능력, 특정 이미지 관련 복잡한 질문 답변 능력을 갖추도록 한다.
애플 연구 논문은 햇빛이 비친 테이블에 앉아 맥주를 마시는 커플과 메뉴 이미지 사진을 제공했을 때 MM1이 보인 반응을 예시로 보여주었다. 사진 속 커플이 테이블 위 맥주병 가격을 제외하고 결제할 금액을 묻자 MM1은 정확한 가격 계산 결과와 전체 가격 계산 결과를 보여주었다.
2022년 11월, 챗GPT가 출시되었을 당시에는 텍스트 소화 및 생성 능력만 갖추었다. 하지만 비교적 최근에는 오픈AI가 기본 대규모 언어 모델 기술이 다른 유형의 데이터도 처리하도록 역량을 확장했다. 2023년 12월, 구글이 챗GPT의 대항마로 제미니를 출시했을 당시 구글은 멀티모달 특성을 AI에서 중요한 새로운 방향의 시작이라고 홍보했다. 애플 논문에는 “대규모 언어 모델이 등장한 뒤 멀티모달 대규모 언어 모델이 근간이 되는 모델의 최전선에 등장했다”라고 작성되었다.
MM1은 AI 모델 훈련 시 적응할 내부 변경 사항인 변수의 수를 기준으로 보면, 다른 AI 모델보다 상대적으로 규모가 작은 편이다. 컴퓨터 비전, 머신러닝 전문가인 보스턴대학교 교수 케이트 샌코(Kate Saenko)는 애플 엔지니어가 다양한 방식과 개선 사항을 실험한 뒤 무언가 유망한 결과에 도달할 때 모델 규모를 확장하기 쉬웠다고 설명했다.
샌코 교수는 MM1 논문이 기업의 논문 게재를 위한 모델 훈련 과정을 놀라울 정도로 상세히 담았다고 전했다. 예를 들어, MM1 개발 과정에 참여한 엔지니어는 이미지 해상도 개선과 텍스트와 이미지 데이터 결합 등 MM1의 성능 개선을 위한 속임수를 설명했다. 애플은 내부 개발 사항을 철저하게 비공개 상태로 유지하는 것으로 유명하지만, AI라는 중요한 기술 분야에서의 경쟁에 필요한 인재를 모을 방안을 모색하면서 AI 연구 성과를 공개하는 이례적인 모습을 선보였다.
샌코 교수는 연구 논문을 통해 애플의 계획을 두고 다양한 결론을 제시하기 어렵다고 보았다. 멀티모달 모델은 다양한 사용 사례에 적용 가능한 것으로 입증되었다. 하지만 샌코 교수는 MM1이 사진이나 문서, 차트를 설명하고 관련 질문에 답할 수 있는 멀티모달 어시스턴트 개발 과정을 향한 단계가 될 수 있다고 진단했다.
애플의 핵심 제품인 아이폰은 이미 AI 어시스턴트 ‘시리’를 지원한다. 챗GPT와 그 라이벌이 급부상하면서 혁신적인 어시스턴트라는 평가를 받던 시리가 순식간에 기능이 제한적인 구시대적 어시스턴트가 되었다. 아마존과 구글은 자사 어시스턴트에 대규모 언어 모델 기술을 통합하는 데 관심이 있다고 밝혔다. 구글은 안드로이드 스마트폰 사용자가 구글 어시스턴트를 제미니로 변경하도록 한다.
애플이 구글 제미니를 아이폰에 추가할 수도 있다는 뉴욕타임스와 블룸버그 보도는 애플이 모바일 기기의 검색 기능에 적용한 전략을 생성형 AI로 확대하는 방안을 고려한다는 점을 시사한다. 애플은 내부에서 웹 검색 기술을 개발하는 대신 아이폰의 기본 검색 엔진으로 설정하여 180억 달러 이상 매출을 기록한 구글에 의존한다. 애플은 처음부터 구글에 의존하기 시작하더라도 외부 서비스의 대체 서비스를 직접 개발할 수 있다는 사실을 입증했다. 구글맵은 아이폰의 기본 지도 서비스였으나 2012년, 애플은 구글 맵을 자체 개발 지도 앱으로 변경했다
애플 CEO 팀 쿡은 투자자에게 2024년 중으로 애플의 자체 생성형 AI 계획을 추가로 공개하기로 약속했다. 애플은 삼성, 구글 등 스마트폰 경쟁사가 자사 제품에 각종 생성형 AI 툴을 적용하여 압박을 받게 되었다.
애플은 구글과 자체 개발 AI 기능을 계속 번갈아 적용할 수밖에 없을 것이다. 어쩌면, 제미니를 대화형 구글 검색의 대체 서비스로 적용하는 동시에 MM1과 다른 자체 개발 모델을 바탕으로 새로운 생성형 AI 툴을 개발할 수도 있다. 2023년 9월, MM1 개발에 참여한 일부 연구원은 생성형 AI를 사용하여 텍스트 명령어 기반 이미지를 조작하는 툴인 MGIE의 상세 정보를 공개했다.
살라쿠티노프 교수는 애플이 애플 기기에 안전하게 설치 및 실행이 가능한 대규모 언어 모델을 개발하는 데 주력할 것으로 내다보았다. 애플의 기기 자체 알고리즘을 사용하여 민감 데이터를 보호하면서 다른 기업과의 데이터 공유를 피하는 방안은 과거 강조 사항에 적합하다. 최근, 애플이 게재한 최신 AI 연구 논문 여러 편은 사용자 프라이버시를 보존하기 위한 설계된 머신러닝 기법과 관련성이 있다. 살라쿠티노프 교수는 “애플이 AI와 관련하여 무언가를 진행 중인 듯하다”라고 말했다.
살라쿠티노프 교수는 생성형 AI 툴을 기기에 적용하려 맞춤 개발하는 것과 관련하여 애플은 전체 소프트웨어-하드웨어 스택을 통제하기 때문에 아직은 차별화된 이점을 누리지 못했다. 애플은 2017년, 아이폰X과 함께 처음 시장에 등장한 자사 기기의 동력을 제공하는 칩에 맞춤 뉴럴 엔진을 적용했다. 살라쿠티노프 교수는 “애플이 AI 분야 연구를 진행 중인 것은 분명하다. 언젠가 AI 분야를 선도하는 날이 올 것으로 예상한다. 애플은 스마트폰을 출시하며, 유통망도 보유했기 때문이다”라고 말했다.
MM1 연구 논문 수석 저자인 애플 연구원 브랜든 맥킨지(Brandon McKinzie)는 X(구 트위터) 스레드에 “MM1 연구는 시작일 뿐이다. 애플 연구팀은 이미 차세대 모델 개발에 온 힘을 쏟고 있다”라고 작성했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Apple’s MM1 AI Model Shows a Sleeping Giant Is Waking Up
테크 업계가 생성형 인공지능(AI)을 향해 어리석은 수준의 열정을 보이던 중 한 기업은 한발 물러서서 시장 상황을 관망했다. 바로 애플이다. 애플은 아직 AI 생성 이모지만큼 많은 것을 도입하지 않았다. 뉴욕타임스의 2024년 3월 19일(현지 시각) 보도 기사와 그에 앞선 블룸버그 보도 기사는 애플이 구글과 구글의 제미니(Gemini) AI 모델을 아이폰에 추가하는 방안을 두고 초기 논의에 돌입한 소식을 전했다.
그러나 2024년 3월 15일(현지 시각) 온라인에 아무도 모르는 사이 애플 엔지니어팀이 게재한 연구 논문은 애플이 이미 결실을 본 AI에 새로이 거액을 투자한다는 사실을 시사한다. 논문은 텍스트, 이미지 작업 능력을 갖춘 신규 생성형 AI인 MM1 개발 과정을 상술했다. 연구팀은 MM1이 사진 관련 질문에 답하는 모습과 챗GPT와 같은 챗봇이 입증한 일반적인 지식을 보여준다는 점을 공개했다. MM1의 이름에 담긴 의미는 공개되지 않았으나 멀티모달 1(MultiModal 1)을 의미할 수도 있다.
MM1은 메타의 오픈소스 AI 모델인 Llama 2, 구글 제미니 등 다른 테크 업계 대기업의 다양한 최신 AI 모델과 디자인, 발전 수준이 비슷한 것으로 나타났다. 애플 경쟁사와 학계가 개발한 AI 모델은 멀티모달 AI는 강력한 챗봇 기능 제공 혹은 코드 작성, 컴퓨터 인터페이스나 웹사이트와 같은 행동 처리 등으로 문제를 해결할 에이전트 개발에 활용될 수 있음을 보여준다. 이는 MM1이 애플 제품 내에서 자체적으로 제 역할을 할 방법을 찾을 수 있음을 의미한다.
몇 년 전 애플의 AI 연구를 이끈 카네기멜론대학교 교수 루슬란 살라쿠티노프(Ruslan Salakhutdinov)는 “멀티모달 모델을 개발하면서 모델 훈련 방법과 개발 방법을 이해할 능력을 보여준다”라며, “AI 모델 개발 과정에는 일정 수준의 전문 지식이 필요하다”라고 말했다.
MM1은 텍스트는 물론이고, 이미지로도 훈련받은 멀티모달 대규모 언어 모델(MLLM)이다. 텍스트, 이미지를 활용한 훈련 과정은 모델의 텍스트 명령어 답변 능력, 특정 이미지 관련 복잡한 질문 답변 능력을 갖추도록 한다.
애플 연구 논문은 햇빛이 비친 테이블에 앉아 맥주를 마시는 커플과 메뉴 이미지 사진을 제공했을 때 MM1이 보인 반응을 예시로 보여주었다. 사진 속 커플이 테이블 위 맥주병 가격을 제외하고 결제할 금액을 묻자 MM1은 정확한 가격 계산 결과와 전체 가격 계산 결과를 보여주었다.
MM1 연구는 시작일 뿐이다. 애플 연구팀은 이미 차세대 모델 개발에 온 힘을 쏟고 있다.
브랜든 맥킨지, 애플 연구원
브랜든 맥킨지, 애플 연구원
2022년 11월, 챗GPT가 출시되었을 당시에는 텍스트 소화 및 생성 능력만 갖추었다. 하지만 비교적 최근에는 오픈AI가 기본 대규모 언어 모델 기술이 다른 유형의 데이터도 처리하도록 역량을 확장했다. 2023년 12월, 구글이 챗GPT의 대항마로 제미니를 출시했을 당시 구글은 멀티모달 특성을 AI에서 중요한 새로운 방향의 시작이라고 홍보했다. 애플 논문에는 “대규모 언어 모델이 등장한 뒤 멀티모달 대규모 언어 모델이 근간이 되는 모델의 최전선에 등장했다”라고 작성되었다.
MM1은 AI 모델 훈련 시 적응할 내부 변경 사항인 변수의 수를 기준으로 보면, 다른 AI 모델보다 상대적으로 규모가 작은 편이다. 컴퓨터 비전, 머신러닝 전문가인 보스턴대학교 교수 케이트 샌코(Kate Saenko)는 애플 엔지니어가 다양한 방식과 개선 사항을 실험한 뒤 무언가 유망한 결과에 도달할 때 모델 규모를 확장하기 쉬웠다고 설명했다.
샌코 교수는 MM1 논문이 기업의 논문 게재를 위한 모델 훈련 과정을 놀라울 정도로 상세히 담았다고 전했다. 예를 들어, MM1 개발 과정에 참여한 엔지니어는 이미지 해상도 개선과 텍스트와 이미지 데이터 결합 등 MM1의 성능 개선을 위한 속임수를 설명했다. 애플은 내부 개발 사항을 철저하게 비공개 상태로 유지하는 것으로 유명하지만, AI라는 중요한 기술 분야에서의 경쟁에 필요한 인재를 모을 방안을 모색하면서 AI 연구 성과를 공개하는 이례적인 모습을 선보였다.
샌코 교수는 연구 논문을 통해 애플의 계획을 두고 다양한 결론을 제시하기 어렵다고 보았다. 멀티모달 모델은 다양한 사용 사례에 적용 가능한 것으로 입증되었다. 하지만 샌코 교수는 MM1이 사진이나 문서, 차트를 설명하고 관련 질문에 답할 수 있는 멀티모달 어시스턴트 개발 과정을 향한 단계가 될 수 있다고 진단했다.
애플의 핵심 제품인 아이폰은 이미 AI 어시스턴트 ‘시리’를 지원한다. 챗GPT와 그 라이벌이 급부상하면서 혁신적인 어시스턴트라는 평가를 받던 시리가 순식간에 기능이 제한적인 구시대적 어시스턴트가 되었다. 아마존과 구글은 자사 어시스턴트에 대규모 언어 모델 기술을 통합하는 데 관심이 있다고 밝혔다. 구글은 안드로이드 스마트폰 사용자가 구글 어시스턴트를 제미니로 변경하도록 한다.
애플이 구글 제미니를 아이폰에 추가할 수도 있다는 뉴욕타임스와 블룸버그 보도는 애플이 모바일 기기의 검색 기능에 적용한 전략을 생성형 AI로 확대하는 방안을 고려한다는 점을 시사한다. 애플은 내부에서 웹 검색 기술을 개발하는 대신 아이폰의 기본 검색 엔진으로 설정하여 180억 달러 이상 매출을 기록한 구글에 의존한다. 애플은 처음부터 구글에 의존하기 시작하더라도 외부 서비스의 대체 서비스를 직접 개발할 수 있다는 사실을 입증했다. 구글맵은 아이폰의 기본 지도 서비스였으나 2012년, 애플은 구글 맵을 자체 개발 지도 앱으로 변경했다
애플 CEO 팀 쿡은 투자자에게 2024년 중으로 애플의 자체 생성형 AI 계획을 추가로 공개하기로 약속했다. 애플은 삼성, 구글 등 스마트폰 경쟁사가 자사 제품에 각종 생성형 AI 툴을 적용하여 압박을 받게 되었다.
애플은 구글과 자체 개발 AI 기능을 계속 번갈아 적용할 수밖에 없을 것이다. 어쩌면, 제미니를 대화형 구글 검색의 대체 서비스로 적용하는 동시에 MM1과 다른 자체 개발 모델을 바탕으로 새로운 생성형 AI 툴을 개발할 수도 있다. 2023년 9월, MM1 개발에 참여한 일부 연구원은 생성형 AI를 사용하여 텍스트 명령어 기반 이미지를 조작하는 툴인 MGIE의 상세 정보를 공개했다.
살라쿠티노프 교수는 애플이 애플 기기에 안전하게 설치 및 실행이 가능한 대규모 언어 모델을 개발하는 데 주력할 것으로 내다보았다. 애플의 기기 자체 알고리즘을 사용하여 민감 데이터를 보호하면서 다른 기업과의 데이터 공유를 피하는 방안은 과거 강조 사항에 적합하다. 최근, 애플이 게재한 최신 AI 연구 논문 여러 편은 사용자 프라이버시를 보존하기 위한 설계된 머신러닝 기법과 관련성이 있다. 살라쿠티노프 교수는 “애플이 AI와 관련하여 무언가를 진행 중인 듯하다”라고 말했다.
살라쿠티노프 교수는 생성형 AI 툴을 기기에 적용하려 맞춤 개발하는 것과 관련하여 애플은 전체 소프트웨어-하드웨어 스택을 통제하기 때문에 아직은 차별화된 이점을 누리지 못했다. 애플은 2017년, 아이폰X과 함께 처음 시장에 등장한 자사 기기의 동력을 제공하는 칩에 맞춤 뉴럴 엔진을 적용했다. 살라쿠티노프 교수는 “애플이 AI 분야 연구를 진행 중인 것은 분명하다. 언젠가 AI 분야를 선도하는 날이 올 것으로 예상한다. 애플은 스마트폰을 출시하며, 유통망도 보유했기 때문이다”라고 말했다.
MM1 연구 논문 수석 저자인 애플 연구원 브랜든 맥킨지(Brandon McKinzie)는 X(구 트위터) 스레드에 “MM1 연구는 시작일 뿐이다. 애플 연구팀은 이미 차세대 모델 개발에 온 힘을 쏟고 있다”라고 작성했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Apple’s MM1 AI Model Shows a Sleeping Giant Is Waking Up
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다