본문 바로가기 주메뉴 바로가기 검색 바로가기
앤트로픽, AI 에이전트로 사용자 컴퓨터 제어 원해
상태바
앤트로픽, AI 에이전트로 사용자 컴퓨터 제어 원해
앤트로픽의 클라우드가 컴퓨터를 제어하여 유용한 작업을 처리하는 최초의 주요 AI 모델이 되었다.
By Will Knight, WIRED US

한동안 전 세계 테크 업계 관계자 다수가 챗봇 변경을 다음 도약 단계로 염두에 둔 것으로 보인다. 그동안 알려지지 않은 다음 도약 단계에는 인공지능(AI)을 신뢰하여 사용자의 컴퓨터 작업을 통제하는 과정도 포함된 것으로 보인다.

AI 업계에서 성공한 오픈AI의 경쟁사인 앤트로픽(Antropic)이 자사 AI 모델인 클라우드(Claude)가 컴퓨터에서 다양한 작업을 처리하도록 가르쳤다고 발표했다. 클라우드가 터득한 작업 처리 능력은 웹 검색, 애플리케이션 실행, 마우스와 키보드를 이용한 텍스트 입력 작업 등이다.

앤트로픽 최고 과학 책임자이자 존스홉킨스대학교 부교수 재러드 카플란(Jared Kaplan)은 “사용자가 인간으로서 사용하는 모든 수단을 AI 모델이 활용하여 작업을 처리하는 새로운 시대에 진입했다고 생각한다”라고 발표했다.

카플란이 와이어드에 공개한 사전녹화 데모 영상은 클라우드 에이전틱(툴 사용) 버전이 친구와 금문교로 해돋이를 보러 떠날 외출 계획을 세우도록 돕는 요청을 처리하는 과정을 보여주었다. 클라우드는 크롬 웹 브라우저를 열어서 구글에서 해돋이 명소, 해돋이를 보기 가장 좋은 시간 등 관련 정보를 보았다. 이후 캘린더 앱을 이용해 친구에게 주요 행사 정보를 공유했다. (적어도 지금은 이동 경로 확인 등 추가 지시 사항은 AI 에이전트가 담당하지 않는다.)

두 번째 데모 영상에서는 클라우드가 요청에 따라 간단한 웹사이트를 개설하여 자체 홍보하는 작업을 처리하는 모습을 볼 수 있었다. 클라우드가 웹 인터페이스에 직접 명령어를 입력하고 필요한 코드를 생성하는 초현실적인 순간도 볼 수 있었다. 클라우드는 코드를 생성한 뒤 마이크로소프트가 개발한 코드 편집 프로그램인 비주얼 스튜디오 코드(Visual Studio Code)를 사용하고는 텍스트 터미널을 열어 테스트용 웹사이트에 간단한 웹 서버에 빠르게 접근했다. 클라우드의 작업에 따라 웹사이트는 1990년대 테마의 양호한 웹 페이지를 제공했다. 사용자가 결과로 생성된 웹사이트에서 문제 수정을 요청하자 클라우드는 편집 프로그램으로 돌아가 문제가 된 코드 스니펫을 찾아 삭제했다.
 
[사진=Freepik]
[사진=Freepik]

앤트로픽 최고 제품 책임자 마이크 크리거(Mike Krieger)는 앤트로픽이 이른바 AI 에이전트로 사무실의 일상 잡무를 자동으로 처리하여 인간이 다른 영역에서 생산성이 더 높은 일을 자유롭게 처리하는 미래를 원한다고 밝혔다. 크리거는 “오랜 시간을 소요하는 복사, 붙이기 작업이나 직접 처리해야 할 간단한 일을 할 필요가 없다면, 어떨까? 나라면, 기타를 치면서 여유 시간을 즐길 것이다”라고 말했다.

앤트로픽은 API로 현재 앤트로픽의 가장 강력한 멀티모달 대규모 언어 모델인 클라우드 3.5 소넷(Claude 3.5 Sonnet)에 활용할 에이전트 실행 능력을 개발했다. 동시에 소규모 버전으로 개선된 신규 모델인 클라우드 3.5 하이쿠(Claude 3.5 Haiku)도 공개했다.

AI 에이전트 데모는 놀라웠으나 AI 에이전트가 짜증이나 비용 부담을 유발하는 오류 없이 실제 생활에서 신뢰할 수 있는 작업 실행 능력을 입증하는 일은 어려울 수도 있다. 현재 출시된 대규모 언어 모델은 인간과 비슷한 수준으로 질문에 답변하고 대화를 이어갈 수 있다. 바로 오픈AI의 챗GPT, 구글의 제미나이(Gemini) 등 생성형 AI 챗봇의 중추이다. AI는 컴퓨터 화면으로 접근할 때는 물론이고, 키보드, 트랙패드 등 입력 장치를 사용할 때나 저사양 소프트웨어 인터페이스를 사용할 때 간단한 명령어를 입력하여 컴퓨터에서 작업을 처리할 수 있다.

앤트로픽은 클라우드가 AI 에이전트의 소프트웨어 개발 역량을 측정하는 SWE-벤치(SWE-bench)와 AI 에이전트의 컴퓨터 운영체제 활용 능력을 평가하는 OS월드(OSWorld) 등 복수 핵심 벤치마크에서 다른 기업의 AI 에이전트보다 높은 성적을 거둔 사실을 공개했다. 앤트로픽의 클라우드 AI 에이전트 벤치마크 테스트 결과는 독자적으로 검증할 필요가 있다. 앤트로픽은 클라우드가 OS월드에서 테스트 시간 중 14.9%에 해당하는 시간 동안 작업을 정확하게 수행했다고 밝혔다. 작업 수행 정확도가 평균 75인 인간의 능력에는 못 미치는 수준이지만, 평가 당시 정확한 작업 수행 시간이 7.7%였던 오픈AI의 GPT-4 등 최고 수준의 AI 에이전트와 비교하면, 매우 우수한 편이다.

앤트로픽은 일부 기업이 이미 클라우드 에이전틱 버전을 테스트 중이라고 주장했다. 현재 클라우드 에이전틱 버전을 사용하는 기업 중에는 디자인, 편집 자동화 툴 개발사 칸바(Canva), 코딩 작업 처리 프로그램 개발사 레플릿(Replit) 등이다. 더브라우저컴퍼니(The Browser Company), 아사나(Asana), 노션(Notion) 등도 클라우드 에이전틱 버전을 초기에 채택했다.

SWE-벤치 개발 작업을 도운 프린스턴대학교 대학원 소속 연구원인 오피르 프레스(Ofir Press)는 AI 에이전트는 미래를 고려한 계획 수립 능력이 없으며, 종종 오류를 해결하는 데 어려움을 겪는다고 말했다. 그는 “AI 에이전트를 유용하게 활용하려면, 평가 기준이 까다로운 실제 벤치마크에서 높은 성능을 확보해야 한다”라며, 신뢰할 수 있는 장거리 여행 계획 설정, 여행에 필요한 모든 티켓 예매 등을 예시로 언급했다.

카플란은 클라우드가 이미 놀라울 정도로 문제를 훌륭하게 해결한다는 점에 주목했다. 웹 서버 실행 도중 터미널 오류가 발생했을 때 클라우드는 이미 명령어를 수정하여 문제를 해결할 방법을 알고 있었다. 또한, 작업 소요 시간을 예측할 수 없는 웹 브라우저 실행 시 팝업 여러 개를 동시에 띄운 채로 작업을 처리했다.

현재 복수 테크 기업이 시장 점유율과 기업 인지도 확보를 위해 AI 에이전트 개발 경쟁에 뛰어들었다. 실제로 많은 사용자가 AI 에이전트를 이용하여 작업을 처리할 날이 머지않아 다가올 것으로 보인다. 오픈AI에 130억 달러를 투자한 마이크로소프트는 윈도 컴퓨터를 사용하는 에이전트를 테스트 중이다. 앤트로픽에 거액을 투자한 아마존은 에이전트의 고객을 위한 제품 추전, 구매 능력을 탐색 중이다.

AI 기업 투자에 집중하는 벤처캐피털 세쿼이아(Sequoia) 파트너 소냐 황(Sonya Huang)은 AI 에이전트 관련 관심 속에서 대다수 기업이 AI로 역량을 강화한 툴을 재구성 중이라고 전했다. 황은 앤트로픽의 발표에 앞서 와이어드와의 인터뷰에서 AI 에이전트 기술은 현재 코딩 관련 작업 등 협소한 도메인에서 가장 훌륭한 작업 실행 능력을 선보인다고 전했다. 이어, “AI 에이전트가 작업을 제대로 처리하지 못할 때 문제가 발생하는 영역을 선택해야 한다. AI 에이전트 기업이 실제로 주목할 만한 능력을 입증할 부분은 문제 영역이다”라고 말했다.

AI 모델 에이전틱 버전의 핵심 난제는 무시할 수 있는 불필요한 답을 보내는 챗봇보다 훨씬 더 큰 문제를 일으킬 수 있다는 점이다. 앤트로픽은 사용자의 신용카드를 이용한 상품 구매 능력 제한 등 클라우드가 실행하는 작업을 제한했다.

AI 에이전트의 오류를 충분히 피할 수 있다면, 사용자는 AI와 컴퓨터를 전혀 다른 방식으로 학습하게 될 것이다. 이에, 프레스 연구원은 “AI 에이전트가 대중화된 새 시대는 매우 흥미로울 것이다”라고 전했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Anthropic Wants Its AI Agent to Control Your Computer
이 기사를 공유합니다
RECOMMENDED