본문 바로가기 주메뉴 바로가기 검색 바로가기
오픈AI 소라, AI 명령어를 사진처럼 현실적인 ‘영상’으로 변환
상태바
오픈AI 소라, AI 명령어를 사진처럼 현실적인 ‘영상’으로 변환
오픈AI의 생성형 AI 영상 분야 진출은 인상적인 첫 단계라고 평가할 수 있다.
By STEVEN LEVY, WIRED US

오픈AI의 챗봇이 법학 대학에 입학한 적이 없으나 로스쿨 시험에 합격한 사실은 이미 널리 알려진 사실이다. 이제 오스카상 시상식 일정을 앞둔 가운데, 오픈AI의 새로운 앱인 소라(Sora)가 영화 전문학교에 입학하지 않아도 영화계 거장이 되고자 한다. 현재 연구 단계에 해당하는 앱으로 출시된 소라는 안전 취약점을 살펴볼 레드팀을 이끌고자 소수로 선정된 크리에이터와 보안 전문가에게 전달된다. 오픈AI는 구체적으로 밝혀지지 않은 언젠가는 아마추어 영화 제작자가 되고자 하는 사용자 누구나 접할 수 있도록 소라를 출시하고자 한다. 하지만 그에 앞서 안전 문제를 사전 검토하기로 정했다.

구글과 같은 테크 업계 대기업부터 런웨이(Runway)와 같은 스타트업까지 많은 기업이 이미 텍스트 기반 영상 변환 AI 프로젝트를 공개했다. 그러나 오픈AI는 놀라울 정도로 실물과 같은 사진을 영상으로 제작한다는 점과 다른 모델이 일반적으로 선보인 일시적인 스니펫보다 더 긴 영상을 생성할 능력을 소라의 차별화된 요소로 지목했다. (필자는 다른 생성형 AI 기반 영상 제작 툴 중 실물과 같은 사진을 영상으로 제작한 툴을 본 적이 없다.) 필자와 대화한 개발자는 모든 영상을 생성하는 데 걸리는 시간을 말하지 않았다. 그러나 영상을 압축할 때 며칠이 걸리기 보다는 야구장에서 부리또를 구매하는 것과 같은 속도로 신속하게 처리된다고 말했다. 필자는 샘플 영상을 보고, 오픈AI 개발자의 설명을 즉시 이해할 수 있었으며, 소라를 개발하는 데 노력할 만한 가치가 있다고 판단했다.

오픈AI는 필자에게 직접 명령어를 입력할 기회를 주지 않았다. 대신, 소라의 역량을 볼 수 있는 4가지 예시를 공유했다. (예시로 접한 영상 중 1분으로 제한된 영상은 없었다. 가장 긴 영상은 17초짜리 영상이었다.) 첫 번째 영상은 작업에 지나치게 몰두한 극작가가 작성한 듯한 상세한 명령어에 따라 제시한 결과물이었다. 명령어는 “아름답게 눈이 내린 도쿄의 분주한 모습을 담아라. 카메라는 분주한 도시 길거리를 따라 이동하면서 아름답게 눈이 내리는 날씨를 즐기고, 근처 가판대에서 쇼핑을 즐기는 사람의 모습을 따라가라. 매력적인 벚꽃잎이 눈송이와 함께 바람을 타고 이동하는 모습도 담아라”라고 작성되었다.

그 결과, 흠잡을 데 없는 도쿄시 전경과 함께 눈송이와 벚꽃잎이 함께 흩날리는 마법과 같은 순간을 확실하게 담아냈다. 가상 카메라는 드론에 장착된 것처럼 천천히 길거리를 걷는 커플의 모습을 담아냈다. 행인 중에는 마스크를 착용한 이도 있었다. 커플의 왼쪽에는 강변도로에 차량이 분주하게 오가는 모습이, 오른쪽에는 쇼핑객이 작은 상점을 줄지어 오가는 모습이 있었다.
 
[사진=Unsplash]
[사진=Unsplash]

결과물은 완벽하지 않았다. 영상을 몇 차례 보아야만 영상에서 초점을 맞춘 주인공인 커플이 가상 카메라를 계속 실행할 때 딜레마를 겪을 수 있다는 점을 깨닫게 된다. 커플이 이동한 보행로는 끝나는 지점이 없는 듯한 모습이었다. 작은 가드레일에서 오른쪽에 이상하게 이어진 평행 보행로를 따라 이동해야 한다. 약간의 결함이 있지만, 도쿄 영상 예시는 세계를 형성하는 놀라운 예시였다. 추후 프로덕션 디자이너가 소라를 두고 강력한 협력 수단인지 혹은 일자리를 빼앗을 기술인지 논의할 것이다. 또한, 100% 디지털 신경망으로 제작한 해당 영상은 클로즈업 장면을 보여주지 않았으며, 감정도 드러나지 않았다. 그러나 소라 제작팀은 다른 예시로 실제와 같은 감정을 보여주는 가짜 배우의 모습을 보여주었다.

나머지 예시 영상의 결과물도 인상적이었다. 특히, 작은 털복숭이 괴물이 붉은 양초 옆에 무릎을 구부리는 애니메이션 영상을 제작하라는 조건과 함께 넓은 눈과 입을 벌린 상태 등 몇 가지 상세한 지시 사항을 명령어로 입력한 뒤 나온 영상이 인상적이었다. 해당 영상의 명령어에는 영상에 적합한 분위기 설명도 추가되었다. 소라는 퍼비(Gremlin), 그렘린(Gremlin), 몬스터주식회사(Monsters, Inc)의 설리와 비슷한 픽사와 같은 캐릭터를 생성하기도 했다. 필자는 몬스터주식회사가 개봉된 때를 기억한다. 당시 픽사는 괴물이 주변을 이동할 때 털 질감 제작의 매우 복잡한 특성을 생성하기 어려운 점을 매우 중요한 조건으로 다루었다. 픽사는 오랜 시간 공들여 적합한 모습을 구현했다. 오픈AI가 새로이 선보인 텍스트 기반 영상 변환 툴은 픽사도 어려움을 겪었던 작업을 순식간에 해냈다.

소라 프로젝트 연구 과학자 팀 브룩스(Tim Brooks)는 털복숭이 괴물의 털 질감 표현 작업을 이야기하면서 “AI 모델은 3D 기하학과 일관성을 학습했다. 프로젝트팀은 별도로 털의 질감을 구현하는 AI 모델 훈련 및 개발 작업을 하지 않았다. 모두 다량의 훈련 데이터에서 등장한 듯했다”라고 말했다.

영상 자체는 매우 인상적이지만, 소라의 역량 중 가장 놀라운 점은 별도로 훈련받지 않은 작업을 처리하는 능력이다. 오픈AI의 이미지 생성 프로그램 DALL-E 3와 트랜스포머 기반 엔진 GPT-4가 사용하는 디퓨전 모델을 바탕으로 한 소라는 명령어 요구사항을 충실히 반영한 영상을 대거 생성하는 데 그치지 않고, 시네마틱 그래머를 새로이 이해하는 듯한 모습을 보여주면서 영상을 생성하기도 한다.

이는 다양한 스토리텔링에도 전환된다. 오픈AI가 예시로 보여준 또 다른 영상은 “매력적인 종이접기 예술로 제작된 산호초와 색상이 화려한 물고기, 해양 생물이 풍부한 세계”를 생성하라는 명령을 바탕으로 완성됐다. 소라 프로젝트에 참여한 또 다른 연구원 빌 피블스(Bill Peebles)는 소라가 카메라 각도와 시간에 따라 요지를 이야기하는 서사도 생성한 점에 주목했다. 피블스는 “여러 장면이 바뀌었다. 다양한 요소로 제작된 것이 아니지만, AI 모델이 한 번에 생성했다. 모델에 별도로 서사를 제작하라는 지시를 하지 않았으나 자동으로 서사도 추가했다”라고 말했다.

필자가 보지 않은 예시 영상 중 소라가 동물원 투어 영상을 제작하라는 명령어에 따라 내놓은 결과물도 했다. 피블스는 “동물원 투어 영상은 동물원 이름이 새겨진 거대한 안내판과 함께 시작한다. 서서히 아래로 이동하면서 동물원 내 다양한 동물의 모습을 보여주는 장면으로 바뀐다. 명령어로 별도로 지시한 바가 없는데도 멋진 시네마틱 기법을 적용했다”라고 전했다.

오픈AI 측이 공개하지 않은 데다가 한동안 공개되지 않을 것으로 보이는 소라의 기능 중 이미지 하나나 일련의 프레임을 생성하는 능력을 언급할 수 있다. 브룩스는 “스토리텔링 역량을 개선할 멋진 방법이다. 스스로 염두에 둔 이미지를 정확하게 그린 뒤 생동감을 더하도록 애니메이션 기법을 적용한다”라고 말했다. 오픈AI는 해당 기능이 딥페이크와 거짓 정보를 생성할 위험성이 있다는 점을 인지하고 있다. 피블스는 “소라의 모든 안전 여파를 매우 신중하게 고려하고 있다”라고 말했다.

소라에도 DALL-E 3처럼 폭력 금지, 포르노 금지, 실제 인물이나 특정 아티스트의 화풍 반영 지시 금지 등 콘텐츠 제한 사항이 존재할 것으로 예상된다. 또한, DALL-E 3와 마찬가지로 오픈AI는 영상 시청자를 위해 AI가 제작한 결과물을 확인할 방법을 제공할 예정이다. 게다가 오픈AI는 안전 및 진실성이 한 기업만의 문제보다는 더 큰 규모로 진행 중인 문제라고 언급했다. DAELL-E 팀 수석 연구원 겸 총괄인 아디티야 라메쉬(Aditya Ramesh)는 “거짓 정보 해결책은 DALL-E 팀에서도 어느 정도 완화 조처를 적용하고자 한다. 게다가 사회의 이해와 SNS 미디어의 변경 사항도 어느 정도 필요하다”라고 말했다.

추후 발생할 수 있는 또 다른 문제는 소라가 생성하는 영상의 저작권 침해 가능성이다. 피블스는 “훈련 데이터는 오픈AI가 라이선스 계약을 체결한 곳과 공개적으로 접근할 수 있는 콘텐츠를 통해 얻는다”라고 답변했다. 물론, 오픈AI가 피소된 여러 건의 소송도 공개적으로 접할 수 있는 저작권 보호 콘텐츠의 AI 훈련 목적 사용 적합성 여부를 판단하는 데 어려움을 줄 수 있다.

텍스트를 영상으로 변환하는 AI 툴이 실제 영화 제작 산업을 위협하는 날이 오더라도 꽤 오랜 시간이 걸릴 것이다. 1분짜리 소라 영상 총 120여 개를 결합하여 일관성이 있는 영화를 완성할 수는 없다. AI 모델이 같은 방식으로 명령어에 응답하지 않아 지속성이 가능하지 않기 때문이다. 그러나 시간제한은 소라와 틱톡, 릴스 등 여러 SNS 플랫폼을 비롯한 다양한 프로그램의 장벽이 되지는 않는다. 피블스는 “전문가 수준의 영화를 제작하려면, 고가 장비가 필요하다. 소라는 누구나 SNS 영상을 제작하여 고급 콘텐츠를 완성할 능력을 부여한다”라고 전했다.

현재 오픈AI는 소라가 거짓 정보를 연속으로 생성하면서 피해가 발생하는 일이 없도록 보장하기 위한 중대한 작업을 직면했다. 그러나 그 후에는 AI 모델에 명령어를 입력하는 마법만으로 차세대 크리스토퍼 놀란 감독이나 셀린 송 감독이 등장하여 오스카상을 수상하는 날이 오는 것은 시간문제가 될 것이다. AI 모델도 오스카상 수상 후보가 되어 초대장을 받는 날이 올 것이다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos
이 기사를 공유합니다
RECOMMENDED