AI 영상 생성 프로그램, 중대한 전환점 직면

By WILL KNIGHT, WIRED US

지난 한 달간 인공지능(AI)이 제작한 놀라울 정도로 훌륭한 영상 밈 몇 개를 접한 적이 있을 것이다. 해리포터를 발렌시아가 광고로 재구성한 영상과 윌 스미스가 스파게티를 먹는 모습을 담은 매우 어두운 배경이 등장하는 영상 모두 최근 들어 널리 확산되었다. 두 영상 모두 AI의 영상 생성 능력을 강조하는 동시에 일각에서 AI 기반 영상 제작 기능을 악용할 문제 발생 가능성을 부각한다.

AI로 제작한 영상 확산은 2022년, AI 이미지 제작 툴이 널리 확산되었던 순간을 떠올리게 한다. 2022년, DALL-E 미니(DALL-E Mini)라는 이름으로도 알려진 크레용(Craiyon)과 같은 프로그램이 어딘가 부족하면서 종종 초현실적이지만, 인식 가능한 이미지를 제작할 수 있는 기능을 선보였다. 그 결과, 주유소를 습격하여 물품을 강탈하는 아기의 감시 영상과 법정에 선 다스베이더, 크레파스를 먹는 일론 머스크의 모습 등이 탄생했다.

크레용은 챗GPT 개발사이기도 한 오픈AI가 현재 신중한 제한 조치를 적용한 채로 개발한 이미지 생성 프로그램 DALL-E 2의 오픈소스 복제 프로그램이다. DALL-E 2는 텍스트 명령어를 사실적인 사진과 인간이 그린 듯한 일러스트레이션으로 변환할 능력을 가장 먼저 선보였다. 이후 DALL-E는 누구나 사용할 수 있도록 배포되었으며, 이후 미드주어니(Midjourney), 드림스튜디오(Dream Studio) 등과 같은 프로그램이 개발되면서 비슷한 AI 기반 이미지 생성 툴을 개선하였다. 그 결과, 복잡하면서 사실적인 이미지 생성 작업이 키보드를 몇 차례 누르기만 하면 완료할 수 있는 비교적 간단한 작업이 되었다.

엔지니어가 이미지 생성 툴의 알고리즘을 살짝 변경하면서 훈련 데이터를 추가한 데다가 모든 기능을 실행할 GPU 칩 비용을 추가로 부담하면서 이미지 생성 툴이 사실을 조작할 정도로 매우 훌륭한 이미지 생성 능력을 갖추게 되었다. 기이한 AI 이미지가 탄생하는 데 일조한 서브레딧의 몇 가지 예시를 알고자 한다면, 동성애자 행사의 행진 행렬에 동참한 음모론자 알렉스 존스(Alex Jones)의 모습이나 뒷마당 창고의 저가 물품 판매 현장에 등장한 계약의 궤(Ark of the Covenant) 이미지를 찾아보기를 바란다.

AI 이미지 생성 기술 접근성이 널리 확산된 데다가 AI의 이미지 생성 능력이 정교해지면서 온라인 이미지를 보는 방식을 다시 생각할 수밖에 없는 상황이 되었다. 특히, 도널드 트럼프의 체포 합성 사진이 널리 확산된 후 온라인에서 보는 사진을 모두 진짜라고 믿기 어려워졌다. 도널드 트럼프 체포 합성 사진 확산은 미드주어니가 무료 시험 서비스 제공 중단을 발표하는 계기가 되었다. 악의적인 의도로 무료 서비스를 열성적으로 사용하는 일부 사용자의 접근을 막을 조처이지만, AI 생성 툴의 포괄적인 문제는 전혀 다루지 않았다.

와이어드 아만다 후버(Amanda Hoover) 기자가 지적한 바와 같이 알고리즘은 여전히 사용자가 입력한 명령어만으로 신뢰할 만한 영상을 생성하는 데 큰 어려움을 겪고 있다. 여러 개인 프레임을 생성하는 것은 연산 처리 측면에서 비용이 비싸다. 또, 오늘날 등장한 불안하게 조금씩 움직이면서 말하는 모습이 담긴 영상이 보여주는 바와 같이 알고리즘이 설득력이 있는 영상을 생성할 정도로 일관성을 유지하기 어렵다.

하지만 AI 툴은 영상 편집 단계에서 더 많은 기술을 확보하는 추세이다. 발렌시아가 AI 합성 영상은 프렌즈와 브레이킹 배드로 제작한 발렌시아가 합성 광고와 마찬가지로 스틸 이미지를 생성한 뒤 간단한 애니메이션 효과를 더하면서 몇 가지 다양한 AI 툴을 결합하는 방식으로 제작했다. 그러나 최종 결과물은 인상적이다.

전문 이미지 및 영상 생성, 편집 AI 툴 개발 스타트업인 런웨이 ML(Runway ML)은 영상에 멋진 변화를 적용하기 위해 몇 가지 멋진 신규 기법을 추가로 출시하였다. 필자는 런웨이 ML의 신규 기법을 사용해 필자의 반려묘인 레오나의 기존 영상을 바탕으로 구름 위를 걷는 듯한 몽환적인 영상을 제작했다. 영상을 완성하는 데 걸린 시간은 단 몇 분이었다.

다양한 머신러닝 기법은 새로운 가능성을 열어준다. 일례로, 루마 AI(Luma AI)는 2D 사진을 상세한 3D 장면으로 변환하는 NeRF(neural radiance fields) 기법을 이용한다. 루마 AI 앱에 몇 가지 스냅샷을 추가하면, 완벽한 상호작용으로 실행할 수 있는 3D 장면을 완성할 수 있다.

AI로 합성한 영상은 AI 영상 제작의 중대한 전환점에 이르렀음을 시사한다. AI 이미지 생성 툴과 마찬가지로 AI 영상 밈이 갈수록 급격히 증가하는 추세에 앞서 AI 영상의 품질과 제어 기능이 개선돼 모든 부문에 AI 영상 제작 기술을 적용할 수 있는 순간이 다가올 것이다. AI는 일부 예술가의 뮤즈 역할을 할 수도 있을 것이다. 오스카상 수상작인 ‘에브리씽 에브리에어 올 앳 원스(Everything Everywhere All At Once)’의 시각효과 아티스트 팀이 런웨이의 AI 영상 제작 툴을 사용하기도 했다. ‘더 웨일’, ‘블랙스완’, ‘파이’ 등을 제작한 대런 아로노프스키(Darren Aronofsky) 감독도 런웨이의 AI 툴 열성 지지자이다.

사용자는 미드주어니와 드림스튜디오 등의 AI 이미지 생성 툴의 결과물이 발전한 것을 살펴보면, AI 영상 제작 툴의 발전 방향과 실제 영상과 가짜 영상을 구분하기 어려워질 것이라는 사실을 인지할 수 있다. 물론, 많은 사용자가 이미 기존 기술을 이용하여 영상을 조작할 수 있지만, 비교적 비용 부담이 크면서 누구나 널리 사용하기 어렵다.

생성형 AI의 급격한 발전은 SNS가 무기화되고, 딥페이크가 선동 광고 유포 세력의 장난감이 된 시대에 위험성을 입증할 수 있다. 와이어드 제이슨 파험(Jason Parham) 기자가 주장한 바와 같이 인간은 생성형 AI가 꼴사나운 고정관념을 새로이 포착하고 재구성하는 방법을 진지하게 고려해야 할 필요가 있다.

지금은 영상을 신뢰하려는 본능 대부분 믿을 수 있다. 하지만 머지않아 온라인으로 접하는 영상이 이전만큼 완성도가 높지 않고, 신뢰도도 낮은 시대가 올 것이다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
AI Video Generators Are Nearing a Crucial Tipping Point

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다