Czy AI jest przyszłością Hollywood?

William Osmon

Follow

Sep 27,

Photo Credit –

With large-skali globalne filmy raking in miliardy (Avengers Endgame wykonane 2.796 mld USD) w kasie, każdy, kto ma środki, chciałby spróbować tego samego. Ale z kosztów produkcji dla blockbuster filmów (Avengers Endgame budżet 356 mln USD), tylko najbardziej dochodowych firm może sobie pozwolić na produkcję takich monumentalnych sukcesów. Ale co by się stało, gdyby więcej ludzi z kreatywnymi pomysłami miało możliwość produkowania hollywoodzkich filmów za niewielki procent kosztów? Dzięki potędze sztucznej inteligencji oraz połączeniu innych technologii i technik możemy być na skraju rewolucji technologicznej, jakiej jeszcze nie było.

Jak SI może wpłynąć na jakość sceny?

Czas produkcji filmów na dużą skalę jest różny, a poziom szczegółowości różni się ze względu na priorytet sceny, priorytet filmu, zmiany w ostatniej chwili i wiele innych czynników. Czas jest głównym czynnikiem decydującym o różnicy między oszałamiającymi obrazami cyfrowymi 4k, które wyglądają jak sfilmowane sceny (Avatar Jamesa Camerona), a rzeczami, które nie wyglądają zbyt dobrze, jak scena walki w Czarnej Panterze Marvela, gdzie bohater i antagonista wpadają na minę pod koniec filmu. SI byłaby w stanie skompilować złożone obrazy znacznie szybciej niż którykolwiek z naszych najbardziej utalentowanych artystów.

Ale jak by to działało? I czy mamy technologię, aby to się stało?

Ten artykuł próbuje odpowiedzieć na te pytania, omawiając niektóre z technologii, które obecnie posiadamy i jak można je wykorzystać do zbudowania hollywoodzkiej SI.

Rozpoznawanie twarzy

Photo Credit –

Już teraz używamy rozpoznawania twarzy na co dzień. Sztuczna inteligencja jest już w stanie dość precyzyjnie rozpoznawać twarze. System rozpoznawania twarzy weryfikuje wizerunek danej osoby poprzez analizę wzorów obecnych na twarzy. Biorąc te punkty danych i porównując je z zestawem, który obejmuje sposób poruszania się twarzy w określonych kontekstach, takich jak mowa lub reakcja emocjonalna, komputer może przypisać wartości i manipulować danymi twarzy, aby wymusić wynik. Wyniki te mogą zostać wykorzystane do wykonania cyfrowego ruchu ust w celu dopasowania ich do określonych danych. Sztuczna inteligencja wykorzystałaby to do skonstruowania nieruchomych klatek, jedna po drugiej, przedstawiających twarz postaci zmierzającej do określonego celu, na przykład wyrecytowania danego ciągu znaków. Można to uczynić jeszcze bardziej złożonym poprzez dodanie reszty sceny, reakcji na otoczenie, reakcji na inne postacie lub okoliczności. Znalezienie danych do wytrenowania takiej SI to prawdopodobnie najłatwiejsza część. Istnieje mnóstwo plików źródłowych dla tego typu danych, które można znaleźć w nagraniach motion capture. Oczywiście jest to zbyt uproszczone wyjaśnienie, ale w zakresie tego postu, nie ma diabła w tych szczegółach.

Generowanie i symulacja sztucznego świata

Kolejnym kluczowym punktem w dążeniu do znalezienia AI budującej film jest generowanie i symulacja sztucznego świata. Film zbudowany w całości przez SI miałby miejsce w całkowicie cyfrowym świecie. Wprawdzie można by wstawić cyfrowy materiał filmowy, którym komputer mógłby manipulować, ale to nie jest tak fajne jak świat zbudowany całkowicie bez wpływu człowieka. Mamy już tego typu technologię i jest ona wykorzystywana w grach wideo. Proceduralnie generowane światy nie są niczym nowym i istnieją w pewnej formie od 1991 roku, kiedy to wydano grę Sid Meyer’s Civilization. Technologia proceduralna stale się rozwija w ciągu prawie trzech dekad od tego czasu i osiągnęła odczuwalny szczyt w 2016 No Man’s Sky, gdzie pozaziemskie światy, flora i fauna są proceduralnie generowane do dwustu pięćdziesięciu sześciu oddzielnych galaktyk. Ale co to oznacza dla filmów? Kiedy scenariusz określa coś w stylu „futurystyczny dystopijny świat z elementami wzornictwa z początku XX wieku”, widzowie nie dostaną przemalowanej wersji Nowego Jorku, ale proceduralnie wygenerowany świat, który czerpie inspiracje z architektury początku XX wieku. Byłaby to z pewnością mile widziana zmiana. Resident Evil nie byłby już kręcony w Toronto, ale w proceduralnie generowanym Raccoon City. Dodanie zmiennych i nierozpoznawalnych lokalizacji może tylko zwiększyć immersję widzów.

Symulatory fizyczne

Photo Credit – Pexels

Oprócz reagowania na nasze otoczenie, tworzymy cyfrowo zupełnie nowe środowiska. A najciekawsze jest to, że środowiska, które tworzymy, reagują na nas w prawie taki sam sposób, jak nasze naturalne. Środowiska te, zazwyczaj wykorzystywane w grach wideo, modelują świat rzeczywisty pod względem tekstur, oświetlenia i fizyki. Za kilka lat, a może nawet za dekadę lub dwie, sztuczna inteligencja mogłaby zostać wykorzystana do modelowania zachowań jednostek i zwierząt w dużych grupach, aby budować miasta i zachowania na dużą skalę, które odzwierciedlają nasze własne. Nvidia, jeden z wiodących producentów technologii grafiki komputerowej, udostępniła w zeszłym roku swój symulator PhysX na zasadach open-source. Dzięki decyzjom takim jak ta, każdy kto posiada know-how może wnieść swój wkład do bogactwa wiedzy, którą obecnie posiadamy i rozwijamy.

Deepfakes

Deepfakes to obrazy i filmy wideo, które wykorzystują widzenie komputerowe i podobne technologie do nakładania na siebie twarzy i dźwięku w celu stworzenia czegoś nowego. Filmy wykorzystujące te techniki już od jakiegoś czasu krążą po Internecie. Pomijając potencjalne zagrożenia bezpieczeństwa, które mogą pojawić się wraz z rozwojem tej technologii, dotychczasowe rezultaty okazały się zarówno zaskakujące, jak i zabawne. Istnieje już precedens wykorzystania technik Deepfake w filmie. Słynny Peter Cushing został wskrzeszony do roli Tarkina w filmie Gwiezdne Wojny Rogue One. I już na pierwszy rzut oka widać, że był to bardzo przekonujący występ. Idealne połączenie cyfrowych obrazów z twarzą żywego wykonawcy jest dość trudne. Gdy do roli Lei Organy, również w Rogue One, potrzebna była młodsza wersja Carrie Fisher, artyści wmieszali wizerunki zmarłej aktorki w twarz żyjącej Ingvild Delii. Zastosowane techniki, choć godne uwagi, nie są doskonałe. Każda osoba oglądająca tę scenę byłaby w stanie wskazać, że to, co widzi, to w rzeczywistości nie Carrie Fisher. Ale co by było, gdyby Deepfake nie został wykonany przez artystę, lecz przez maszynę? Czy byłoby lepiej? Prawdopodobnie. To, co świat zobaczył w Rogue One, było dziełem artystów motion capture, ale co by było, gdyby motion capture nie było już potrzebne?

Algorytmy behawioralne

Są kolejnym kluczowym punktem. Choć nie są one od razu widoczne jako konieczność, tego rodzaju algorytmy byłyby potrzebne w każdej scenie z udziałem dużej liczby ludzi lub zwierząt. Ludzie i zwierzęta zachowują się w przewidywalny sposób w dużych grupach w odpowiedzi na pewne bodźce. Na przykład, jeśli film miałby obejmować atak obcych lub hordę nieumarłych, komputer musiałby być w stanie modelować zachowanie grupy, aby stworzyć dokładną scenę. Używając danych takich jak te, bardziej masywne scenariusze mogłyby być tworzone i analizowane poprzez ekstrapolację punktów, a film sportretowałby naturalne ludzkie reakcje na zagrożenia, prowadząc do o wiele bardziej przekonującej i przerażającej sceny.

Cyfrowe postacie z podobizn celebrytów

Photo Credit – Unsplash

Jedną z najbardziej ekscytujących perspektyw tej potencjalnej technologii jest dodana możliwość komputerowego generowania osobowości opartych na osobowościach celebrytów z przeszłości. Istnieje wiele gwiazd sceny i ekranu, które odeszły, ale są pamiętane z sentymentem dla ich wyjątkowych talentów. Możliwość włączenia tych postaci do przyszłych filmów może w niedalekiej przyszłości nie być wytworem magii czy science fiction. Analizując wzorce, maszyny mogłyby modelować zachowanie postaci i odtworzyć dokładny model. Chociaż może to nie być etycznie koszerne, już teraz istnieje precedens dla tego typu technologii w filmach. Oczywiście nie jest to ograniczone do wskrzeszania wykonawców, ale ten sam rodzaj technologii mógłby być zastosowany do współczesnych aktorów/aktorek, aby ponownie wyobrazić sobie ich postacie jako inne wiekowo lub gatunkowo. Miałoby to dodatkową korzyść dla wykonawców, którzy nie musieliby nosić niewygodnych protez lub poddawać się zmianom cielesnym, aby odegrać określoną rolę.

Microsoft text to image

Although in its infancy, currently, Microsoft has developed a technology that generates images from text. Użytkownicy mogą wprowadzić prosty opis, a program wygeneruje na jego podstawie obraz. Z bliska, nie jest on fantastycznie szczegółowy. Z daleka jednak, obraz jest zaskakująco dokładny. Można sobie łatwo wyobrazić, jak wyraźne staną się tego typu obrazy w przyszłości. Z bardziej zaawansowaną wersją tego, użytkownik mógłby wprowadzić o wiele bardziej szczegółowe dane i otrzymać w zamian obraz przypominający życie. Połącz wszystkie te obrazy razem i masz segment filmu.

Tłumaczenie mowy – Filmy produkowane naturalnie w innych językach

Globalne wydania, takie jak Gwiezdne Wojny i filmy Marvela, używają zespołów aktorów podkładających głos, aby wykonywać linie postaci, więc osoby posługujące się językami innymi niż angielski mogą również oglądać film. Ale dubbingowane i subbingowane filmy nie są w stanie zapewnić takiego poziomu immersji jak filmy w języku ojczystym, to oczywiste. Ludzie są stworzeni do tego, by widzieć mowę tak samo jak ją słyszeć, to część tego, jak uczymy się mówić jako dzieci. Kiedy słyszymy nagraną mowę, jak w filmie, naturalnie oczekujemy, że to co widzimy (usta aktorów) będzie odzwierciedlało dźwięk. W filmach dubbingowanych tak nie jest. Jednak łącząc technologie, możemy znaleźć rozwiązanie tego problemu. Biorąc elementy algorytmów Deepfake i mieszając je z usługami takimi jak Microsoft Speech Translation, możemy być w stanie stworzyć program, który automatycznie przetłumaczy mowę wykonawców z dodatkowym bonusem w postaci zbliżonej do życia artykulacji traktu głosowego, na którą możemy spoglądać krytycznym okiem.

Modelowanie stylów reżyserskich

Tak wiele w filmie zależy od reżysera. Reżyser jest pierwszą linią obrony, jaką mamy między straszną stratą czasu a artystycznym arcydziełem. Reżyserzy, podobnie jak wykonawcy w filmach, też są ludźmi, i jak wszyscy ludzie nie trwają wiecznie. I tak jak aktorzy, każdy reżyser wnosi cały zbiór zaawansowanych technik filmowych, innowacji i praktyk, które mogą być analizowane przez maszyny w celu wiernego odtworzenia. Dzięki takim technikom świat mógłby zobaczyć film Napoleon, którego Stanley Kubrick nigdy nie nakręcił.

Filmy SI mogą być dokładniejsze niż „prawdziwe” filmy

Photo Credit – Unsplash

Jednym z najciekawszych czynników w tym temacie jest hiperrealizm. Sztuczna inteligencja wchodzi w interakcje z matematyką. Nie ma ludzkich oczu, uszu, ani emocji. Zajmuje się liczbami i wzorami. To właśnie produkt tych operacji jest najbardziej intrygującym aspektem sztucznej inteligencji. Film „Interstellar” pokazał widzom produkt zaawansowanych algorytmów obliczeniowych pracujących w tandemie z efektami wizualnymi, aby stworzyć oszałamiający obraz czarnej dziury. Czarna dziura w Interstellar została po raz pierwszy pokazana widzom w 2014 roku. Nie wiedzieliśmy, jak faktycznie wyglądają, aż do kwietnia 2019 roku. Obraz wytworzony przez komputer jest uderzająco podobny do rzeczywistego zdjęcia. Podając scenariusze do poruszającego się tworzenia AI, możemy po prostu zobaczyć na własne oczy, co zaawansowana nauka spieszy się, aby odkryć.

Co to oznacza dla edukacji

Dobrodziejstwa dla edukacji są bezprecedensowe z tego typu technologią. Filmy historyczne są właśnie takie, historyczne. Chociaż wiele pracy zostało wykonane w zakresie kolorowania starych zdjęć, proces ten jest bardzo czasochłonny i kosztowny. Obrazy mówią 1000 słów, ale co by było, gdyby te obrazy mogły mówić. Na przykład, przemówienie Lincolna z Gettysburga zostało wygłoszone przed pojawieniem się technologii nagrywania i zostało utracone przez czas. Ale wydarzenia tak ważne historycznie jak to mogą być cyfrowo zrekonstruowane przy użyciu zaawansowanych technologii. Wiemy, jak Lincoln wyglądał, jak mówił i jak myślał, dzięki relacjom współczesnych mu osób. Wprowadzając te informacje do programu, można by stworzyć nową cyfrową wersję 16. prezydenta Ameryki, aby edukować młodzież na tematy dotyczące jednego z najbardziej zmiennych okresów w historii Ameryki. The Gettysburg Address to tylko jeden mały przykład tego, co można by osiągnąć.

Podsumowanie

W niniejszym przeglądzie omówiono potencjał wykorzystania AI do konstruowania filmów. Możemy użyć uczenia maszynowego i rozpoznawania wzorców, aby całkowicie odmienić filmy, telewizję i edukację. Poprzez połączenie aspektów technologii i technik, które obecnie stosujemy, powstanie zupełnie nowy proces tworzenia filmów, który na zawsze zmieni świat mediów. Deepfakes, rozpoznawanie mowy, przetwarzanie języka i algorytmy behawioralne – wszystkie te elementy odegrają rolę w przyszłości filmu i telewizji. Przyszłość jest obiecująca, ale musimy współpracować, aby zapewnić jej odpowiedzialne traktowanie.

Jeśli żaden z poprzednich punktów nie przekonał cię, jak ważna jest ta technologia teraz i będzie bardzo szybko, pamiętaj… Może być użyta do remake’u 8. sezonu Gry o tron.

Dzięki za przeczytanie!

Dodaj komentarz