Photo Credit – Już teraz używamy rozpoznawania twarzy na co dzień. Sztuczna inteligencja jest już w stanie dość precyzyjnie rozpoznawać twarze. System rozpoznawania twarzy weryfikuje wizerunek danej osoby poprzez analizę wzorów obecnych na twarzy. Biorąc te punkty danych i porównując je z zestawem, który obejmuje sposób poruszania się twarzy w określonych kontekstach, takich jak mowa lub reakcja emocjonalna, komputer może przypisać wartości i manipulować danymi twarzy, aby wymusić wynik. Wyniki te mogą zostać wykorzystane do wykonania cyfrowego ruchu ust w celu dopasowania ich do określonych danych. Sztuczna inteligencja wykorzystałaby to do skonstruowania nieruchomych klatek, jedna po drugiej, przedstawiających twarz postaci zmierzającej do określonego celu, na przykład wyrecytowania danego ciągu znaków. Można to uczynić jeszcze bardziej złożonym poprzez dodanie reszty sceny, reakcji na otoczenie, reakcji na inne postacie lub okoliczności. Znalezienie danych do wytrenowania takiej SI to prawdopodobnie najłatwiejsza część. Istnieje mnóstwo plików źródłowych dla tego typu danych, które można znaleźć w nagraniach motion capture. Oczywiście jest to zbyt uproszczone wyjaśnienie, ale w zakresie tego postu, nie ma diabła w tych szczegółach.
Generowanie i symulacja sztucznego świata
Kolejnym kluczowym punktem w dążeniu do znalezienia AI budującej film jest generowanie i symulacja sztucznego świata. Film zbudowany w całości przez SI miałby miejsce w całkowicie cyfrowym świecie. Wprawdzie można by wstawić cyfrowy materiał filmowy, którym komputer mógłby manipulować, ale to nie jest tak fajne jak świat zbudowany całkowicie bez wpływu człowieka. Mamy już tego typu technologię i jest ona wykorzystywana w grach wideo. Proceduralnie generowane światy nie są niczym nowym i istnieją w pewnej formie od 1991 roku, kiedy to wydano grę Sid Meyer’s Civilization. Technologia proceduralna stale się rozwija w ciągu prawie trzech dekad od tego czasu i osiągnęła odczuwalny szczyt w 2016 No Man’s Sky, gdzie pozaziemskie światy, flora i fauna są proceduralnie generowane do dwustu pięćdziesięciu sześciu oddzielnych galaktyk. Ale co to oznacza dla filmów? Kiedy scenariusz określa coś w stylu „futurystyczny dystopijny świat z elementami wzornictwa z początku XX wieku”, widzowie nie dostaną przemalowanej wersji Nowego Jorku, ale proceduralnie wygenerowany świat, który czerpie inspiracje z architektury początku XX wieku. Byłaby to z pewnością mile widziana zmiana. Resident Evil nie byłby już kręcony w Toronto, ale w proceduralnie generowanym Raccoon City. Dodanie zmiennych i nierozpoznawalnych lokalizacji może tylko zwiększyć immersję widzów.
Symulatory fizyczne
Jedną z najbardziej ekscytujących perspektyw tej potencjalnej technologii jest dodana możliwość komputerowego generowania osobowości opartych na osobowościach celebrytów z przeszłości. Istnieje wiele gwiazd sceny i ekranu, które odeszły, ale są pamiętane z sentymentem dla ich wyjątkowych talentów. Możliwość włączenia tych postaci do przyszłych filmów może w niedalekiej przyszłości nie być wytworem magii czy science fiction. Analizując wzorce, maszyny mogłyby modelować zachowanie postaci i odtworzyć dokładny model. Chociaż może to nie być etycznie koszerne, już teraz istnieje precedens dla tego typu technologii w filmach. Oczywiście nie jest to ograniczone do wskrzeszania wykonawców, ale ten sam rodzaj technologii mógłby być zastosowany do współczesnych aktorów/aktorek, aby ponownie wyobrazić sobie ich postacie jako inne wiekowo lub gatunkowo. Miałoby to dodatkową korzyść dla wykonawców, którzy nie musieliby nosić niewygodnych protez lub poddawać się zmianom cielesnym, aby odegrać określoną rolę.
Microsoft text to image
Although in its infancy, currently, Microsoft has developed a technology that generates images from text. Użytkownicy mogą wprowadzić prosty opis, a program wygeneruje na jego podstawie obraz. Z bliska, nie jest on fantastycznie szczegółowy. Z daleka jednak, obraz jest zaskakująco dokładny. Można sobie łatwo wyobrazić, jak wyraźne staną się tego typu obrazy w przyszłości. Z bardziej zaawansowaną wersją tego, użytkownik mógłby wprowadzić o wiele bardziej szczegółowe dane i otrzymać w zamian obraz przypominający życie. Połącz wszystkie te obrazy razem i masz segment filmu.
Tłumaczenie mowy – Filmy produkowane naturalnie w innych językach
Globalne wydania, takie jak Gwiezdne Wojny i filmy Marvela, używają zespołów aktorów podkładających głos, aby wykonywać linie postaci, więc osoby posługujące się językami innymi niż angielski mogą również oglądać film. Ale dubbingowane i subbingowane filmy nie są w stanie zapewnić takiego poziomu immersji jak filmy w języku ojczystym, to oczywiste. Ludzie są stworzeni do tego, by widzieć mowę tak samo jak ją słyszeć, to część tego, jak uczymy się mówić jako dzieci. Kiedy słyszymy nagraną mowę, jak w filmie, naturalnie oczekujemy, że to co widzimy (usta aktorów) będzie odzwierciedlało dźwięk. W filmach dubbingowanych tak nie jest. Jednak łącząc technologie, możemy znaleźć rozwiązanie tego problemu. Biorąc elementy algorytmów Deepfake i mieszając je z usługami takimi jak Microsoft Speech Translation, możemy być w stanie stworzyć program, który automatycznie przetłumaczy mowę wykonawców z dodatkowym bonusem w postaci zbliżonej do życia artykulacji traktu głosowego, na którą możemy spoglądać krytycznym okiem.
Modelowanie stylów reżyserskich
Tak wiele w filmie zależy od reżysera. Reżyser jest pierwszą linią obrony, jaką mamy między straszną stratą czasu a artystycznym arcydziełem. Reżyserzy, podobnie jak wykonawcy w filmach, też są ludźmi, i jak wszyscy ludzie nie trwają wiecznie. I tak jak aktorzy, każdy reżyser wnosi cały zbiór zaawansowanych technik filmowych, innowacji i praktyk, które mogą być analizowane przez maszyny w celu wiernego odtworzenia. Dzięki takim technikom świat mógłby zobaczyć film Napoleon, którego Stanley Kubrick nigdy nie nakręcił.
Filmy SI mogą być dokładniejsze niż „prawdziwe” filmy