Photo Credit – Mit groß angelegtenGroßfilmen, die weltweit Milliarden einspielen (Avengers Endgame spielte 2.796 Milliarden USD) an den Kinokassen einspielen, würde jeder, der die Mittel dazu hat, dasselbe versuchen. Doch angesichts der Produktionskosten für Blockbuster (Avengers Endgame: 356 Mio. USD) können es sich nur die profitabelsten Unternehmen leisten, solch monumentale Erfolge zu produzieren. Was wäre aber, wenn mehr Menschen mit kreativen Ideen die Möglichkeit hätten, Hollywood-Filme zu einem Bruchteil der Kosten zu produzieren? Durch die Macht der künstlichen Intelligenz und eine Mischung aus anderen Technologien und Techniken stehen wir vielleicht kurz vor einer technologischen Revolution, wie es sie bisher noch nicht gegeben hat.
Wie könnte die künstliche Intelligenz die Qualität einer Szene beeinflussen?
Die Produktionszeit bei großen Filmen variiert, und die Detailgenauigkeit variiert aufgrund der Priorität der Szene, der Priorität des Films, Änderungen in letzter Minute und vieler anderer Faktoren. Die Zeit ist der Hauptfaktor für den Unterschied zwischen atemberaubenden digitalen 4K-Bildern, die wie gefilmte Szenen aussehen (James Camerons Avatar), und solchen, die nicht so toll aussehen, wie die Kampfszene in Marvels Black Panther, in der der Protagonist und der Antagonist gegen Ende des Films in eine Mine rasen. Eine KI wäre in der Lage, komplexe Bilder viel schneller zu erstellen als jeder unserer talentiertesten Künstler.
Aber wie würde das funktionieren?
Dieser Artikel versucht, diese Fragen zu beantworten, indem er einige der Technologien erörtert, über die wir derzeit verfügen, und wie sie für den Aufbau einer Hollywood-KI genutzt werden können.
Gesichtserkennung
Wir nutzen Gesichtserkennung bereits täglich. KI ist bereits in der Lage, Gesichter recht genau zu erkennen. Ein Gesichtserkennungssystem überprüft das Bild einer Person, indem es die Muster auf einem Gesicht analysiert. Durch den Vergleich dieser Datenpunkte mit einem Satz, der die Bewegungen von Gesichtern in bestimmten Kontexten, wie Sprache oder emotionale Reaktionen, enthält, kann ein Computer Werte zuweisen und Gesichtsdaten manipulieren, um ein Ergebnis zu erzwingen. Diese Ergebnisse können verwendet werden, um einen digitalen Mund so zu bewegen, dass er bestimmten Daten entspricht. Die KI würde dies nutzen, um Einzelbilder zu erstellen, in denen sich das Gesicht einer Figur auf ein bestimmtes Ziel zubewegt, z. B. das Aufsagen eines bestimmten Satzes. Dies kann noch komplexer gestaltet werden, indem der Rest einer Szene, Reaktionen auf die Umgebung, Reaktionen auf andere Figuren oder Umstände hinzugefügt werden. Die Daten zu finden, um eine solche KI zu trainieren, ist wahrscheinlich der einfachste Teil. Es gibt jede Menge Quelldateien für diese Art von Daten, die in Motion-Capture-Aufnahmen zu finden sind. Natürlich ist dies eine stark vereinfachte Erklärung, aber im Rahmen dieses Beitrags steckt der Teufel nicht im Detail.
Künstliche Welterzeugung und -simulation
Ein weiterer wichtiger Punkt bei der Suche nach einer KI für den Filmaufbau ist die künstliche Welterzeugung und -simulation. Ein Film, der vollständig von einer KI erstellt wird, würde in einer vollständig digitalen Welt stattfinden. Man könnte zwar digitales Filmmaterial einfügen, das der Computer manipulieren könnte, aber das ist nicht annähernd so cool wie eine Welt, die völlig frei von menschlichem Einfluss ist. Diese Art von Technologie gibt es bereits und sie wird in Videospielen eingesetzt. Prozedural generierte Welten sind nichts Neues und gibt es in der einen oder anderen Form bereits seit 1991, als Sid Meyer’s Civilization veröffentlicht wurde. Die prozedurale Technologie hat sich in den fast drei Jahrzehnten seither stetig weiterentwickelt und erreichte 2016 in No Man’s Sky einen spürbaren Höhepunkt, wo außerirdische Welten, Flora und Fauna prozedural generiert werden und bis zu zweihundertsechsundfünfzig separate Galaxien entstehen. Aber was bedeutet das für Filme? Wenn ein Drehbuch etwas wie „eine futuristische, dystopische Welt mit Anleihen an das Design des frühen 20. Jahrhunderts“ vorgibt, bekäme das Publikum keine nachkolorierte Version von New York City zu sehen, sondern eine prozedural generierte Welt, die sich an der Architektur des frühen 20. Das wäre sicherlich eine willkommene Abwechslung. Resident Evil würde nicht mehr in Toronto gedreht, sondern in einer prozedural generierten Raccoon City. Die Hinzufügung variierender und nicht wiedererkennbarer Schauplätze kann die Immersion des Publikums nur verstärken.
Physik-Simulatoren
Nicht nur, dass wir auf unsere Umgebung reagieren, wir erschaffen auch völlig neue Umgebungen auf digitalem Wege. Und das Interessanteste daran ist, dass die von uns geschaffenen Umgebungen fast genauso auf uns reagieren wie unsere natürliche Umgebung. Diese Umgebungen, die typischerweise in Videospielen verwendet werden, bilden die reale Welt in Bezug auf Texturen, Beleuchtung und Physik nach. In ein paar Jahren, vielleicht sogar in ein oder zwei Jahrzehnten, könnte die KI dazu genutzt werden, das Verhalten von Individuen und Tieren in großen Gruppen zu modellieren, um Städte und Verhaltensweisen in großem Maßstab zu konstruieren, die den unseren entsprechen. Nvidia, einer der führenden Hersteller von Computergrafiktechnologien, hat im vergangenen Jahr seinen PhysX-Simulator als Open-Source-Software freigegeben. Durch Entscheidungen wie diese kann jeder, der über das nötige Know-how verfügt, zu der Fülle an Wissen beitragen, die wir derzeit haben und weiter ausbauen.
Deepfakes
Deepfakes sind Bilder und Videos, bei denen mit Hilfe von Computer Vision und ähnlichen Technologien Gesichter und Ton überlagert werden, um etwas Neues zu erzeugen. Videos, die diese Techniken verwenden, kursieren schon seit einiger Zeit im Internet. Abgesehen von potenziellen Sicherheitsrisiken, die mit der Entwicklung dieser Technologie auftreten können, sind die bisherigen Ergebnisse sowohl erstaunlich als auch amüsant. Es gibt bereits einen Präzedenzfall für den Einsatz von Deepfake-Techniken im Film. Bekanntlich wurde Peter Cushing wiederbelebt, um die Rolle des Tarkin in Star Wars Rogue One zu spielen. Und auf den ersten Blick war die Darstellung sehr überzeugend. Es ist ziemlich schwierig, digitale Bilder perfekt mit dem Gesicht eines lebenden Schauspielers zu verschmelzen. Als eine jüngere Version von Carrie Fisher für die Rolle der Leia Organa, ebenfalls in Rogue One, benötigt wurde, haben Künstler Bilder der verstorbenen Schauspielerin mit der lebenden Ingvild Delia verschmolzen. Die verwendeten Techniken sind zwar bemerkenswert, aber nicht perfekt. Jeder, der die Szene sieht, könnte erkennen, dass das, was er sieht, nicht Carrie Fisher ist. Aber was wäre, wenn das Deepfake nicht von einem Künstler, sondern von einer Maschine gemacht worden wäre? Wäre es dann besser? Wahrscheinlich schon. Was die Welt in Rogue One sah, war das Werk von Motion-Capture-Künstlern, aber was wäre, wenn Motion-Capture nicht mehr nötig wäre?
Verhaltensalgorithmen
Sind ein weiterer wichtiger Punkt. Auch wenn diese Art von Algorithmen nicht sofort als Notwendigkeit ersichtlich ist, werden sie in jeder Szene benötigt, in der eine große Anzahl von Menschen oder Tieren vorkommt. Menschen und Tiere verhalten sich in großen Gruppen auf vorhersehbare Weise als Reaktion auf bestimmte Reize. Wenn ein Film zum Beispiel einen Angriff von Außerirdischen oder eine Horde Untoter beinhaltet, muss der Computer in der Lage sein, das Verhalten der Gruppe zu modellieren, um eine genaue Szene zu erzeugen. Durch die Verwendung solcher Daten könnten umfangreichere Szenarien erstellt und durch die Extrapolation von Punkten analysiert werden, und ein Film würde natürliche menschliche Reaktionen auf Bedrohungen darstellen, was zu einer viel überzeugenderen und erschreckenderen Szene führen würde.
Digitale Charaktere aus den Konterfeis von Berühmtheiten
Eine der aufregendsten Aussichten dieser potenziellen Technologie ist die zusätzliche Möglichkeit von computergenerierten Persönlichkeiten, die auf denen von Berühmtheiten der Vergangenheit basieren. Es gibt viele Bühnen- und Filmstars, die bereits verstorben sind, an die man sich aber aufgrund ihrer außergewöhnlichen Talente gerne erinnert. Die Möglichkeit, diese Persönlichkeiten in künftige Filme einzubinden, wird in naher Zukunft vielleicht nicht nur ein Produkt der Magie oder der Science-Fiction sein. Bei der Analyse von Mustern könnten Maschinen das Verhalten von Figuren modellieren und ein genaues Modell reproduzieren. Auch wenn dies ethisch nicht ganz koscher sein mag, gibt es bereits jetzt einen Präzedenzfall für diese Art von Technologie in Filmen. Natürlich ist dies nicht auf die Wiederauferstehung von Darstellern beschränkt, aber dieselbe Art von Technologie könnte auch auf zeitgenössische Schauspielerinnen und Schauspieler angewandt werden, um ihre Figuren in ein anderes Zeitalter oder eine andere Spezies zu versetzen. Dies hätte den zusätzlichen Vorteil, dass die Darsteller keine unbequemen Prothesen tragen oder sich körperlichen Veränderungen unterziehen müssten, um eine bestimmte Rolle zu spielen.
Microsoft text to image
Obwohl die Technologie noch in den Kinderschuhen steckt, hat Microsoft bereits eine Technologie entwickelt, die Bilder aus Text generiert. Der Benutzer kann eine einfache Beschreibung eingeben, und das Programm erzeugt daraus ein Bild. Aus der Nähe betrachtet ist es nicht besonders detailliert. Aus der Ferne ist das Bild jedoch erstaunlich genau. Man kann sich leicht vorstellen, wie klar diese Art von Bildern in Zukunft werden wird. Mit einer fortschrittlicheren Version könnte ein Benutzer viel detailliertere Daten eingeben und im Gegenzug ein lebensechtes Bild erhalten. Kombiniert man all diese Bilder miteinander, erhält man ein Filmsegment.
Sprachübersetzung – Filme, die natürlich in anderen Sprachen produziert werden
Weltweite Veröffentlichungen wie Star Wars und die Marvel-Filme verwenden Teams von Synchronsprechern, die den Text der Figuren sprechen, damit auch Sprecher anderer Sprachen als Englisch den Film sehen können. Aber synchronisierte und untertitelte Filme können nicht den Grad der Immersion erreichen, den muttersprachliche Filme bieten, das ist offensichtlich. Der Mensch ist darauf programmiert, Sprache nicht nur zu hören, sondern auch zu sehen, denn so lernen wir schon als Kinder sprechen. Wenn wir aufgezeichnete Sprache hören, wie in einem Film, erwarten wir natürlich, dass das, was wir sehen (die Münder der Schauspieler), den Ton wiedergibt. Bei synchronisierten Filmen ist das nicht der Fall. Durch die Kombination von Technologien können wir jedoch eine Lösung für dieses Problem finden. Wenn wir Elemente der Deepfake-Algorithmen mit Diensten wie Microsofts Speech Translation kombinieren, können wir vielleicht ein Programm entwickeln, das automatisch die Sprache von Schauspielern übersetzt, mit dem zusätzlichen Vorteil, dass wir eine lebensnahe Artikulation der Vokaltrakte haben, an der wir unsere kritischen Augen weiden können.
Modellierung von Regiestilen
So vieles in einem Film hängt vom Regisseur ab. Der Regisseur ist die erste Verteidigungslinie, die wir zwischen einer schrecklichen Zeitverschwendung und einem künstlerischen Meisterwerk haben. Regisseure sind, wie die Darsteller im Film, auch Menschen, und wie alle Menschen halten sie nicht ewig. Und wie die Schauspieler bringt auch jeder Regisseur einen ganzen Datensatz an fortschrittlichen Filmtechniken, Innovationen und Praktiken mit, die von Maschinen analysiert und originalgetreu reproduziert werden können. Mit Techniken wie dieser könnte die Welt den Napoleon-Film sehen, den Stanley Kubrick nie gedreht hat.
KI-Filme können genauer sein als „echte“ Filme
Einer der interessantesten Faktoren bei diesem Thema ist der des Hyperrealismus. Eine KI interagiert mit Mathematik. Sie hat keine menschlichen Augen, Ohren oder Gefühle. Sie arbeitet mit Zahlen und Mustern. Das Produkt dieser Operationen ist das Faszinierendste an der Künstlichen Intelligenz. Der Film Interstellar zeigte den Zuschauern das Produkt fortschrittlicher Rechenalgorithmen, die in Verbindung mit visuellen Effekten ein beeindruckendes Bild eines schwarzen Lochs erzeugen. Das schwarze Loch in Interstellar wurde dem Publikum erstmals 2014 gezeigt. Erst im April 2019 wussten wir, wie sie tatsächlich aussehen. Das von einem Computer erzeugte Bild ist dem tatsächlichen Foto verblüffend ähnlich. Indem wir Szenarien in eine sich bewegende KI einspeisen, können wir vielleicht mit eigenen Augen sehen, was die fortgeschrittene Wissenschaft gerade entdeckt.
Was es für die Bildung bedeutet
Die Vorteile für die Bildung sind mit dieser Art von Technologie noch nie dagewesen. Historische Filme sind genau das: historisch. Obwohl viel Arbeit in die Kolorierung alter Fotos gesteckt wurde, ist dieser Prozess sehr zeitaufwendig und teuer. Bilder sagen zwar mehr als 1000 Worte, aber was wäre, wenn diese Bilder auch sprechen könnten? Lincolns Gettysburg-Rede zum Beispiel wurde vor dem Aufkommen der Aufnahmetechnik gehalten und ist der Zeit zum Opfer gefallen. Historisch so bedeutsame Ereignisse wie diese könnten jedoch mit Hilfe fortschrittlicher Technologien digital rekonstruiert werden. Wir wissen, wie Lincoln aussah, wie er sprach und wie er dachte, dank der Aussagen seiner Zeitgenossen. Indem man diese Informationen in ein Programm einspeist, könnte man eine neue digitale Version des 16. Präsidenten der Vereinigten Staaten erstellen, um die Jugend über Themen zu unterrichten, die mit einer der brisantesten Perioden der amerikanischen Geschichte zu tun haben. Die Gettysburg Address ist nur ein kleines Beispiel dafür, was erreicht werden könnte.
Abschluss
Dieser Überblick hat das Potenzial des Einsatzes von KI bei der Erstellung von Filmen erörtert. Wir können maschinelles Lernen und Mustererkennung nutzen, um Film, Fernsehen und Bildung völlig neu zu gestalten. Durch die Kombination von Aspekten der Technologien und Techniken, die wir derzeit einsetzen, wird ein völlig neuer Prozess des Filmemachens entstehen und die Medienwelt für immer verändern. Deepfakes, Spracherkennung, Sprachverarbeitung und Verhaltensalgorithmen spielen alle eine Rolle in der Zukunft von Film und Fernsehen. Die Zukunft ist vielversprechend, aber wir müssen zusammenarbeiten, um sicherzustellen, dass sie verantwortungsvoll gehandhabt wird.
Wenn einer der vorangegangenen Punkte Sie nicht davon überzeugt hat, wie wichtig diese Technologie jetzt ist und sehr bald sein wird, denken Sie einfach daran, dass sie verwendet werden könnte, um Game of Thrones Staffel 8 neu zu drehen.
Danke für die Lektüre!