Is AI de toekomst van Hollywood?

William Osmon

Follow

Sep 27, 2019 – 9 min read

Fotokrediet –

Met groot-grootschalige wereldwijde films miljarden binnenharken (Avengers Endgame bracht 2.796 miljard USD) aan de kassa’s, zou iedereen met de middelen hetzelfde proberen. Maar met de productiekosten van blockbusterfilms (Avengers Endgame budget 356 miljoen USD), kunnen alleen de meest winstgevende bedrijven het zich veroorloven om zulke monumentale successen te produceren. Maar wat als meer mensen met creatieve ideeën de middelen zouden hebben om Hollywoodfilms te produceren tegen een percentage van de kosten? Door de kracht van Kunstmatige Intelligentie, en een mix van andere technologieën en technieken, zouden we wel eens aan de vooravond kunnen staan van een technologische revolutie die zijn weerga niet kent.

Hoe zou AI de kwaliteit van een scène kunnen beïnvloeden?

De productietijd van grootschalige films varieert, en de mate van detail varieert door scèneprioriteit, filmprioriteit, last-minute wijzigingen, en vele andere factoren. Tijd is de belangrijkste factor in het verschil tussen verbluffende 4k digitale beelden die eruit zien als gefilmde scènes (James Cameron’s Avatar) en dingen die er niet zo geweldig uitzien, zoals de vechtscène in Marvel’s Black Panther waar de protagonist en antagonist tegen het einde van de film in een mijn storten. Een AI zou in staat zijn om complexe beelden veel sneller samen te stellen dan een van onze meest getalenteerde kunstenaars.

Maar hoe zou het werken? En hebben we de technologie om het te laten gebeuren?

Dit artikel probeert die vragen te beantwoorden door een aantal van de technologie die we momenteel hebben te bespreken en hoe het kan worden gebruikt om een Hollywood AI te bouwen.

Gezichtsherkenning

Fotokrediet –

Gezichtsherkenning gebruiken we al op dagelijkse basis. AI is al in staat om gezichten vrij nauwkeurig te herkennen. Een gezichtsherkenningssysteem controleert de foto van een persoon door de patronen op een gezicht te analyseren. Door deze datapunten te nemen en ze te vergelijken met een set die omvat hoe gezichten zich in bepaalde contexten bewegen, zoals spraak of emotionele reactie, kan een computer waarden toekennen en gezichtsgegevens manipuleren om een uitkomst te forceren. Deze uitkomsten kunnen worden gebruikt om een digitale mond te laten bewegen om aan bepaalde gegevens te voldoen. De AI zou dit gebruiken om één voor één stilstaande beelden te construeren van het gezicht van een personage dat naar een bepaald doel beweegt, zoals het opzeggen van een bepaalde reeks toespraken. Dit kan nog complexer worden gemaakt door de rest van een scène, reacties op omgevingen, reacties op andere personages, of omstandigheden toe te voegen. Het vinden van de data om zo’n AI te trainen is waarschijnlijk het gemakkelijke deel. Er zijn genoeg bronbestanden voor dit soort gegevens die gevonden kunnen worden in motion capture beelden. Natuurlijk is dit een overgesimplificeerde uitleg, maar in het bestek van dit bericht zit er geen duivel in deze details.

Kunstmatige wereld generatie en simulatie

Een ander belangrijk punt in de zoektocht naar een film bouwende AI is kunstmatige wereld generatie en simulatie. Een film die volledig door een AI is gemaakt, speelt zich af in een volledig digitale wereld. Hoewel men digitale beelden zou kunnen invoegen die de computer kan manipuleren, is dat lang niet zo gaaf als een wereld die volledig vrij van menselijke invloed is opgebouwd. We hebben dit soort technologie al en ze wordt gebruikt in videospelletjes. Procedureel gegenereerde werelden zijn niets nieuws en bestaan in een of andere vorm al sinds 1991 met de release van Sid Meyer’s Civilization. Procedurele technologie is gestaag vooruitgegaan in de bijna drie decennia sindsdien en bereikte een waarneembaar hoogtepunt in 2016’s No Man’s Sky waar buitenaardse werelden, flora en fauna procedureel worden gegenereerd tot tweehonderdzesenvijftig afzonderlijke sterrenstelsels. Maar wat betekent dit voor films? Als in een script iets staat als “een futuristische dystopische wereld met design uit het begin van de 20e eeuw”, krijgt het publiek geen ingekleurde versie van New York City, maar een procedureel gegenereerde wereld die is beïnvloed door architectuur uit het begin van de 20e eeuw. Dit zou zeker een welkome verandering zijn. Resident Evil zou niet langer in Toronto worden gefilmd, maar in een procedureel gegenereerde Raccoon City. De toevoeging van afwisselende en onherkenbare locaties kan de onderdompeling van het publiek alleen maar vergroten.

Physics Simulators

Photo Credit – Pexels

Naast het reageren op onze omgeving, creëren we digitaal geheel nieuwe omgevingen. En het meest interessante is dat de omgevingen die we creëren op bijna dezelfde manier op ons reageren als onze natuurlijke omgevingen dat doen. Deze omgevingen, die meestal in videospelletjes worden gebruikt, zijn qua textuur, belichting en fysica een model van de echte wereld. Met nog een paar jaar of misschien een decennium of twee werk zou AI kunnen worden gebruikt om het gedrag van individuen en dieren in grote groepen te modelleren en zo steden en grootschalige gedragingen te construeren die ons eigen gedrag weerspiegelen. Nvidia, een van de grootste producenten van grafische computertechnologie, heeft vorig jaar zijn PhysX-simulator vrijgegeven voor open source. Door dit soort beslissingen kan iedereen met kennis van zaken bijdragen aan de schat aan kennis die we nu hebben en uitbreiden.

Deepfakes

Deepfakes zijn afbeeldingen en video’s die computervisie en soortgelijke technologieën gebruiken om gezichten en audio te overlappen om iets nieuws te produceren. Video’s waarin deze technieken worden gebruikt, circuleren al enige tijd op het internet. Afgezien van mogelijke veiligheidsrisico’s die kunnen optreden naarmate deze technologie zich ontwikkelt, zijn de resultaten tot nu toe zowel verbazingwekkend als amusant gebleken. Er is al een precedent voor het gebruik van Deepfake technieken in film. Peter Cushing werd beroemd om zijn rol van Tarkin in Star Wars Rogue One opnieuw te spelen. En, op het eerste gezicht, was de vertolking zeer overtuigend. Digitale beelden perfect laten samengaan met het gezicht van een levende artiest is vrij moeilijk. Toen een jongere versie van Carrie Fisher nodig was om Leia Organa te vertolken, ook in Rogue One, mengden kunstenaars beelden van de overleden actrice met de levende Ingvild Delia. De gebruikte technieken zijn weliswaar opmerkelijk, maar niet perfect. Iedereen die de scène bekijkt, kan zien dat wat hij ziet in feite niet Carrie Fisher is. Maar wat als de Deepfake niet door een artiest, maar door een machine werd gedaan? Zou het dan beter zijn? Waarschijnlijk wel. Wat de wereld zag in Rogue One was het werk van motion capture-artiesten, maar wat als motion capture niet langer nodig was?

Gedragsalgoritmen

Zijn een ander belangrijk punt. Hoewel het niet onmiddellijk als een noodzaak wordt gezien, zouden dit soort algoritmen nodig zijn in elke scène met grote aantallen mensen of dieren. Mensen en dieren gedragen zich in grote groepen op voorspelbare wijze als reactie op bepaalde stimuli. Als er in een film bijvoorbeeld sprake zou zijn van een aanval van buitenaardse wezens of een horde ondoden, zou de computer het gedrag van de groep moeten kunnen modelleren om een nauwkeurige scène te produceren. Door gegevens als deze te gebruiken, zouden massalere scenario’s kunnen worden gecreëerd en geanalyseerd door middel van extrapolatie van punten en zou een film natuurlijke menselijke reacties op bedreigingen vertonen, wat tot een veel overtuigender en angstaanjagender scène zou leiden.

Digitale karakters van beroemdheden

Photo Credit – Unsplash

Een van de meest opwindende vooruitzichten van deze potentiële technologie is de toegevoegde mogelijkheid van computer gegenereerde persoonlijkheden gebaseerd op die van beroemdheden uit het verleden. Er zijn veel sterren van het toneel en het scherm die al overleden zijn, maar nog steeds dierbaar herinnerd worden vanwege hun uitzonderlijke talenten. De mogelijkheid om deze persoonlijkheden in toekomstige films op te nemen zal in de nabije toekomst wellicht niet het produkt van magie of science fiction zijn. Door patronen te analyseren zouden machines het gedrag van personages kunnen modelleren en een nauwkeurig model kunnen reproduceren. Hoewel dit ethisch misschien niet koosjer is, is er nu al een precedent voor dit soort technologie in films. Natuurlijk is dit niet beperkt tot het tot leven wekken van acteurs, maar dezelfde soort technologie zou kunnen worden toegepast op acteurs en actrices van nu, om hun personages in een andere tijd of soort te reproduceren. Dit zou als bijkomend voordeel hebben dat artiesten geen oncomfortabele protheses hoeven te dragen of lichamelijke veranderingen hoeven te ondergaan om een bepaalde rol te spelen.

Microsoft tekst naar beeld

Hoewel het nog in de kinderschoenen staat, heeft Microsoft momenteel een technologie ontwikkeld die beelden genereert uit tekst. Gebruikers kunnen een eenvoudige beschrijving invoeren en het programma zal op basis daarvan een afbeelding genereren. Van dichtbij is het niet fantastisch gedetailleerd. Van een afstand is het beeld echter verrassend nauwkeurig. Men kan zich gemakkelijk voorstellen hoe duidelijk dit soort beelden in de toekomst zullen worden. Met een meer geavanceerde versie hiervan zou een gebruiker veel gedetailleerdere gegevens kunnen invoeren en een levensecht beeld terugkrijgen. Combineer al deze beelden samen en je hebt een segment van de film.

Speech Translation – Films geproduceerd natuurlijk in andere talen

Globale releases zoals Star Wars en de Marvel films gebruiken teams van voice over acteurs om karakters lijnen uit te voeren, zodat sprekers van andere talen dan het Engels kunnen de film ook kijken. Maar nagesynchroniseerde en ondertitelde films kunnen niet het niveau van onderdompeling dragen dat moedertaalfilms kunnen, dat is duidelijk. Mensen zijn bedraad om spraak te zien en te horen, dat maakt deel uit van hoe we als kind leren spreken. Wanneer we opgenomen spraak horen, zoals in een film, verwachten we natuurlijk dat wat we zien (de monden van de acteurs) het geluid weerspiegelt. In nagesynchroniseerde films is dat niet het geval. Door technologieën te combineren, kunnen we echter een oplossing vinden voor dit probleem. Door elementen van Deepfake algoritmen te nemen en ze te mengen met diensten zoals Microsofts Speech Translation, kunnen we misschien een programma maken dat automatisch de spraak van een acteur vertaalt, met als extra bonus de bijna levensechte articulatie van de stembanden, waar we onze altijd kritische ogen op kunnen laten vallen.

Regisseurstijlen modelleren

Zoveel in een film hangt af van de regisseur. De regisseur is de eerste verdedigingslinie die we hebben tussen een vreselijke tijdverspilling en een artistiek meesterwerk. Regisseurs zijn, net als acteurs in films, ook mensen, en net als alle mensen duren ze niet eeuwig. En net als acteurs brengt elke regisseur een hele dataset van geavanceerde filmtechnieken, innovatie en praktijken mee, die door machines kunnen worden geanalyseerd om getrouw te worden gereproduceerd. Met dit soort technieken zou de wereld de Napoleon-film kunnen zien die Stanley Kubrick nooit maakte.

AI-films kunnen nauwkeuriger zijn dan “real-life” films

Photo Credit – Unsplash

Een van de interessantste factoren in dit onderwerp is dat van hyper-realisme. Een AI interageert met wiskunde. Het heeft geen menselijke ogen, oren of emoties. Het handelt in getallen en patronen. Het is het product van deze bewerkingen dat de meest intrigerende aspecten van Kunstmatige Intelligentie zijn. De film Interstellar toonde het publiek het resultaat van geavanceerde computeralgoritmen die in combinatie met visuele effecten een verbluffend beeld van een zwart gat opleverden. Het zwarte gat in Interstellar werd voor het eerst aan het publiek getoond in 2014. We wisten pas in april van 2019 hoe ze er eigenlijk uitzagen. Het beeld dat door een computer is geproduceerd, lijkt opvallend veel op de echte foto. Door scenario’s te voeden aan een bewegende AI, zouden we wel eens met onze eigen ogen kunnen zien wat de geavanceerde wetenschap haastig aan het ontdekken is.

Wat het betekent voor het onderwijs

De zegeningen voor het onderwijs zijn ongekend met dit soort technologie. Historische films zijn gewoon dat, historisch. Hoewel er veel werk is verricht om oude foto’s in te kleuren, is het proces zeer tijdrovend en duur. Beelden zeggen 1000 woorden, maar wat als die beelden konden spreken. De Gettysburg Address van Lincoln bijvoorbeeld werd uitgesproken vóór de komst van de opnametechniek en is verloren gegaan. Maar historisch belangrijke gebeurtenissen als deze zouden digitaal gereconstrueerd kunnen worden met behulp van geavanceerde technologieën. We weten hoe Lincoln eruit zag, hoe hij sprak en hoe hij dacht door getuigenissen van zijn tijdgenoten. Door deze informatie in een programma in te voeren, zou een nieuwe digitale versie van Amerika’s 16e president kunnen worden geconstrueerd om de jeugd te onderrichten over onderwerpen uit een van de meest veranderlijke periodes van de Amerikaanse geschiedenis. De Gettysburg Address is slechts een klein voorbeeld van wat zou kunnen worden bereikt.

Conclusie

Dit overzicht heeft de mogelijkheden besproken van het gebruik van AI om films te bouwen. We kunnen Machine Learning en patroonherkenning gebruiken om films, tv, en onderwijs volledig te vernieuwen. Door het combineren van aspecten van technologieën en technieken die we nu gebruiken, zal een geheel nieuw proces van filmmaken losbarsten en de mediawereld voorgoed veranderen. Deepfakes, spraakherkenning, taalverwerking en gedragsalgoritmen spelen allemaal een rol in de toekomst van film en tv. De toekomst is veelbelovend, maar we moeten samenwerken om ervoor te zorgen dat er verantwoordelijk mee wordt omgegaan.

Als een van de vorige punten je nog niet heeft overtuigd hoe belangrijk deze technologie nu is en zeer binnenkort zal zijn, bedenk dan… Het kan worden gebruikt om Game of Thrones seizoen 8 opnieuw te maken.

Dank voor het lezen!

Plaats een reactie