Er AI fremtiden for Hollywood?

William Osmon

Follow

27. sep, 2019 – 9 min read

Fotokredit –

Med stor-storstilede globale film, der høster milliarder (Avengers Endgame indtjente 2.796 milliarder USD) ved kassen, ville alle med midlerne forsøge det samme. Men med produktionsomkostningerne for blockbusterfilm (Avengers Endgame-budget 356 mio. USD) er det kun de mest rentable selskaber, der har råd til at producere sådanne monumentale succeser. Men hvad nu, hvis flere mennesker med kreative idéer havde midlerne til at producere Hollywood-film til en procentdel af omkostningerne? Gennem kraften i kunstig intelligens og en blanding af andre teknologier og teknikker kan vi måske stå på tærsklen til en teknologisk revolution, der ikke ligner nogen anden til dato.

Hvordan kan AI påvirke kvaliteten af en scene?

Produktionstiden på store film varierer, og detaljeringsgraden varierer på grund af sceneprioritet, filmprioritet, ændringer i sidste øjeblik og mange andre faktorer. Tiden er den vigtigste faktor for forskellen mellem fantastiske digitale 4k-billeder, der ligner filmatiserede scener (James Camerons Avatar), og ting, der ikke ser helt så godt ud, som f.eks. kampscenen i Marvels Black Panther, hvor hovedpersonen og antagonisten styrter ind i en mine nær filmens slutning. En AI ville være i stand til at sammensætte komplekse billeder meget hurtigere end nogen af vores mest talentfulde kunstnere.

Men hvordan ville det fungere? Og har vi teknologien til at gøre det muligt?

Denne artikel forsøger at besvare disse spørgsmål ved at diskutere noget af den teknologi, vi har i øjeblikket, og hvordan den kan bruges til at opbygge en AI i Hollywood.

Gesynsgenkendelse

Foto Credit –

Vi bruger allerede ansigtsgenkendelse på daglig basis. AI er allerede i stand til at genkende ansigter ret nøjagtigt. Et ansigtsgenkendelsessystem verificerer en persons billede ved at analysere de mønstre, der er til stede i et ansigt. Ved at tage disse datapunkter og sammenligne dem med et sæt, der omfatter, hvordan ansigter bevæger sig i bestemte sammenhænge, f.eks. tale eller følelsesmæssige reaktioner, kan en computer tildele værdier og manipulere ansigtsdata for at fremtvinge et resultat. Disse resultater kan bruges til at få en digital mund til at bevæge sig for at matche bestemte data. AI’en vil bruge dette til at konstruere stillbilleder, et efter et, af en figurs ansigt, der bevæger sig mod et bestemt mål, f.eks. at recitere en bestemt talestreng. Dette kan gøres endnu mere komplekst ved at tilføje resten af en scene, reaktioner på omgivelser, reaktioner på andre figurer eller omstændigheder. At finde de data, der skal bruges til at træne en sådan AI, er nok den lette del. Der er masser af kildefiler til denne slags data, som kan findes i motion capture-optagelser. Dette er naturligvis en alt for forenklet forklaring, men inden for rammerne af dette indlæg er der ingen djævel i disse detaljer.

Artificial world generation and simulation

Et andet nøglepunkt i jagten på at finde en AI til filmbygning er generering og simulering af kunstige verdener. En film, der udelukkende er bygget af en AI, ville foregå i en fuldt ud digital verden. Selv om man kunne indsætte digitale optagelser, som computeren kunne manipulere, er det ikke nær så fedt som en verden, der er bygget helt uden menneskelig indflydelse. Vi har allerede denne type teknologi, og den bruges i videospil. Procedurelt genererede verdener er ikke noget nyt og har eksisteret i en eller anden form siden 1991 med udgivelsen af Sid Meyer’s Civilization. Procedurel teknologi er støt og roligt blevet udviklet i de næsten tre årtier siden og nåede et mærkbart højdepunkt i 2016’s No Man’s Sky, hvor extraterrestriske verdener, flora og fauna er proceduremæssigt genereret op til to hundrede og seksoghalvtreds separate galakser. Men hvad betyder det for film? Når et manuskript specificerer noget som “en futuristisk dystopisk verden med designkøer fra det tidlige 20. århundrede” vil publikum ikke få en omfarvet version af New York City, men en proceduremæssigt genereret verden, der trækker på indflydelse fra arkitektur fra det tidlige 20. århundrede. Dette ville helt sikkert være en velkommen ændring. Resident Evil ville ikke længere blive filmet i Toronto, men i en proceduremæssigt genereret Raccoon City. Tilføjelsen af varierende og uigenkendelige steder kan kun bidrage til publikums fordybelse.

Physics Simulators

Photo Credit – Pexels

Ud over at reagere på vores omgivelser skaber vi helt nye miljøer digitalt. Og det mest interessante er, at de miljøer, vi skaber, reagerer på os på næsten samme måde, som vores naturlige miljø gør. Disse miljøer, der typisk bruges i videospil, modellerer den virkelige verden med hensyn til teksturer, belysning og fysik. Med et par år eller måske et årti eller to mere vil AI kunne bruges til at modellere adfærd hos enkeltpersoner og dyr i store grupper for at konstruere byer og adfærd i stor skala, der afspejler vores egen adfærd. Nvidia, en af de førende producenter af computergrafikteknologi, frigav sidste år deres PhysX-simulator til open source-version. På grund af beslutninger som denne kan alle med knowhow bidrage til det væld af viden, som vi i øjeblikket har og udvider.

Deepfakes

Deepfakes er billeder og videoer, der bruger computer vision og lignende teknologier til at overlappe ansigter og lyd for at skabe noget nyt. Videoer, der anvender disse teknikker, har været i omløb på internettet i et stykke tid nu. Bortset fra de potentielle sikkerhedsrisici, der kan opstå i takt med udviklingen af denne teknologi, har resultaterne indtil videre vist sig at være både forbløffende og morsomme. Der er allerede en fortilfælde for brugen af Deepfake-teknikker i film. Peter Cushing blev som bekendt genoplivet for at genoptage rollen som Tarkin i Star Wars Rogue One. Og ved første øjekast var præstationen meget overbevisende. Det er ret vanskeligt at blande digitale billeder perfekt med en levende skuespillers ansigt. Da der skulle bruges en yngre version af Carrie Fisher til at portrættere Leia Organa, også i Rogue One, blandede kunstnere billeder af den afdøde skuespillerinde på den levende Ingvild Delia. De anvendte teknikker er ganske vist bemærkelsesværdige, men de er ikke perfekte. Enhver person, der ser scenen, ville kunne påpege, at det, de så, faktisk ikke var Carrie Fisher. Men hvad nu, hvis Deepfake ikke blev udført af en kunstner, men af en maskine? Ville det være bedre? Sandsynligvis. Det, verden så i Rogue One, var motion capture-kunstneres arbejde, men hvad nu, hvis motion capture ikke længere var nødvendigt?

Adfærdsalgoritmer

Er et andet vigtigt punkt. Selv om det ikke umiddelbart fremgår som en nødvendighed, ville denne type algoritmer være nødvendige i enhver scene, der involverer store mængder mennesker eller dyr. Mennesker og dyr opfører sig på forudsigelige måder i store grupper som reaktion på visse stimuli. Hvis en film f.eks. skulle omfatte et angreb fra rumvæsener eller en horde af udøde, ville computeren skulle kunne modellere gruppens adfærd for at skabe en præcis scene. Ved at bruge data som disse kunne man skabe og analysere mere massive scenarier ved hjælp af ekstrapolering af punkter, og en film ville vise naturlige menneskelige reaktioner på trusler, hvilket ville føre til en langt mere overbevisende og skræmmende scene.

Digitale karakterer fra berømtheder

Foto Credit – Unsplash

Et af de mest spændende perspektiver ved denne potentielle teknologi er den tilføjede mulighed for computergenererede personligheder baseret på personligheder fra berømtheder fra fortiden. Der er mange stjerner fra scenen og skærmen, som er gået bort, men som man husker kærligt for deres usædvanlige talenter. Muligheden for at inkludere disse personligheder i fremtidige film er måske ikke kun et produkt af magi eller science fiction i den nærmeste fremtid. Ved at analysere mønstre kunne maskinerne modellere personernes adfærd og reproducere en nøjagtig model. Selv om dette måske ikke er etisk set kosher, er der allerede nu præcedens for denne type teknologi i film. Selvfølgelig er dette ikke begrænset til at genoplive skuespillere, men den samme type teknologi kunne anvendes på nutidige skuespillere/skuespillerinder for at genfortolke deres karakterer i en anden alder eller art. Dette ville have den ekstra fordel, at skuespillerne ikke behøver at bære ubehagelige proteser eller undergå kropslige forandringer for at spille en bestemt rolle.

Microsoft tekst til billede

Microsoft har udviklet en teknologi, der genererer billeder ud fra tekst, selv om den endnu er i sin vorden. Brugerne kan indtaste en simpel beskrivelse, og programmet vil generere et billede ud fra den. På nært hold er det ikke fantastisk detaljeret. På afstand er billedet dog overraskende præcist. Man kan sagtens forestille sig, hvor klare disse typer billeder vil blive i fremtiden. Med en mere avanceret version af dette kunne en bruger indtaste meget mere detaljerede data og få et livagtigt billede til gengæld. Kombiner alle disse billeder sammen, og du har et segment af en film.

Taleoversættelse – film produceret naturligt på andre sprog

Globale udgivelser som Star Wars og Marvel-filmene bruger hold af voice-over-skuespillere til at fremføre karakterernes replikker, så talere af andre sprog end engelsk også kan se filmen. Men dubede og undertekstede film kan ikke skabe den samme grad af fordybelse som film på modersmålet, det er indlysende. Mennesker er skabt til både at se og høre tale, det er en del af den måde, vi lærer at tale på som børn. Når vi hører optaget tale, f.eks. i en film, forventer vi naturligvis, at det, vi ser (skuespillernes munde), afspejler lyden. I eftersynkroniserede film er dette ikke tilfældet. Men ved at kombinere teknologier kan vi måske finde en løsning på dette problem. Ved at tage elementer fra Deepfake-algoritmerne og blande dem med tjenester som Microsofts taleoversættelse kan vi måske skabe et program, der automatisk oversætter skuespillernes tale med den ekstra bonus, at vi har næsten virkelighedsnære artikulationer af stemmebåndene, som vi kan kaste vores altid kritiske øjne på.

Modellering af instruktørstile

Der er så meget i en film, der afhænger af instruktøren. Instruktøren er den første forsvarslinje, vi har mellem et forfærdeligt spild af tid og et kunstnerisk mesterværk. Instruktører er ligesom de medvirkende i film også mennesker, og som alle mennesker varer de ikke evigt. Og ligesom skuespillere bringer hver instruktør et helt datasæt af avancerede filmteknikker, innovation og praksis med sig, som kan analyseres af maskiner for at blive gengivet troværdigt. Med teknikker som denne kunne verden se den Napoleon-film, som Stanley Kubrick aldrig lavede.

AI-film kan være mere nøjagtige end “virkelige” film

Foto Credit – Unsplash

En af de mest interessante faktorer i dette emne er hyperrealismen. En AI interagerer med matematikken. Den har ikke menneskelige øjne, ører eller følelser. Den beskæftiger sig med tal og mønstre. Det er produktet af disse operationer, der er de mest fascinerende aspekter af kunstig intelligens. Filmen Interstellar viste publikum et produkt af avancerede computeralgoritmer, der arbejder sammen med visuelle effekter for at skabe et fantastisk billede af et sort hul. Det sorte hul i Interstellar blev første gang vist for publikum i 2014. Vi vidste ikke, hvordan de faktisk så ud før april 2019. Det billede, der er produceret af en computer, ligner påfaldende meget det faktiske billede. Ved at fodre scenarier ind i en AI, der laver bevægelse, kan vi meget vel bare se med vores egne øjne, hvad avanceret videnskab skynder sig at opdage.

Hvad det betyder for uddannelse

Der er uanede fordele for uddannelse med denne type teknologi. Historiske film er netop det, historiske. Selv om der er gjort et stort stykke arbejde med at farvelægge gamle fotos, er processen meget tidskrævende og dyr. Billeder siger 1000 ord, men hvad nu, hvis disse billeder kunne tale. Lincolns Gettysburg-tale blev f.eks. holdt før indspilningsteknologien kom frem, og den er gået tabt for tiden. Men så historisk betydningsfulde begivenheder som denne kunne rekonstrueres digitalt ved hjælp af avancerede teknologier. Vi ved, hvordan Lincoln så ud, hvordan han talte, og hvordan han tænkte, gennem vidneudsagn fra hans samtidige. Ved at indlæse disse oplysninger i et program kunne man konstruere en ny digital version af USA’s 16. præsident for at undervise unge om emner, der er aktuelle i en af de mest omskiftelige perioder i USA’s historie. Gettysburg-talen er blot et lille eksempel på, hvad man kunne opnå.

Slutning

Denne oversigt har diskuteret potentialet i at bruge kunstig intelligens til at konstruere film. Vi kan bruge maskinlæring og mønstergenkendelse til at forny film, tv og uddannelse fuldstændigt. Ved at kombinere aspekter af de teknologier og teknikker, vi anvender i dag, vil en helt ny proces for filmproduktion bryde ud og ændre medieverdenen for altid. Deepfakes, talegenkendelse, sprogbehandling og adfærdsalgoritmer spiller alle en rolle i fremtidens film og tv. Fremtiden er lovende, men vi er nødt til at arbejde sammen for at sikre, at den håndteres ansvarligt.

Hvis nogen af de foregående punkter ikke har overbevist dig om, hvor vigtig denne teknologi er nu og meget snart vil blive, så husk på… Den kunne blive brugt til at genskabe Game of Thrones sæson 8.

Tak for læsning!

Skriv en kommentar