Med stor-stora globala filmer som drar in miljarder (Avengers Endgame gjorde 2.796 miljarder USD) vid biljettkassan, skulle vem som helst med medel försöka göra samma sak. Men med produktionskostnaderna för storfilmer (Avengers Endgame budget 356 miljoner USD) är det bara de mest lönsamma företagen som har råd att producera sådana monumentala framgångar. Men tänk om fler människor med kreativa idéer hade möjlighet att producera Hollywoodfilmer till en procentandel av kostnaden? Genom kraften i artificiell intelligens och en blandning av annan teknik och teknik kan vi stå på randen till en teknisk revolution som inte liknar någon annan hittills.
Hur skulle AI kunna påverka kvaliteten på en scen?
Produktionstiden för storskaliga filmer varierar, och detaljnivån varierar på grund av scenens prioritering, filmens prioritering, ändringar i sista minuten och många andra faktorer. Tiden är den viktigaste faktorn för skillnaden mellan fantastiska digitala 4k-bilder som ser ut som filmade scener (James Camerons Avatar) och saker som inte ser så bra ut, som slagsmålsscenen i Marvels Black Panther där huvudpersonen och antagonisten kör in i en gruva mot slutet av filmen. En AI skulle kunna sammanställa komplexa bilder mycket snabbare än någon av våra mest begåvade konstnärer.
Men hur skulle det fungera? Och har vi tekniken för att göra det möjligt?
Denna artikel försöker besvara dessa frågor genom att diskutera en del av den teknik vi för närvarande har och hur den kan användas för att bygga en AI för Hollywood.
Ansiktsigenkänning
Vi använder redan ansiktsigenkänning dagligen. AI kan redan känna igen ansikten ganska exakt. Ett system för ansiktsigenkänning verifierar en persons bild genom att analysera de mönster som finns i ansiktet. Genom att ta dessa datapunkter och jämföra dem med en uppsättning som omfattar hur ansikten rör sig i vissa sammanhang, t.ex. tal eller känslomässiga reaktioner, kan en dator tilldela värden och manipulera ansiktsdata för att tvinga fram ett resultat. Dessa resultat kan användas för att få en digital mun att röra sig för att matcha vissa data. AI:n skulle använda detta för att konstruera stillbilder, en efter en, av en karaktärs ansikte som rör sig mot ett visst mål, t.ex. att recitera en viss talsträng. Detta kan göras ännu mer komplext om man lägger till resten av en scen, reaktioner på miljöer, reaktioner på andra karaktärer eller omständigheter. Att hitta data för att träna en sådan AI är förmodligen den enklaste delen. Det finns gott om källfiler för den här typen av data som kan hittas i motion capture-filmer. Naturligtvis är detta en överdrivet förenklad förklaring, men inom ramen för det här inlägget finns det ingen djävul i dessa detaljer.
Generering och simulering av artificiella världar
En annan viktig punkt i jakten på att hitta en AI för att bygga filmer är generering och simulering av artificiella världar. En film som byggs helt och hållet av en AI skulle utspela sig i en helt digital värld. Även om man skulle kunna infoga digitalt material som datorn kan manipulera, är det inte alls lika häftigt som en värld som byggs helt utan mänskligt inflytande. Vi har redan den här typen av teknik och den används i videospel. Procedurellt genererade världar är inget nytt och har funnits i någon form sedan 1991 då Sid Meyers Civilization släpptes. Procedurell teknik har stadigt utvecklats under de nästan tre decennierna sedan dess och nådde en märkbar topp i 2016 års No Man’s Sky där utomjordiska världar, flora och fauna är procedurellt genererade upp till tvåhundrafemtiosex separata galaxer. Men vad innebär detta för filmer? När ett manus specificerar något som ”en futuristisk dystopisk värld med designköer från tidigt 1900-tal” skulle publiken inte få en omfärgad version av New York City, utan en procedurellt genererad värld som hämtar inflytande från arkitektur från tidigt 1900-tal. Detta skulle vara en välkommen förändring. Resident Evil skulle inte längre spelas in i Toronto, utan i en procedurellt genererad Raccoon City. Tillägget av varierande och oigenkännliga platser kan bara bidra till publikens fördjupning.
Physics Simulators
Förutom att reagera på vår omgivning, så skapar vi helt nya miljöer digitalt. Och det mest intressanta är att de miljöer vi skapar reagerar på oss på nästan samma sätt som vår naturliga miljö gör. Dessa miljöer, som vanligtvis används i videospel, modellerar den verkliga världen när det gäller texturer, belysning och fysik. Med ytterligare några år eller kanske ett eller två decenniers arbete skulle AI kunna användas för att modellera beteenden hos individer och djur i stora grupper för att konstruera städer och storskaliga beteenden som speglar våra egna. Nvidia, en av de ledande tillverkarna av datorgrafikteknik, släppte sin PhysX-simulator till öppen källkod förra året. På grund av beslut som detta kan alla med kunskap bidra till den rikedom av kunskap som vi för närvarande har och utökar.
Deepfakes
Deepfakes är bilder och videoklipp som med hjälp av datorseende och liknande teknik överlappar ansikten och ljud för att skapa något nytt. Videor som använder dessa tekniker har flödat runt på Internet sedan en tid tillbaka. Bortsett från potentiella säkerhetsrisker som kan uppstå i takt med att tekniken utvecklas har resultaten hittills visat sig vara både häpnadsväckande och underhållande. Det finns redan ett prejudikat för användning av Deepfake-teknik i film. Peter Cushing återuppstod för att återuppta rollen som Tarkin i Star Wars Rogue One. Och vid en första anblick var prestationen mycket övertygande. Att perfekt blanda digitala bilder med en levande skådespelares ansikte är ganska svårt. När en yngre version av Carrie Fisher behövdes för att gestalta Leia Organa, också i Rogue One, blandade konstnärer bilder av den avlidna skådespelerskan med den levande Ingvild Delia. De tekniker som används, även om de är anmärkningsvärda, är inte perfekta. Varje person som tittar på scenen skulle kunna påpeka att det de såg faktiskt inte var Carrie Fisher. Men tänk om Deepfake inte gjordes av en konstnär utan av en maskin? Skulle det bli bättre? Förmodligen. Det som världen såg i Rogue One var motion capture-konstnärernas arbete, men vad skulle hända om motion capture inte längre behövdes?
Behaviouralgoritmer
Är en annan viktig punkt. Även om det inte omedelbart syns som en nödvändighet skulle den här typen av algoritmer behövas i alla scener med stora mängder människor eller djur. Människor och djur beter sig på förutsägbara sätt i stora grupper som svar på vissa stimuli. Om en film till exempel skulle innehålla en utomjordisk attack eller en hord av odöda skulle datorn behöva kunna modellera gruppens beteende för att producera en korrekt scen. Genom att använda data som denna skulle mer massiva scenarier kunna skapas och analyseras genom extrapolering av punkter och en film skulle kunna visa naturliga mänskliga reaktioner på hot, vilket skulle leda till en mycket mer övertygande och skrämmande scen.
Digitala karaktärer från kändisars utseenden
En av de mest spännande utsikterna för denna potentiella teknik är den tillkomna möjligheten till datorgenererade personligheter som är baserade på kändisars tidigare personligheter. Det finns många scen- och filmstjärnor som har gått bort men som man minns för sina exceptionella talanger. Möjligheten att inkludera dessa personligheter i framtida filmer kanske inte är en produkt av magi eller science fiction inom den närmaste framtiden. Genom att analysera mönster skulle maskiner kunna modellera karaktärernas beteende och reproducera en exakt modell. Även om detta kanske inte är etiskt kosher finns det redan nu prejudikat för denna typ av teknik i filmer. Naturligtvis är detta inte begränsat till att återuppliva skådespelare, utan samma typ av teknik skulle kunna tillämpas på samtida skådespelare/skådespelerskor för att återskapa deras karaktärer som en annan ålder eller art. Detta skulle ha den extra fördelen att skådespelare inte skulle behöva bära obekväma proteser eller genomgå kroppsliga förändringar för att spela en viss roll.
Microsoft text till bild
Och även om det är i sin linda, har Microsoft för närvarande utvecklat en teknik som genererar bilder från text. Användarna kan mata in en enkel beskrivning och programmet genererar en bild utifrån den. På nära håll är det inte fantastiskt detaljerat. Fast på avstånd är bilden förvånansvärt exakt. Man kan lätt föreställa sig hur tydliga den här typen av bilder kommer att bli i framtiden. Med en mer avancerad version av detta skulle en användare kunna mata in mycket mer detaljerade uppgifter och få en verklighetstrogen bild i gengäld. Kombinera alla dessa bilder tillsammans och du har ett filmsegment.
Talöversättning – filmer som produceras naturligt på andra språk
Globala lanseringar som Star Wars och Marvel-filmerna använder sig av team av röstskådespelare för att framföra karaktärernas repliker så att talare av andra språk än engelska också kan se filmen. Men dubbade och undertextade filmer kan inte ge samma grad av fördjupning som filmer på modersmålet, det är uppenbart. Människor är uppbyggda för att se och höra tal, det är en del av hur vi lär oss att tala som barn. När vi hör inspelat tal, som i en film, förväntar vi oss naturligtvis att det vi ser (skådespelarnas munnar) ska återspegla ljudet. I dubbade filmer är detta inte fallet. Genom att kombinera tekniker kan vi dock hitta en lösning på detta problem. Genom att ta delar av Deepfake-algoritmerna och blanda dem med tjänster som Microsofts talöversättning kan vi kanske skapa ett program som automatiskt översätter tal från skådespelare med den extra bonusen att vi har närapå verklighetstrogna artikulationer av stämbanden som vi kan frossa i med våra ständigt kritiska ögon.
Modellering av regissörsstilar
Så mycket i en film beror på regissören. Regissören är den första försvarslinjen vi har mellan ett fruktansvärt slöseri med tid och ett konstnärligt mästerverk. Regissörer, liksom skådespelare i filmer, är också människor, och som alla människor varar de inte för evigt. Och precis som skådespelare har varje regissör med sig ett helt dataset av avancerade filmtekniker, innovationer och metoder som kan analyseras av maskiner för att reproduceras troget. Med tekniker som denna skulle världen kunna se den Napoleon-film som Stanley Kubrick aldrig gjorde.
AI-filmer kan vara mer exakta än ”verkliga” filmer
En av de mest intressanta faktorerna i det här ämnet är hyperrealism. En artificiell intelligens interagerar med matematik. Den har inga mänskliga ögon, öron eller känslor. Den handlar med siffror och mönster. Det är produkten av dessa operationer som är de mest fascinerande aspekterna av artificiell intelligens. Filmen Interstellar visade publiken produkten av avancerade beräkningsalgoritmer som arbetar tillsammans med visuella effekter för att skapa en fantastisk bild av ett svart hål. Det svarta hålet i Interstellar visades för första gången för publiken 2014. Vi visste inte hur de faktiskt såg ut förrän i april 2019. Den bild som produceras av en dator är slående lik den verkliga bilden. Genom att mata in scenarier i en AI som gör rörelser kan det mycket väl hända att vi med egna ögon får se vad den avancerade vetenskapen rusar fram för att upptäcka.
Vad det innebär för utbildningen
Den här typen av teknik innebär en oöverträffad välsignelse för utbildningen. Historiska filmer är just historiska. Även om det har gjorts mycket arbete med att färglägga gamla foton är processen mycket tidskrävande och dyr. Bilder säger 1000 ord, men tänk om bilderna kunde tala. Lincolns Gettysburg-tal hölls till exempel före inspelningstekniken och har gått förlorat i tiden. Men så historiskt viktiga händelser som denna skulle kunna rekonstrueras digitalt med hjälp av avancerad teknik. Vi vet hur Lincoln såg ut, hur han talade och hur han tänkte genom vittnesmål från hans samtidiga. Genom att mata in denna information i ett program skulle en ny digital version av USA:s 16:e president kunna konstrueras för att utbilda ungdomar i ämnen som är aktuella för en av de mest ombytliga perioderna i USA:s historia. Gettysburgtalet är bara ett litet exempel på vad som skulle kunna åstadkommas.
Slutsats
Denna översikt har diskuterat möjligheterna att använda artificiell intelligens för att konstruera filmer. Vi kan använda maskininlärning och mönsterigenkänning för att helt förnya filmer, tv och utbildning. Genom att kombinera aspekter av teknik och tekniker som vi använder för närvarande kommer en helt ny process för filmskapande att bryta ut och förändra medievärlden för alltid. Deepfakes, taligenkänning, språkbehandling och beteendealgoritmer spelar alla en roll i framtidens film och tv. Framtiden är lovande, men vi måste arbeta tillsammans för att se till att den hanteras på ett ansvarsfullt sätt.
Om någon av de tidigare punkterna inte har övertygat dig om hur viktig den här tekniken är nu och kommer att bli mycket snart, tänk då på… Den skulle kunna användas för att göra om Game of Thrones säsong 8.
Tack för att du läste!