Suurella-Maailmanlaajuiset elokuvat keräävät miljardeja (Avengers Endgame teki 2.796 miljardia dollaria) lipputuloissa, kuka tahansa, jolla on varaa, yrittäisi samaa. Mutta kun otetaan huomioon blockbuster-elokuvien tuotantokustannukset (Avengers Endgamen budjetti 356 miljoonaa USD), vain kaikkein kannattavimmilla yrityksillä on varaa tuottaa tällaisia monumentaalisia menestyksiä. Mutta entä jos useammilla luovia ideoita omaavilla ihmisillä olisi keinot tuottaa Hollywood-elokuvia prosenttiosuudella kustannuksista? Tekoälyn voiman ja muiden teknologioiden ja tekniikoiden yhdistelmän avulla saatamme olla sellaisen teknologisen vallankumouksen kynnyksellä, jollaista ei ole ennen nähty.
Miten tekoäly voisi vaikuttaa kohtauksen laatuun?
Suurten elokuvien tuotantoaika vaihtelee, ja yksityiskohtien taso vaihtelee kohtauksen tärkeysjärjestyksen, elokuvan tärkeysjärjestyksen, viime hetken muutosten ja monien muiden tekijöiden vuoksi. Aika on tärkein tekijä, joka vaikuttaa siihen, miten paljon eroa on upeiden 4k-digitaalikuvien, jotka näyttävät kuvatuilta kohtauksilta (James Cameronin Avatar), ja sellaisten välillä, jotka eivät näytä kovin hyvältä, kuten Marvelin Black Panther -elokuvan taistelukohtaus, jossa päähenkilö ja antagonisti syöksyvät kaivokseen lähellä elokuvan loppua. Tekoäly pystyisi kokoamaan monimutkaisia kuvia paljon nopeammin kuin kukaan lahjakkaimmista taiteilijoista.
Mutta miten se toimisi? Ja onko meillä teknologiaa, jolla se voitaisiin toteuttaa?
Tässä artikkelissa yritetään vastata näihin kysymyksiin käsittelemällä nykyistä teknologiaa ja sitä, miten sitä voidaan käyttää Hollywoodin tekoälyn rakentamiseen.
Kasvojentunnistus
Käytämme kasvojentunnistusta jo nyt päivittäin. Tekoäly pystyy jo tunnistamaan kasvot melko tarkasti. Kasvontunnistusjärjestelmä varmentaa henkilön kuvan analysoimalla kasvoissa olevia kuvioita. Ottamalla nämä datapisteet ja vertaamalla niitä joukkoon, joka sisältää sen, miten kasvot liikkuvat tietyissä yhteyksissä, kuten puheessa tai tunnereaktioissa, tietokone voi antaa arvoja ja manipuloida kasvotietoja pakottaakseen lopputuloksen. Näiden tulosten avulla voidaan saada digitaalinen suu liikkumaan tiettyjen tietojen mukaisesti. Tekoäly käyttäisi tätä rakentaakseen yksi kerrallaan still-kuvia hahmon kasvoista, jotka liikkuvat kohti tiettyä päämäärää, kuten tietyn puhejakson lausumista. Tästä voidaan tehdä vieläkin monimutkaisempaa, kun siihen lisätään muu kohtaus, reaktiot ympäristöön, reaktiot muihin hahmoihin tai olosuhteisiin. Tällaisen tekoälyn kouluttamiseen tarvittavan datan löytäminen on luultavasti helppoa. Tällaista dataa varten on runsaasti lähdetiedostoja, joita voi löytyä liikkeentallennusmateriaalista. Tämä on tietysti liian yksinkertaistettu selitys, mutta tämän postauksen puitteissa näissä yksityiskohdissa ei ole paholaista.
Tekomaailman luominen ja simulointi
Toinen avainkohta etsittäessä elokuvaa rakentavaa tekoälyä on tekomaailman luominen ja simulointi. Kokonaan tekoälyn rakentama elokuva tapahtuisi täysin digitaalisessa maailmassa. Vaikka siihen voisi lisätä digitaalista kuvamateriaalia, jota tietokone voisi manipuloida, se ei ole läheskään yhtä hienoa kuin maailma, joka on rakennettu täysin ilman ihmisen vaikutusta. Tällaista teknologiaa on jo olemassa, ja sitä käytetään videopeleissä. Proseduraalisesti luodut maailmat eivät ole mitään uutta, ja ne ovat olleet olemassa jossain muodossa vuodesta 1991 lähtien, jolloin Sid Meyerin Civilization julkaistiin. Proseduraalinen teknologia on kehittynyt tasaisesti lähes kolmen vuosikymmenen aikana sen jälkeen, ja se saavutti tuntuvan huipun vuonna 2016 ilmestyneessä No Man’s Sky -elokuvassa, jossa avaruusmaailmoja, kasvistoa ja eläimistöä luodaan proseduraalisesti jopa kaksisataa ja viisikymmentäkuusi erillistä galaksia. Mutta mitä tämä tarkoittaa elokuvien kannalta? Kun käsikirjoituksessa mainitaan esimerkiksi ”futuristinen dystooppinen maailma, jossa on 1900-luvun alkupuolen muotoiluvivahteita”, katsojat eivät saa väritettyä versiota New York Citystä, vaan proseduraalisesti generoidun maailman, joka ammentaa vaikutteita 1900-luvun alun arkkitehtuurista. Tämä olisi varmasti tervetullut muutos. Resident Eviliä ei enää kuvattaisi Torontossa, vaan proseduraalisesti luodussa Raccoon Cityssä. Vaihtuvien ja tunnistamattomien paikkojen lisääminen voi vain lisätä yleisön immersiota.
Physics Simulators
Ympäristömme reagoinnin lisäksi luomme myös täysin uusia ympäristöjä digitaalisina. Ja mielenkiintoisinta on, että luomamme ympäristöt reagoivat meihin lähes samalla tavalla kuin luonnollinen ympäristömme. Nämä tyypillisesti videopeleissä käytettävät ympäristöt mallintavat reaalimaailmaa tekstuurien, valaistuksen ja fysiikan osalta. Vielä muutaman vuoden tai ehkä vuosikymmenen tai parin työllä tekoälyä voitaisiin käyttää yksilöiden ja eläinten käyttäytymisen mallintamiseen suurissa ryhmissä, jotta voitaisiin rakentaa kaupunkeja ja laajamittaisia käyttäytymismalleja, jotka heijastavat omaa käyttäytymistämme. Nvidia, yksi johtavista tietokonegrafiikkateknologian tuottajista, julkaisi PhysX-simulaattorinsa avoimen lähdekoodin käyttöön viime vuonna. Tällaisten päätösten ansiosta kuka tahansa, jolla on tietotaitoa, voi osallistua siihen tietovarantoon, joka meillä tällä hetkellä on ja jota laajennamme.
Deepfakes
Deepfakes ovat kuvia ja videoita, joissa käytetään tietokonenäköä ja muita vastaavia tekniikoita kasvojen ja äänen päällekkäisyyteen tuottamaan jotain uutta. Näitä tekniikoita käyttäviä videoita on pyörinyt internetissä jo jonkin aikaa. Lukuun ottamatta mahdollisia tietoturvariskejä, joita voi ilmetä tekniikan kehittyessä, tähänastiset tulokset ovat osoittautuneet sekä hämmästyttäviksi että huvittaviksi. Deepfake-tekniikoiden käytöstä elokuvissa on jo olemassa ennakkotapaus. Peter Cushing herätettiin henkiin näyttelemään Tarkinia Star Wars Rogue One -elokuvassa. Ja ensi silmäyksellä esitys oli hyvin vakuuttava. Digitaalisten kuvien täydellinen yhdistäminen elävän esiintyjän kasvoihin on melko vaikeaa. Kun Carrie Fisherin nuorempaa versiota tarvittiin esittämään Leia Organaa myös Rogue One -elokuvassa, taiteilijat sekoittivat edesmenneen näyttelijättären kuvia elävän Ingvild Delian päälle. Vaikka käytetyt tekniikat ovatkin merkittäviä, ne eivät ole täydellisiä. Kuka tahansa kohtausta katsova henkilö pystyisi huomauttamaan, että se, mitä hän näki, ei itse asiassa ollut Carrie Fisher. Mutta entä jos Deepfake ei olekaan taiteilijan vaan koneen tekemä? Olisiko se parempi? Luultavasti. Se, mitä maailma näki Rogue One -elokuvassa, oli liikkeenkaappaustaiteilijoiden työtä, mutta entä jos liikkeenkaappausta ei enää tarvittaisi?
Behavioraaliset algoritmit
Ovat toinen keskeinen seikka. Vaikka tämäntyyppisiä algoritmeja ei heti näkyisikään välttämättömyytenä, niitä tarvittaisiin kaikissa kohtauksissa, joissa on paljon ihmisiä tai eläimiä. Ihmiset ja eläimet käyttäytyvät ennakoitavalla tavalla suurissa ryhmissä vastauksena tiettyihin ärsykkeisiin. Jos elokuvassa esimerkiksi hyökkää avaruusolento tai epäkuolleiden lauma, tietokoneen on pystyttävä mallintamaan ryhmän käyttäytyminen, jotta kohtaus olisi tarkka. Käyttämällä tällaisia tietoja voitaisiin luoda ja analysoida massiivisempia skenaarioita pisteiden ekstrapoloinnin avulla, ja elokuvassa näkyisivät ihmisten luonnolliset reaktiot uhkiin, mikä johtaisi paljon vakuuttavampaan ja pelottavampaan kohtaukseen.
Digitaaliset hahmot julkkiksista
Yksi jännittävimpiä tämän potentiaalisen tekniikan mahdollisista tulevaisuudennäkymistä on lisäyksenä mahdollisuus tietokoneella luotuihin persoonallisuuksiin menneen aikakauden julkkiksen hahmojen pohjalta. On monia näyttämön ja valkokankaan tähtiä, jotka ovat jo menehtyneet, mutta jotka muistetaan hellästi poikkeuksellisten kykyjensä vuoksi. Mahdollisuus sisällyttää näitä henkilöitä tuleviin elokuviin ei ehkä ole lähitulevaisuudessa taikuuden tai tieteiskirjallisuuden tuote. Analysoidessaan malleja koneet voisivat mallintaa hahmojen käyttäytymistä ja toistaa tarkan mallin. Vaikka tämä ei ehkä ole eettisesti kosheria, elokuvissa on jo nyt ennakkotapauksia tämäntyyppisestä teknologiasta. Tämä ei tietenkään rajoitu vain näyttelijöiden henkiin herättämiseen, vaan samantyyppistä teknologiaa voitaisiin soveltaa nykyajan näyttelijöihin, jotta heidän hahmonsa voitaisiin kuvata uudelleen eri aikakautena tai eri lajina. Tästä olisi se lisäetu, että esiintyjien ei tarvitsisi käyttää epämiellyttäviä proteeseja tai tehdä ruumiillisia muutoksia esittääkseen tiettyä roolia.
Microsoft text to image
Vaikka se on vielä lapsenkengissään, tällä hetkellä Microsoft on kehittänyt tekniikan, joka tuottaa kuvia tekstistä. Käyttäjät voivat syöttää yksinkertaisen kuvauksen ja ohjelma luo sen perusteella kuvan. Läheltä katsottuna se ei ole fantastisen yksityiskohtainen. Kaukaa katsottuna kuva on kuitenkin yllättävän tarkka. Voi helposti kuvitella, kuinka selkeitä tämäntyyppisistä kuvista tulee tulevaisuudessa. Kehittyneemmällä versiolla käyttäjä voisi syöttää paljon yksityiskohtaisempia tietoja ja saada vastineeksi todentuntuisen kuvan. Yhdistämällä kaikki nämä kuvat yhteen saadaan elokuvan pätkä.
Puhekäännös – Muilla kielillä luontevasti tuotetut elokuvat
Tähtien sodan ja Marvel-elokuvien kaltaisissa maailmanlaajuisissa elokuvissa käytetään ääninäyttelijätiimejä esittämään hahmojen repliikkejä, jotta myös muiden kielten kuin englannin kielen puhujat voivat katsoa elokuvaa. Mutta dubatut ja subbed-elokuvat eivät voi kuljettaa samaa uppoutumisen tasoa kuin äidinkieliset elokuvat, se on selvää. Ihmiset on luotu näkemään ja kuulemaan puhetta, se on osa sitä, miten opimme puhumaan jo lapsena. Kun kuulemme nauhoitettua puhetta, kuten elokuvassa, odotamme luonnollisesti, että se, mitä näemme (näyttelijöiden suu), vastaa ääntä. Jälkiäänitetyissä elokuvissa näin ei ole. Teknologioita yhdistelemällä voimme kuitenkin löytää ratkaisun tähän ongelmaan. Ottamalla elementtejä Deepfake-algoritmeista ja yhdistämällä ne Microsoftin Speech Translation -palvelun kaltaisiin palveluihin voimme ehkä luoda ohjelman, joka kääntää esittäjän puheen automaattisesti, ja sen lisäbonuksena on lähellä elämää olevat äänihuulten artikulaatiot, joita voimme ihastella kriittisillä silmillämme.
Ohjaajan tyylien mallintaminen
Elokuvassa niin paljon riippuu ohjaajasta. Ohjaaja on ensimmäinen puolustuslinja, joka meillä on kauhean ajanhukan ja taiteellisen mestariteoksen välillä. Ohjaajat, kuten elokuvien esiintyjätkin, ovat ihmisiä, ja kuten kaikki ihmiset, he eivät kestä ikuisesti. Ja kuten näyttelijät, jokainen ohjaaja tuo mukanaan kokonaisen tietopaketin kehittyneitä kuvaustekniikoita, innovaatioita ja käytäntöjä, joita koneet voivat analysoida ja jäljentää uskollisesti. Tällaisen tekniikan avulla maailma voisi nähdä Napoleon-elokuvan, jota Stanley Kubrick ei koskaan tehnyt.
AI-elokuvat voivat olla ”tosielämän” elokuvia tarkempia
Yksi mielenkiintoisimmista tekijöistä tässä aihepiirissä on hyperrealismi. Tekoäly on vuorovaikutuksessa matematiikan kanssa. Sillä ei ole ihmisen silmiä, korvia tai tunteita. Se käsittelee numeroita ja kuvioita. Juuri näiden operaatioiden tuote on tekoälyn kiehtovimpia puolia. Elokuvassa Interstellar nähtiin, miten kehittyneet laskennalliset algoritmit yhdessä visuaalisten efektien kanssa tuottivat upean kuvan mustasta aukosta. Interstellar-elokuvan musta aukko esitettiin yleisölle ensimmäisen kerran vuonna 2014. Emme tienneet, miltä ne oikeasti näyttivät, ennen kuin huhtikuussa 2019. Tietokoneen tuottama kuva muistuttaa hämmästyttävän paljon todellista kuvaa. Syöttämällä skenaarioita liikkuvaa tekoälyä tekevälle tekoälylle saatamme hyvinkin nähdä omin silmin, mitä kehittynyt tiede kiirehtii löytämään.
Mitä se merkitsee koulutukselle
Koulutukselle tarjottavat hyödyt ovat ennennäkemättömiä tämäntyyppisen teknologian myötä. Historialliset elokuvat ovat vain sitä, historiallisia. Vaikka vanhojen valokuvien värittämisessä on tehty paljon työtä, prosessi on hyvin aikaa vievä ja kallis. Kuvat sanovat 1000 sanaa, mutta entä jos kuvat voisivat puhua. Esimerkiksi Lincolnin Gettysburgin puhe pidettiin ennen nauhoitustekniikan käyttöönottoa, ja se on kadonnut aikojen saatossa. Historiallisesti niinkin merkittävät tapahtumat voitaisiin kuitenkin rekonstruoida digitaalisesti kehittyneiden tekniikoiden avulla. Tiedämme, miltä Lincoln näytti, miten hän puhui ja miten hän ajatteli aikalaistensa antamien lausuntojen perusteella. Syöttämällä nämä tiedot ohjelmaan voitaisiin rakentaa uusi digitaalinen versio Amerikan 16. presidentistä ja opettaa nuorisolle aiheita, jotka liittyvät yhteen Amerikan historian epävakaimmista ajanjaksoista. Gettysburgin puhe on vain yksi pieni esimerkki siitä, mitä voitaisiin saavuttaa.
Johtopäätös
Tässä katsauksessa on käsitelty tekoälyn käytön mahdollisuuksia elokuvien rakentamisessa. Voimme käyttää koneoppimista ja hahmontunnistusta elokuvien, television ja koulutuksen täydelliseen uudistamiseen. Yhdistämällä nykyisin käyttämiemme teknologioiden ja tekniikoiden näkökohtia täysin uusi elokuvantekoprosessi puhkeaa ja muuttaa mediamaailmaa lopullisesti. Deepfakes, puheentunnistus, kielenkäsittely ja käyttäytymisalgoritmit ovat kaikki osa elokuvan ja television tulevaisuutta. Tulevaisuus on lupaava, mutta meidän on työskenneltävä yhdessä varmistaaksemme, että siihen suhtaudutaan vastuullisesti.
Jos jokin edellisistä kohdista ei ole vakuuttanut sinua siitä, miten tärkeää tämä teknologia on nyt ja hyvin pian, pidä mielessä… Sitä voitaisiin käyttää Game of Thronesin 8. tuotantokauden uudelleenfilmatisoinnissa.
Kiitos, että luit!