A mesterséges intelligencia Hollywood jövője?

William Osmon

Follow

Szept. 27, 2019 – 9 min olvasni

Fotóhitel –

Nagyon nagy-globális filmek milliárdokat kaszálnak (a Bosszúállók végjátéka 2.796 milliárd USD) a jegypénztáraknál, bárki, akinek megvan rá a lehetősége, megpróbálkozna ugyanezzel. De a blockbuster filmek gyártási költségei miatt (a Bosszúállók Végjáték költségvetése 356 millió USD) csak a legjövedelmezőbb cégek engedhetik meg maguknak, hogy ilyen monumentális sikereket produkáljanak. De mi lenne, ha több kreatív ötlettel rendelkező embernek lenne eszköze arra, hogy a költségek egy százalékáért hollywoodi filmeket készítsen? A mesterséges intelligencia ereje, valamint más technológiák és technikák keveréke révén talán egy olyan technológiai forradalom küszöbén állunk, amelyhez foghatót eddig még nem láttunk.

Hogyan befolyásolhatja a mesterséges intelligencia egy jelenet minőségét?

A nagyszabású filmek gyártási ideje változó, a részletesség szintje pedig a jelenet prioritása, a film prioritása, az utolsó pillanatban végrehajtott változtatások és sok más tényező miatt változik. Az idő a fő tényező a különbségben a lenyűgöző 4k digitális képek között, amelyek úgy néznek ki, mint a leforgatott jelenetek (James Cameron Avatarja), és olyanok között, amelyek nem néznek ki olyan jól, mint a Marvel Fekete Párduc című filmjének harcjelenete, ahol a főszereplő és az ellenfél egy bányába száguld a film vége felé. Egy mesterséges intelligencia sokkal gyorsabban tudna összetett képeket összeállítani, mint bármelyik legtehetségesebb művészünk.

De hogyan működne? És megvan-e a technológia, hogy megvalósítsuk?

Ez a cikk megpróbál választ adni ezekre a kérdésekre azáltal, hogy megvitatja a jelenleg rendelkezésünkre álló technológiákat, és azt, hogy hogyan lehetne felhasználni őket egy hollywoodi mesterséges intelligencia megalkotásához.

Az arcfelismerés

Fotóhitel –

Az arcfelismerést már napi szinten használjuk. A mesterséges intelligencia már képes az arcok meglehetősen pontos felismerésére. Az arcfelismerő rendszer az arcon található minták elemzésével ellenőrzi egy személy képét. Azáltal, hogy ezeket az adatpontokat egy olyan készlettel hasonlítja össze, amely tartalmazza, hogyan mozognak az arcok bizonyos kontextusokban, például beszéd vagy érzelmi reakció esetén, a számítógép képes értékeket rendelni és manipulálni az arcadatokat, hogy kikényszerítsen egy eredményt. Ezek az eredmények felhasználhatók arra, hogy egy digitális szájat bizonyos adatoknak megfelelő mozgásra késztessenek. A mesterséges intelligencia ezt arra használná, hogy egyenként állóképeket készítsen egy karakter arcának egy bizonyos cél felé történő mozgásáról, például egy adott beszédsorozat elmondásáról. Ez még összetettebbé tehető a jelenet többi részének, a környezetre adott reakcióknak, a többi szereplőre adott reakcióknak vagy a körülményeknek a hozzáadásával. Az ilyen mesterséges intelligencia betanításához szükséges adatok megtalálása valószínűleg a legkönnyebb feladat. Az ilyen típusú adatokhoz rengeteg forrásfájl található a mozgóképfelvételeken. Természetesen ez egy túlságosan leegyszerűsített magyarázat, de ennek a posztnak a keretein belül nincs ördög a részletekben.

Mesterséges világ generálása és szimulációja

Egy másik kulcsfontosságú pont a filmépítő AI megtalálása során a mesterséges világ generálása és szimulációja. Egy teljesen mesterséges intelligencia által épített film egy teljesen digitális világban játszódna. Bár be lehetne illeszteni digitális felvételeket, amelyeket a számítógép manipulálni tudna, ez közel sem olyan menő, mint egy emberi befolyástól teljesen mentes világ. Ilyen típusú technológiával már rendelkezünk, és a videojátékokban is használják. A procedurálisan generált világok nem újdonságok, és valamilyen formában már 1991 óta léteznek, amikor megjelent Sid Meyer Civilizationje. A procedurális technológia az azóta eltelt közel három évtizedben folyamatosan fejlődött, és a 2016-os No Man’s Skyban érte el érzékelhető csúcspontját, ahol a földönkívüli világok, a flóra és az állatvilág procedurálisan generált, akár kétszázötvenhat különálló galaxisban. De mit jelent ez a filmek számára? Ha egy forgatókönyvben valami olyasmit írnak elő, hogy “egy futurisztikus disztópikus világ 20. század eleji dizájnvonalakkal”, akkor a nézők nem New York City újraszínezett változatát kapják, hanem egy procedurálisan generált világot, amely a 20. század eleji építészetből merít hatást. Ez mindenképpen üdvözlendő változás lenne. A Resident Evilt már nem Torontóban forgatnák, hanem egy procedurálisan generált Raccoon Cityben. A változatos és felismerhetetlen helyszínek hozzáadása csak fokozhatja a közönség elmerülését.

Fizikai szimulátorok

Photo Credit – Pexels

A környezetünkre való reagálás mellett digitálisan teljesen új környezeteket hozunk létre. És a legérdekesebb az, hogy az általunk létrehozott környezetek szinte ugyanúgy reagálnak ránk, mint a természetes környezetünk. Ezek a tipikusan videojátékokban használt környezetek a valós világot modellezik a textúrák, a megvilágítás és a fizika tekintetében. Még néhány év, vagy talán egy-két évtized munkájával a mesterséges intelligencia segítségével modellezni lehetne az egyének és a nagy csoportokban élő állatok viselkedését, hogy olyan városokat és nagyszabású viselkedéseket építsünk, amelyek a miénket tükrözik. Az Nvidia, a számítógépes grafikai technológiák egyik vezető gyártója tavaly adta ki PhysX szimulátorát nyílt forráskódúvá. Az ilyen döntéseknek köszönhetően bárki, aki rendelkezik a tudással, hozzájárulhat ahhoz a gazdag tudásanyaghoz, amellyel jelenleg rendelkezünk, és amelyet tovább bővítünk.

Deepfake

A mélyhamisítványok olyan képek és videók, amelyek számítógépes látást és hasonló technológiákat használnak arcok és hangok átfedésére, hogy valami újat hozzanak létre. Az ilyen technikákat alkalmazó videók már jó ideje keringenek az interneten. Eltekintve a lehetséges biztonsági kockázatoktól, amelyek e technológia fejlődésével jelentkezhetnek, az eddigi eredmények meghökkentőnek és szórakoztatónak bizonyultak. A Deepfake technikák filmes felhasználására már van precedens. Híres, hogy Peter Cushingot feltámasztották, hogy újra eljátssza Tarkin szerepét a Star Wars Rogue One című filmben. És első ránézésre nagyon meggyőző volt az alakítás. A digitális képeket tökéletesen összemosni egy élő előadó arcával elég nehéz feladat. Amikor Carrie Fisher fiatalabb változatára volt szükség Leia Organa megformálásához, szintén a Rogue One-ban, a művészek a néhai színésznő képeit keverték az élő Ingvild Deliára. Az alkalmazott technikák, bár figyelemre méltóak, nem tökéletesek. Bárki, aki megnézi a jelenetet, képes lenne rámutatni, hogy amit lát, az valójában nem Carrie Fisher. De mi van akkor, ha a Deepfake-et nem egy művész, hanem egy gép készítette? Jobb lenne? Valószínűleg. Amit a világ a Rogue One-ban látott, az a motion capture művészek munkája volt, de mi lenne, ha a motion capture-re már nem lenne szükség?

Viselkedési algoritmusok

Egy másik kulcsfontosságú pont. Bár nem tűnik rögtön szükségszerűségnek, ilyen algoritmusokra minden olyan jelenetben szükség lenne, amelyben nagyszámú ember vagy állat szerepel. Az emberek és állatok nagy csoportokban, bizonyos ingerekre reagálva kiszámítható módon viselkednek. Ha például egy filmben idegenek támadása vagy élőhalottak hada szerepelne, a számítógépnek képesnek kell lennie modellezni a csoport viselkedését, hogy pontos jelenetet tudjon létrehozni. Az ilyen adatok felhasználásával masszívabb forgatókönyveket lehetne létrehozni és elemezni a pontok extrapolálásával, és a film a fenyegetésekre adott természetes emberi reakciókat mutatná be, ami sokkal meggyőzőbb és félelmetesebb jelenetet eredményezne.

Digitális karakterek hírességek arcképeiből

Photo Credit – Unsplash

A potenciális technológia egyik legizgalmasabb kilátása a múlt hírességeinek személyiségein alapuló számítógépes személyiségek további lehetősége. A színpad és a filmvászon számos olyan sztárja van, aki már elhunyt, de kivételes tehetségük miatt szeretettel emlékeznek rájuk. Az a képesség, hogy ezek a személyiségek a jövőbeni filmekben is megjelenjenek, talán nem a varázslat vagy a tudományos fantasztikum terméke lesz a közeljövőben. A minták elemzése során a gépek modellezni tudnák a karakterek viselkedését, és pontos modellt reprodukálhatnának. Bár ez etikailag nem biztos, hogy kóser, de már most is van precedens az ilyen típusú technológiára a filmekben. Természetesen ez nem korlátozódik az előadók feltámasztására, de ugyanezt a fajta technológiát lehetne alkalmazni a mai színészekre/színésznőkre is, hogy más korban vagy más fajként képzeljék újra a karaktereiket. Ez azzal a további előnnyel járna, hogy az előadóknak nem kellene kényelmetlen protéziseket viselniük vagy testi változásokon átesniük egy adott szerep eljátszásához.

Microsoft text to image

A Microsoft, bár jelenleg még gyerekcipőben jár, kifejlesztett egy olyan technológiát, amely szövegből képeket generál. A felhasználók beírhatnak egy egyszerű leírást, és a program ennek alapján képet generál. Közelről nézve nem fantasztikusan részletes. Bár távolabbról a kép meglepően pontos. Könnyen elképzelhető, hogy az ilyen típusú képek a jövőben mennyire tiszták lesznek. Egy fejlettebb verzióval a felhasználó sokkal részletesebb adatokat adhatna meg, és cserébe élethű képet kapna. Kombináljuk össze ezeket a képeket, és máris megvan egy filmrészlet.

Beszédfordítás – Más nyelveken természetesen előadott filmek

A világhírű filmek, például a Star Wars és a Marvel-filmek szinkronszínészekből álló csapatokat használnak a karakterek szövegének előadására, hogy az angolon kívül más nyelveken beszélők is megnézhessék a filmet. De a szinkronizált és feliratozott filmek nem képesek olyan szintű elmélyülést nyújtani, mint az anyanyelvi filmek, ez nyilvánvaló. Az embereket arra tervezték, hogy a beszédet ne csak hallják, hanem lássák is, ez része annak, ahogyan gyerekként megtanulunk beszélni. Amikor felvett beszédet hallunk, például egy filmben, természetesen elvárjuk, hogy amit látunk (a színészek szája), az tükrözze a hangot. A szinkronizált filmek esetében ez nem így van. A technológiák kombinálásával azonban megoldást találhatunk erre a problémára. A Deepfake algoritmusok elemeinek felhasználásával és olyan szolgáltatásokkal való keverésével, mint például a Microsoft Speech Translation, létrehozhatunk egy olyan programot, amely automatikusan lefordítja az előadók beszédét, azzal a bónusszal, hogy életközeli hangszalag-artikulációkat kapunk, amelyeken gyönyörködhetünk a mindig kritikus szemünkben.

Rendezői stílusok modellezése

Egy filmben sok minden függ a rendezőtől. A rendező az első védelmi vonalunk egy szörnyű időpocsékolás és egy művészi remekmű között. A rendezők, akárcsak a filmek előadói, szintén emberek, és mint minden ember, ők sem tartanak örökké. És a színészekhez hasonlóan minden rendező a fejlett filmforgatási technikák, az innováció és a gyakorlatok egész adathalmazát hozza magával, amelyet a gépek elemezhetnek, hogy hűen reprodukálják. Ilyen technikákkal a világ láthatná azt a Napóleon-filmet, amelyet Stanley Kubrick soha nem készített el.

Az AI-filmek pontosabbak lehetnek, mint a “valódi” filmek

Photo Credit – Unsplash

A téma egyik legérdekesebb tényezője a hiperrealizmus. Egy mesterséges intelligencia kölcsönhatásba lép a matematikával. Nincs emberi szeme, füle vagy érzelme. Számokkal és mintákkal foglalkozik. Ezeknek a műveleteknek a terméke a mesterséges intelligencia legérdekesebb aspektusa. Az Interstellar című film megmutatta a nézőknek a fejlett számítási algoritmusok és a vizuális effektek együttes munkájának eredményét, amely egy fekete lyuk lenyűgöző képét eredményezte. Az Interstellarban látható fekete lyukat először 2014-ben mutatták be a közönségnek. Egészen 2019 áprilisáig nem tudtuk, hogy valójában hogyan is néz ki. A számítógép által előállított kép megdöbbentően hasonlít a tényleges fotóhoz. Azzal, hogy forgatókönyveket táplálunk egy mozgó, alkotó mesterséges intelligenciába, talán éppen a saját szemünkkel láthatjuk, hogy a fejlett tudomány mire siet felfedezni.”

Mit jelent ez az oktatás számára

Az oktatás számára példátlan áldásokat jelent ez a fajta technológia. A történelmi filmek csak azok, történelmi filmek. Bár rengeteg munkát végeztek már a régi fényképek színezésével, a folyamat nagyon időigényes és költséges. A képek 1000 szót mondanak, de mi lenne, ha ezek a képek beszélni is tudnának? Lincoln gettysburgi beszéde például a hangrögzítő technológia megjelenése előtt hangzott el, és elveszett az idők során. Az ilyen történelmi jelentőségű eseményeket azonban a fejlett technológiák segítségével digitálisan rekonstruálni lehetne. A kortársai által adott tanúvallomásokból tudjuk, hogyan nézett ki Lincoln, hogyan beszélt és hogyan gondolkodott. Ha ezeket az információkat betápláljuk egy programba, akkor Amerika 16. elnökének egy új digitális változatát lehetne létrehozni, hogy a fiatalokat az amerikai történelem egyik legváltozatosabb korszakának korabeli témáiról oktassuk. A Gettysburgi beszéd csak egy kis példa arra, hogy mit lehetne elérni.

Következtetés

Ez az áttekintés a mesterséges intelligencia filmek készítésében rejlő lehetőségeket tárgyalta. A gépi tanulás és a mintafelismerés segítségével teljesen megújíthatjuk a filmeket, a tv-t és az oktatást. A jelenleg alkalmazott technológiák és technikák szempontjainak kombinálásával egy teljesen új filmkészítési folyamat fog kitörni, és örökre megváltoztatja a média világát. A mélyhamisítás, a beszédfelismerés, a nyelvfeldolgozás és a viselkedési algoritmusok mind szerepet játszanak a film és a tv jövőjében. A jövő ígéretes, de együtt kell dolgoznunk annak érdekében, hogy felelősségteljesen kezeljük.

Ha az előző pontok nem győztek volna meg arról, hogy ez a technológia mennyire fontos most és nagyon hamarosan, akkor ne feledd… A Trónok harca 8. évadának újraforgatásához is felhasználható lenne.

Köszönjük az olvasást!

Szólj hozzá!