L’IA è il futuro di Hollywood?

William Osmon

Follow

Sep 27, 2019 – 9 min read

Credito fotografico –

Con i film globali su larga scalafilm globali su larga scala che rastrellano miliardi (Avengers Endgame ha fatto 2.796 miliardi di dollari) al botteghino, chiunque abbia i mezzi potrebbe provare lo stesso. Ma con i costi di produzione dei film blockbuster (Avengers Endgame ha un budget di 356 milioni di dollari), solo le aziende più redditizie possono permettersi di produrre questi successi monumentali. Ma cosa succederebbe se più persone con idee creative avessero i mezzi per produrre film di Hollywood a una percentuale del costo? Attraverso il potere dell’intelligenza artificiale, e un mix di altre tecnologie e tecniche, potremmo essere sull’orlo di una rivoluzione tecnologica diversa da qualsiasi altra fino ad oggi.

Come potrebbe l’AI influenzare la qualità di una scena?

Il tempo di produzione dei film su larga scala varia, e il livello di dettaglio varia a causa della priorità della scena, della priorità del film, dei cambiamenti dell’ultimo minuto e di molti altri fattori. Il tempo è il fattore principale nella differenza tra immagini digitali 4k mozzafiato che sembrano scene filmate (Avatar di James Cameron) e cose che non sembrano tutte così grandi, come la scena di combattimento in Black Panther della Marvel dove il protagonista e l’antagonista sbattono contro una miniera verso la fine del film. Un’IA sarebbe in grado di compilare immagini complesse molto più velocemente di qualsiasi dei nostri artisti più talentuosi.

Ma come funzionerebbe? E abbiamo la tecnologia per farlo accadere?

Questo articolo cerca di rispondere a queste domande discutendo alcune delle tecnologie che abbiamo attualmente e come possono essere utilizzate per costruire una IA di Hollywood.

Riconoscimento facciale

Credito fotografico –

Usiamo già il riconoscimento facciale su base giornaliera. L’IA è già in grado di riconoscere i volti in modo abbastanza accurato. Un sistema di riconoscimento facciale verifica l’immagine di una persona analizzando i modelli presenti su un volto. Prendendo questi punti di dati e confrontandoli con un insieme che include come i volti si muovono in determinati contesti, come il discorso o la reazione emotiva, un computer può assegnare valori e manipolare i dati facciali per forzare un risultato. Questi risultati possono essere utilizzati per far muovere una bocca digitale in modo che corrisponda a certi dati. L’IA userebbe questo per costruire fotogrammi, uno per uno, del volto di un personaggio che si muove verso un certo obiettivo, come recitare una data stringa di discorso. Questo può essere reso ancora più complesso con l’aggiunta del resto di una scena, reazioni agli ambienti, reazioni ad altri personaggi o circostanze. Trovare i dati per addestrare una tale IA è probabilmente la parte più facile. Ci sono molti file sorgente per questo tipo di dati che possono essere trovati nei filmati di motion capture. Naturalmente questa è una spiegazione troppo semplificata ma, nello scopo di questo post, non c’è il diavolo in questi dettagli.

Generazione e simulazione di mondi artificiali

Un altro punto chiave nella ricerca di un’IA che costruisca film è la generazione e simulazione di mondi artificiali. Un film costruito interamente da un’IA si svolgerebbe in un mondo completamente digitale. Anche se si potrebbero inserire filmati digitali che il computer potrebbe manipolare, questo non è così bello come un mondo costruito interamente libero dall’influenza umana. Abbiamo già questo tipo di tecnologia ed è usata nei videogiochi. I mondi generati proceduralmente non sono una novità e sono stati in giro in qualche forma dal 1991 con l’uscita di Civilization di Sid Meyer. La tecnologia procedurale è progredita costantemente nei quasi tre decenni successivi e ha raggiunto un picco percepibile in No Man’s Sky del 2016, dove mondi extraterrestri, flora e fauna sono generati proceduralmente fino a duecentocinquantasei galassie separate. Ma cosa significa questo per i film? Quando una sceneggiatura specifica qualcosa come “un mondo futuristico distopico con code di design dell’inizio del XX secolo” il pubblico non otterrebbe una versione ricolorata di New York City, ma un mondo generato proceduralmente che trae influenza dall’architettura dell’inizio del XX secolo. Questo sarebbe un cambiamento gradito per essere sicuri. Non più Resident Evil sarebbe stato girato a Toronto, ma in una Raccoon City generata proceduralmente. L’aggiunta di luoghi variabili e irriconoscibili non può che aumentare l’immersione del pubblico.

Simulatori fisici

Photo Credit – Pexels

Oltre a reagire al nostro ambiente, stiamo creando ambienti completamente nuovi in digitale. E la parte più interessante è che gli ambienti che creiamo reagiscono a noi quasi allo stesso modo del nostro ambiente naturale. Questi ambienti, tipicamente usati nei videogiochi, modellano il mondo reale in termini di texture, illuminazione e fisica. Con qualche altro anno o forse un decennio o due di lavoro, l’IA potrebbe essere usata per modellare i comportamenti degli individui e degli animali in grandi gruppi per costruire città e comportamenti su larga scala che rispecchiano i nostri. Nvidia, uno dei principali produttori di tecnologia di computer grafica, ha rilasciato il suo simulatore PhysX in open-source l’anno scorso. Grazie a decisioni come questa, chiunque abbia il know-how può contribuire alla ricchezza della conoscenza che abbiamo attualmente e che stiamo espandendo.

Deepfakes

Deepfakes sono immagini e video che usano la computer vision e tecnologie simili per sovrapporre volti e audio per produrre qualcosa di nuovo. I video che utilizzano queste tecniche sono in circolazione su internet da un po’ di tempo. A parte i potenziali rischi per la sicurezza che possono verificarsi con lo sviluppo di questa tecnologia, i risultati finora hanno dimostrato di essere sia sorprendenti che divertenti. C’è già un precedente per l’utilizzo di tecniche Deepfake nel cinema. Famosamente, Peter Cushing è stato resuscitato per riprendere il ruolo di Tarkin in Star Wars Rogue One. E, a colpo d’occhio, la performance è stata molto convincente. Fondere perfettamente le immagini digitali con il volto di un interprete vivente è piuttosto difficile. Quando è stata richiesta una versione più giovane di Carrie Fisher per ritrarre Leia Organa, sempre in Rogue One, gli artisti hanno mescolato le immagini della defunta attrice con la vivente Ingvild Delia. Le tecniche impiegate, sebbene notevoli, non sono perfette. Qualsiasi persona che guardi la scena sarebbe in grado di far notare che ciò che stava vedendo non era in realtà Carrie Fisher. Ma cosa succederebbe se il Deepfake non fosse fatto da un artista, ma da una macchina? Sarebbe meglio? Probabilmente sì. Quello che il mondo ha visto in Rogue One è stato il lavoro di artisti del motion capture, ma se il motion capture non fosse più necessario?

Algoritmi comportamentali

Sono un altro punto chiave. Anche se non appare immediatamente come una necessità, questo tipo di algoritmi sarebbe necessario in qualsiasi scena che coinvolge una grande quantità di persone o animali. Le persone e gli animali si comportano in modo prevedibile in grandi gruppi in risposta a certi stimoli. Per esempio, se un film dovesse coinvolgere un attacco alieno o un’orda di non morti, il computer dovrebbe essere in grado di modellare il comportamento del gruppo per produrre una scena accurata. Utilizzando dati come questo, scenari più massicci potrebbero essere creati e analizzati attraverso l’estrapolazione di punti e un film potrebbe sfoggiare reazioni umane naturali alle minacce, portando a una scena molto più convincente e terrificante.

Personaggi digitali da somiglianze di celebrità

Photo Credit – Unsplash

Una delle prospettive più eccitanti di questa potenziale tecnologia è la possibilità aggiunta di personalità generate dal computer basate su quelle di celebrità del passato. Ci sono molte stelle del palcoscenico e dello schermo che sono passate a miglior vita ma che sono ricordate con affetto per il loro eccezionale talento. La capacità di includere questi personaggi nei film futuri potrebbe non essere il prodotto della magia o della fantascienza nel prossimo futuro. Analizzando i modelli, le macchine potrebbero modellare il comportamento dei personaggi e riprodurre un modello accurato. Anche se questo potrebbe non essere eticamente kosher, c’è già un precedente per questo tipo di tecnologia nei film ora. Naturalmente questo non è limitato alla resurrezione degli interpreti, ma lo stesso tipo di tecnologia potrebbe essere applicato ad attori/attrici contemporanei per reimmaginare i loro personaggi in un’altra epoca o specie. Questo avrebbe l’ulteriore vantaggio di non dover indossare scomode protesi o subire cambiamenti corporei per interpretare un certo ruolo.

Microsoft text to image

Anche se nella sua fase iniziale, attualmente, Microsoft ha sviluppato una tecnologia che genera immagini dal testo. Gli utenti possono inserire una semplice descrizione e il programma genererà un’immagine basata su di essa. Da vicino, non è fantasticamente dettagliata. Anche se, da lontano, l’immagine è sorprendentemente accurata. Si può facilmente immaginare quanto chiari diventeranno questi tipi di immagini in futuro. Con una versione più avanzata di questo, un utente potrebbe inserire dati molto più dettagliati e ricevere in cambio un’immagine realistica. Combinate tutte queste immagini insieme e avrete un segmento di film.

Traduzione vocale – Film prodotti naturalmente in altre lingue

I film globali come Star Wars e i film della Marvel usano squadre di doppiatori per recitare le battute dei personaggi, così anche chi parla lingue diverse dall’inglese può guardare il film. Ma i film doppiati e subbati non possono portare il livello di immersione che possono avere i film in lingua madre, questo è ovvio. Gli esseri umani sono predisposti a vedere il parlato oltre che a sentirlo, fa parte di come impariamo a parlare da bambini. Quando sentiamo un discorso registrato, come in un film, ci aspettiamo naturalmente che ciò che vediamo (le bocche degli attori) rifletta l’audio. Nei film doppiati non è così. Tuttavia, combinando le tecnologie, potremmo trovare una soluzione a questo problema. Prendendo elementi degli algoritmi di Deepfake e mescolandoli con servizi come Speech Translation di Microsoft, potremmo essere in grado di creare un programma che traduce automaticamente il discorso dell’interprete con l’ulteriore vantaggio di avere articolazioni del tratto vocale vicine alla realtà su cui possiamo rifarci i nostri occhi sempre critici.

Modellare gli stili di regia

Tante cose in un film dipendono dal regista. Il regista è la prima linea di difesa che abbiamo tra una terribile perdita di tempo e un capolavoro artistico. Anche i registi, come gli interpreti dei film, sono persone, e come tutte le persone non durano per sempre. E come gli attori, ogni regista porta un intero set di tecniche di ripresa avanzate, innovazione e pratiche che possono essere analizzate dalle macchine per essere riprodotte fedelmente. Con tecniche come questa, il mondo potrebbe vedere il film su Napoleone che Stanley Kubrick non ha mai fatto.

I film dell’IA potrebbero essere più accurati dei film della “vita reale”

Photo Credit – Unsplash

Uno dei fattori più interessanti in questo argomento è quello dell’iperrealismo. Un’IA interagisce con la matematica. Non ha occhi, orecchie o emozioni umane. Si occupa di numeri e schemi. È il prodotto di queste operazioni che sono gli aspetti più intriganti dell’intelligenza artificiale. Il film Interstellar ha mostrato al pubblico il prodotto di algoritmi computazionali avanzati che lavorano in tandem con gli effetti visivi per produrre una splendida immagine di un buco nero. Il buco nero in Interstellar è stato mostrato per la prima volta al pubblico nel 2014. Non sapevamo che aspetto avessero in realtà fino all’aprile del 2019. L’immagine prodotta da un computer è sorprendentemente simile alla foto reale. Alimentando scenari in un’IA in movimento, potremmo vedere con i nostri occhi ciò che la scienza avanzata si sta affrettando a scoprire.

Cosa significa per l’educazione

I vantaggi per l’educazione sono senza precedenti con questo tipo di tecnologia. I film storici sono solo questo, storici. Anche se è stato fatto un sacco di lavoro per colorare le vecchie foto, il processo richiede molto tempo ed è costoso. Le immagini dicono 1000 parole, ma cosa succederebbe se quelle immagini potessero parlare. Per esempio, il discorso di Gettysburg di Lincoln è stato pronunciato prima dell’avvento della tecnologia di registrazione ed è stato perso nel tempo. Ma eventi storicamente significativi come questo potrebbero essere ricostruiti digitalmente usando tecnologie avanzate. Sappiamo che aspetto aveva Lincoln, come parlava e come pensava attraverso le testimonianze dei suoi contemporanei. Inserendo queste informazioni in un programma, si potrebbe costruire una nuova versione digitale del 16° presidente americano per educare i giovani su argomenti contemporanei a uno dei periodi più volatili della storia americana. Il discorso di Gettysburg è solo un piccolo esempio di ciò che si potrebbe ottenere.

Conclusione

Questa panoramica ha discusso il potenziale dell’uso dell’IA per costruire film. Possiamo usare il Machine Learning e il riconoscimento dei modelli per rinnovare completamente i film, la tv e l’educazione. Combinando gli aspetti delle tecnologie e delle tecniche che impieghiamo attualmente, un processo completamente nuovo di creazione di film esploderà e cambierà il mondo dei media per sempre. Deepfakes, riconoscimento vocale, elaborazione del linguaggio e algoritmi comportamentali hanno tutti un ruolo nel futuro del cinema e della tv. Il futuro è promettente, ma dobbiamo lavorare insieme per assicurarci che sia gestito in modo responsabile.

Se qualcuno dei punti precedenti non vi ha convinto di quanto questa tecnologia sia importante ora e lo sarà molto presto, basta tenere a mente… Potrebbe essere usata per rifare Game of Thrones stagione 8.

Grazie per aver letto!

Lascia un commento