L’IA est-elle l’avenir d’Hollywood ?

William Osmon

Follow

Sep 27, 2019 – 9 min lu

.

Crédit photo –

Avec les films mondiaux à grandeLes films mondiaux à grande échelle rapportent des milliards (Avengers Endgame a rapporté 2.796 milliards de dollars US) au box-office, quiconque en a les moyens tenterait la même chose. Mais avec les coûts de production des films à succès (Avengers Endgame budget 356 millions USD), seules les entreprises les plus rentables peuvent se permettre de produire de tels succès monumentaux. Mais que se passerait-il si davantage de personnes ayant des idées créatives avaient les moyens de produire des films hollywoodiens à un pourcentage du coût ? Grâce au pouvoir de l’intelligence artificielle, et à un mélange d’autres technologies et techniques, nous pourrions être à l’aube d’une révolution technologique sans équivalent à ce jour.

Comment l’IA pourrait-elle influencer la qualité d’une scène ?

Le temps de production des films à grande échelle varie, et le niveau de détail varie en raison de la priorité de la scène, de la priorité du film, des changements de dernière minute, et de nombreux autres facteurs. Le temps est le principal facteur qui fait la différence entre des images numériques 4k époustouflantes qui ressemblent à des scènes filmées (Avatar de James Cameron) et des choses qui ne sont pas si belles que ça, comme la scène de combat dans Black Panther de Marvel où le protagoniste et l’antagoniste foncent dans une mine vers la fin du film. Une IA serait capable de compiler des images complexes bien plus rapidement que n’importe lequel de nos artistes les plus talentueux.

Mais comment cela fonctionnerait-il ? Et disposons-nous de la technologie pour y parvenir ?

Cet article tente de répondre à ces questions en abordant certaines des technologies dont nous disposons actuellement et comment elles peuvent être utilisées pour construire une IA hollywoodienne.

La reconnaissance faciale

Crédit photo –

Nous utilisons déjà la reconnaissance faciale au quotidien. L’IA est déjà capable de reconnaître les visages de manière assez précise. Un système de reconnaissance faciale vérifie l’image d’une personne en analysant les motifs présents sur un visage. En prenant ces points de données et en les comparant à un ensemble qui comprend la façon dont les visages bougent dans certains contextes, comme la parole ou la réaction émotionnelle, un ordinateur peut attribuer des valeurs et manipuler les données faciales pour forcer un résultat. Ces résultats peuvent être utilisés pour faire bouger une bouche numérique en fonction de certaines données. L’IA s’en servirait pour construire des images fixes, une par une, du visage d’un personnage se déplaçant vers un certain objectif, comme la récitation d’une phrase donnée. Ce processus peut être rendu encore plus complexe par l’ajout du reste de la scène, des réactions aux environnements, des réactions aux autres personnages ou des circonstances. Trouver les données pour entraîner une telle IA est probablement la partie la plus facile. Il existe de nombreux fichiers sources pour ce type de données que l’on peut trouver dans les séquences de capture de mouvement. Bien sûr, c’est une explication trop simplifiée mais, dans le cadre de ce post, il n’y a pas de diable dans ces détails.

Génération et simulation de monde artificiel

Un autre point clé dans la quête d’une IA de construction de film est la génération et la simulation de monde artificiel. Un film entièrement construit par une IA se déroulerait dans un monde entièrement numérique. Bien que l’on puisse insérer des séquences numériques que l’ordinateur pourrait manipuler, cela est loin d’être aussi cool qu’un monde construit entièrement libre de toute influence humaine. Nous disposons déjà de ce type de technologie et elle est utilisée dans les jeux vidéo. Les mondes générés de manière procédurale ne sont pas nouveaux et existent sous une forme ou une autre depuis 1991, avec la sortie de Civilization de Sid Meyer. La technologie procédurale a régulièrement progressé au cours des trois décennies qui ont suivi et a atteint un sommet perceptible dans No Man’s Sky de 2016, où des mondes extraterrestres, la flore et la faune sont générés de manière procédurale jusqu’à deux cent cinquante-six galaxies distinctes. Mais qu’est-ce que cela signifie pour les films ? Lorsqu’un scénario spécifie quelque chose comme « un monde dystopique futuriste avec des éléments de design du début du XXe siècle », le public n’obtiendra pas une version recolorée de la ville de New York, mais un monde généré de manière procédurale qui s’inspire de l’architecture du début du XXe siècle. Ce serait un changement bienvenu, c’est certain. Resident Evil ne serait plus filmé à Toronto, mais dans une Raccoon City générée de manière procédurale. L’ajout de lieux variés et méconnaissables ne peut que renforcer l’immersion du public.

Simulateurs physiques

Photo Credit – Pexels

En plus de réagir à notre environnement, nous créons numériquement des environnements entièrement nouveaux. Et le plus intéressant est que les environnements que nous créons réagissent à nous de la même manière que notre environnement naturel. Ces environnements, généralement utilisés dans les jeux vidéo, reproduisent le monde réel en termes de textures, d’éclairage et de physique. Avec quelques années de plus, voire une ou deux décennies de travail, l’IA pourrait être utilisée pour modéliser les comportements des individus et des animaux en grands groupes afin de construire des villes et des comportements à grande échelle qui reflètent les nôtres. L’année dernière, Nvidia, l’un des principaux producteurs de technologies graphiques informatiques, a mis son simulateur PhysX en libre accès. Grâce à des décisions comme celle-ci, toute personne possédant le savoir-faire peut contribuer à la richesse des connaissances que nous possédons actuellement et que nous développons.

Deepfakes

Les deepfakes sont des images et des vidéos qui utilisent la vision par ordinateur et des technologies similaires pour superposer des visages et des sons afin de produire quelque chose de nouveau. Des vidéos utilisant ces techniques circulent sur Internet depuis un certain temps déjà. Mis à part les risques potentiels pour la sécurité qui peuvent survenir au fur et à mesure du développement de cette technologie, les résultats obtenus jusqu’à présent se sont révélés à la fois étonnants et amusants. Il existe déjà un précédent d’utilisation des techniques Deepfake dans le cinéma. Peter Cushing a été ressuscité pour reprendre le rôle de Tarkin dans Star Wars Rogue One. Et, à première vue, la performance était très convaincante. Il est assez difficile de fusionner parfaitement des images numériques avec le visage d’un interprète vivant. Lorsqu’il a fallu trouver une version plus jeune de Carrie Fisher pour incarner Leia Organa, également dans Rogue One, les artistes ont fusionné des images de l’actrice défunte avec Ingvild Delia, qui était vivante. Les techniques employées, bien que remarquables, ne sont pas parfaites. Toute personne regardant la scène serait en mesure de signaler que ce qu’elle voit n’est en fait pas Carrie Fisher. Mais que se passerait-il si le Deepfake était réalisé non pas par un artiste, mais par une machine ? Serait-il meilleur ? Probablement. Ce que le monde a vu dans Rogue One était le travail d’artistes de la capture de mouvement, mais que se passerait-il si la capture de mouvement n’était plus nécessaire ?

Agorithmes comportementaux

Sont un autre point clé. Bien qu’ils ne soient pas immédiatement apparus comme une nécessité, ces types d’algorithmes seraient nécessaires dans toute scène impliquant une grande quantité de personnes ou d’animaux. Les gens et les animaux se comportent de manière prévisible dans de grands groupes en réponse à certains stimuli. Par exemple, si un film devait impliquer une attaque extraterrestre ou une horde de morts-vivants, l’ordinateur devrait être capable de modéliser le comportement du groupe pour produire une scène précise. En utilisant des données telles que celles-ci, des scénarios plus massifs pourraient être créés et analysés par l’extrapolation de points et un film mettrait en scène les réactions humaines naturelles aux menaces, ce qui conduirait à une scène beaucoup plus convaincante et terrifiante.

Personnages numériques à partir de sosies de célébrités

Crédit photo – Unsplash

L’une des perspectives les plus excitantes de cette technologie potentielle est la possibilité supplémentaire de personnalités générées par ordinateur basées sur celles de célébrités du passé. De nombreuses stars de la scène et de l’écran sont décédées, mais on se souvient d’elles avec émotion pour leurs talents exceptionnels. La possibilité d’inclure ces personnalités dans les futurs films ne relèvera peut-être pas de la magie ou de la science-fiction dans un avenir proche. En analysant les modèles, les machines pourraient modéliser le comportement des personnages et reproduire un modèle précis. Bien que cela puisse ne pas être conforme à l’éthique, il existe déjà des précédents de ce type de technologie dans les films. Bien sûr, cela ne se limite pas à la résurrection des artistes, mais le même type de technologie pourrait être appliqué aux acteurs/actrices contemporains pour réimaginer leurs personnages à une autre époque ou dans une autre espèce. Cela aurait l’avantage supplémentaire que les interprètes n’auraient pas besoin de porter des prothèses inconfortables ou de subir des changements corporels pour jouer un certain rôle.

Microsoft text to image

Bien qu’à ses débuts, actuellement, Microsoft a développé une technologie qui génère des images à partir de texte. Les utilisateurs peuvent saisir une simple description et le programme génère une image à partir de celle-ci. De près, elle n’est pas fantastiquement détaillée. Cependant, de loin, l’image est étonnamment précise. On peut facilement imaginer à quel point ces types d’images deviendront claires à l’avenir. Avec une version plus avancée de ce système, un utilisateur pourrait saisir des données beaucoup plus détaillées et recevoir en retour une image plus vraie que nature. Combinez toutes ces images ensemble et vous avez un segment de film.

Traduction vocale – Films produits naturellement dans d’autres langues

Les sorties mondiales telles que Star Wars et les films Marvel utilisent des équipes d’acteurs de voix-off pour interpréter les lignes des personnages afin que les locuteurs de langues autres que l’anglais puissent également regarder le film. Mais les films doublés et sous-titrés ne peuvent pas offrir le même niveau d’immersion que les films en langue maternelle, c’est évident. Les humains sont câblés pour voir la parole et l’entendre, cela fait partie de la façon dont nous apprenons à parler quand nous sommes enfants. Lorsque nous entendons un discours enregistré, comme dans un film, nous nous attendons naturellement à ce que ce que nous voyons (les bouches des acteurs) reflète l’audio. Dans les films doublés, ce n’est pas le cas. Toutefois, en combinant les technologies, nous pourrions trouver une solution à ce problème. En prenant des éléments des algorithmes Deepfake et en les mélangeant avec des services tels que la traduction vocale de Microsoft, nous pourrions être en mesure de créer un programme qui traduit automatiquement le discours des interprètes avec le bonus supplémentaire d’avoir des articulations du tractus vocal proches de la réalité sur lesquelles nous pourrions régaler nos yeux toujours critiques.

Modélisation des styles de réalisateurs

Tant de choses dans un film dépendent du réalisateur. Le réalisateur est la première ligne de défense que nous avons entre une terrible perte de temps et un chef-d’œuvre artistique. Les réalisateurs, comme les acteurs de films, sont aussi des personnes, et comme toutes les personnes, ils ne sont pas éternels. Et comme les acteurs, chaque réalisateur apporte un ensemble de données sur les techniques de tournage avancées, les innovations et les pratiques qui peuvent être analysées par des machines pour être reproduites fidèlement. Avec de telles techniques, le monde pourrait voir le film Napoléon que Stanley Kubrick n’a jamais réalisé.

Les films de l’IA pourraient être plus précis que ceux de la « vraie vie »

Crédit photo – Unsplash

L’un des facteurs les plus intéressants de ce sujet est celui de l’hyperréalisme. Une IA interagit avec les mathématiques. Elle n’a pas d’yeux, d’oreilles ou d’émotions humaines. Elle traite des chiffres et des modèles. C’est le produit de ces opérations qui constitue l’aspect le plus intriguant de l’intelligence artificielle. Le film Interstellar a montré au public le produit d’algorithmes de calcul avancés travaillant en tandem avec des effets visuels pour produire une image étonnante d’un trou noir. Le trou noir dans Interstellar a été montré aux spectateurs pour la première fois en 2014. Nous n’avons pas su à quoi ils ressemblaient réellement avant avril 2019. L’image produite par un ordinateur est étonnamment similaire à la photo réelle. En alimentant des scénarios dans une IA de fabrication de mouvements, nous pourrions bien voir de nos propres yeux ce que la science avancée s’empresse de découvrir.

Ce que cela signifie pour l’éducation

Les bienfaits pour l’éducation sont sans précédent avec ce type de technologie. Les films historiques ne sont que cela, des films historiques. Bien que beaucoup de travail ait été fait pour coloriser de vieilles photos, le processus est très long et coûteux. Les images valent mille mots, mais que se passerait-il si ces images pouvaient parler ? Par exemple, le discours de Gettysburg de Lincoln a été prononcé avant l’avènement de la technologie d’enregistrement et a été perdu dans le temps. Mais des événements aussi importants sur le plan historique pourraient être reconstitués numériquement grâce à des technologies avancées. Nous savons à quoi ressemblait Lincoln, comment il parlait et comment il pensait grâce aux témoignages de ses contemporains. En introduisant ces informations dans un programme, une nouvelle version numérique du 16e président des États-Unis pourrait être construite pour éduquer les jeunes sur des sujets contemporains de l’une des périodes les plus explosives de l’histoire américaine. Le discours de Gettysburg n’est qu’un petit exemple de ce qui pourrait être réalisé.

Conclusion

Cet aperçu a discuté du potentiel de l’utilisation de l’IA pour construire des films. Nous pouvons utiliser l’apprentissage automatique et la reconnaissance des formes pour réorganiser complètement les films, la télévision et l’éducation. En combinant des aspects des technologies et des techniques que nous employons actuellement, un processus entièrement nouveau de réalisation de films fera irruption et changera le monde des médias pour toujours. Les Deepfakes, la reconnaissance vocale, le traitement du langage et les algorithmes comportementaux jouent tous un rôle dans l’avenir du cinéma et de la télévision. L’avenir est prometteur, mais nous devons travailler ensemble pour nous assurer qu’il est géré de manière responsable.

Si l’un des points précédents ne vous a pas convaincu de l’importance de cette technologie aujourd’hui et très bientôt, gardez à l’esprit… Elle pourrait être utilisée pour refaire la saison 8 de Game of Thrones.

Merci de lire!

Laisser un commentaire