.
Avec les films mondiaux à grandeLes films mondiaux à grande échelle rapportent des milliards (Avengers Endgame a rapporté 2.796 milliards de dollars US) au box-office, quiconque en a les moyens tenterait la même chose. Mais avec les coûts de production des films à succès (Avengers Endgame budget 356 millions USD), seules les entreprises les plus rentables peuvent se permettre de produire de tels succès monumentaux. Mais que se passerait-il si davantage de personnes ayant des idées créatives avaient les moyens de produire des films hollywoodiens à un pourcentage du coût ? Grâce au pouvoir de l’intelligence artificielle, et à un mélange d’autres technologies et techniques, nous pourrions être à l’aube d’une révolution technologique sans équivalent à ce jour.
Comment l’IA pourrait-elle influencer la qualité d’une scène ?
Le temps de production des films à grande échelle varie, et le niveau de détail varie en raison de la priorité de la scène, de la priorité du film, des changements de dernière minute, et de nombreux autres facteurs. Le temps est le principal facteur qui fait la différence entre des images numériques 4k époustouflantes qui ressemblent à des scènes filmées (Avatar de James Cameron) et des choses qui ne sont pas si belles que ça, comme la scène de combat dans Black Panther de Marvel où le protagoniste et l’antagoniste foncent dans une mine vers la fin du film. Une IA serait capable de compiler des images complexes bien plus rapidement que n’importe lequel de nos artistes les plus talentueux.
Mais comment cela fonctionnerait-il ? Et disposons-nous de la technologie pour y parvenir ?
Cet article tente de répondre à ces questions en abordant certaines des technologies dont nous disposons actuellement et comment elles peuvent être utilisées pour construire une IA hollywoodienne.
La reconnaissance faciale
Nous utilisons déjà la reconnaissance faciale au quotidien. L’IA est déjà capable de reconnaître les visages de manière assez précise. Un système de reconnaissance faciale vérifie l’image d’une personne en analysant les motifs présents sur un visage. En prenant ces points de données et en les comparant à un ensemble qui comprend la façon dont les visages bougent dans certains contextes, comme la parole ou la réaction émotionnelle, un ordinateur peut attribuer des valeurs et manipuler les données faciales pour forcer un résultat. Ces résultats peuvent être utilisés pour faire bouger une bouche numérique en fonction de certaines données. L’IA s’en servirait pour construire des images fixes, une par une, du visage d’un personnage se déplaçant vers un certain objectif, comme la récitation d’une phrase donnée. Ce processus peut être rendu encore plus complexe par l’ajout du reste de la scène, des réactions aux environnements, des réactions aux autres personnages ou des circonstances. Trouver les données pour entraîner une telle IA est probablement la partie la plus facile. Il existe de nombreux fichiers sources pour ce type de données que l’on peut trouver dans les séquences de capture de mouvement. Bien sûr, c’est une explication trop simplifiée mais, dans le cadre de ce post, il n’y a pas de diable dans ces détails.
Génération et simulation de monde artificiel
Un autre point clé dans la quête d’une IA de construction de film est la génération et la simulation de monde artificiel. Un film entièrement construit par une IA se déroulerait dans un monde entièrement numérique. Bien que l’on puisse insérer des séquences numériques que l’ordinateur pourrait manipuler, cela est loin d’être aussi cool qu’un monde construit entièrement libre de toute influence humaine. Nous disposons déjà de ce type de technologie et elle est utilisée dans les jeux vidéo. Les mondes générés de manière procédurale ne sont pas nouveaux et existent sous une forme ou une autre depuis 1991, avec la sortie de Civilization de Sid Meyer. La technologie procédurale a régulièrement progressé au cours des trois décennies qui ont suivi et a atteint un sommet perceptible dans No Man’s Sky de 2016, où des mondes extraterrestres, la flore et la faune sont générés de manière procédurale jusqu’à deux cent cinquante-six galaxies distinctes. Mais qu’est-ce que cela signifie pour les films ? Lorsqu’un scénario spécifie quelque chose comme « un monde dystopique futuriste avec des éléments de design du début du XXe siècle », le public n’obtiendra pas une version recolorée de la ville de New York, mais un monde généré de manière procédurale qui s’inspire de l’architecture du début du XXe siècle. Ce serait un changement bienvenu, c’est certain. Resident Evil ne serait plus filmé à Toronto, mais dans une Raccoon City générée de manière procédurale. L’ajout de lieux variés et méconnaissables ne peut que renforcer l’immersion du public.
Simulateurs physiques
En plus de réagir à notre environnement, nous créons numériquement des environnements entièrement nouveaux. Et le plus intéressant est que les environnements que nous créons réagissent à nous de la même manière que notre environnement naturel. Ces environnements, généralement utilisés dans les jeux vidéo, reproduisent le monde réel en termes de textures, d’éclairage et de physique. Avec quelques années de plus, voire une ou deux décennies de travail, l’IA pourrait être utilisée pour modéliser les comportements des individus et des animaux en grands groupes afin de construire des villes et des comportements à grande échelle qui reflètent les nôtres. L’année dernière, Nvidia, l’un des principaux producteurs de technologies graphiques informatiques, a mis son simulateur PhysX en libre accès. Grâce à des décisions comme celle-ci, toute personne possédant le savoir-faire peut contribuer à la richesse des connaissances que nous possédons actuellement et que nous développons.
Deepfakes
Les deepfakes sont des images et des vidéos qui utilisent la vision par ordinateur et des technologies similaires pour superposer des visages et des sons afin de produire quelque chose de nouveau. Des vidéos utilisant ces techniques circulent sur Internet depuis un certain temps déjà. Mis à part les risques potentiels pour la sécurité qui peuvent survenir au fur et à mesure du développement de cette technologie, les résultats obtenus jusqu’à présent se sont révélés à la fois étonnants et amusants. Il existe déjà un précédent d’utilisation des techniques Deepfake dans le cinéma. Peter Cushing a été ressuscité pour reprendre le rôle de Tarkin dans Star Wars Rogue One. Et, à première vue, la performance était très convaincante. Il est assez difficile de fusionner parfaitement des images numériques avec le visage d’un interprète vivant. Lorsqu’il a fallu trouver une version plus jeune de Carrie Fisher pour incarner Leia Organa, également dans Rogue One, les artistes ont fusionné des images de l’actrice défunte avec Ingvild Delia, qui était vivante. Les techniques employées, bien que remarquables, ne sont pas parfaites. Toute personne regardant la scène serait en mesure de signaler que ce qu’elle voit n’est en fait pas Carrie Fisher. Mais que se passerait-il si le Deepfake était réalisé non pas par un artiste, mais par une machine ? Serait-il meilleur ? Probablement. Ce que le monde a vu dans Rogue One était le travail d’artistes de la capture de mouvement, mais que se passerait-il si la capture de mouvement n’était plus nécessaire ?
Agorithmes comportementaux
Sont un autre point clé. Bien qu’ils ne soient pas immédiatement apparus comme une nécessité, ces types d’algorithmes seraient nécessaires dans toute scène impliquant une grande quantité de personnes ou d’animaux. Les gens et les animaux se comportent de manière prévisible dans de grands groupes en réponse à certains stimuli. Par exemple, si un film devait impliquer une attaque extraterrestre ou une horde de morts-vivants, l’ordinateur devrait être capable de modéliser le comportement du groupe pour produire une scène précise. En utilisant des données telles que celles-ci, des scénarios plus massifs pourraient être créés et analysés par l’extrapolation de points et un film mettrait en scène les réactions humaines naturelles aux menaces, ce qui conduirait à une scène beaucoup plus convaincante et terrifiante.