AIはハリウッドの未来か?

William Osmon

Follow

Sep 27, 2019 – 9 min read

Photo Credit –

大企業と中小企業の競争は激化しています。アベンジャーズ・エンドゲームが2,000億円を売り上げたように、世界的な大作映画である。アベンジャーズ・エンドゲームは2,796億ドル)。 しかし、超大作映画の制作費(『アベンジャーズ/エンドゲーム』の予算は3億5600万米ドル)を考えると、最も収益性の高い企業だけが、このような記念すべき成功を収める余裕がある。 しかし、もしクリエイティブなアイデアを持つ多くの人が、ハリウッド映画を何パーセントかのコストで制作する手段を持っていたらどうでしょう?

How could AI influence the quality of a scene?

大規模な映画の制作時間はさまざまで、シーンの優先順位、フィルムの優先順位、直前の変更、その他の多くの要因によって、細部のレベルも異なります。 映画のシーンのような見事な4Kデジタル画像(ジェームズ・キャメロン監督の『アバター』)と、マーベルの『ブラックパンサー』で主人公と敵役が終盤に地雷に突っ込んでいく戦闘シーンのような、それほど見栄えのしないものの違いは、時間が大きな要因となっているのです。 AI は、私たちの最も才能あるアーティストよりもはるかに速く、複雑な画像をコンパイルすることができるでしょう」

しかし、それはどのように機能するのでしょうか?

この記事では、私たちが現在持っている技術の一部と、それを使ってハリウッドの AI を構築する方法について説明することにより、これらの疑問に答えようと試みます。

顔認識

Photo Credit –

我々はすでに日常的に顔認識を使っています。 AIはすでにかなり正確に顔を認識することができます。 顔認識システムは、顔に存在するパターンを分析することによって、その人のイメージを確認します。 これらのデータポイントを取得し、スピーチや感情的な反応など、特定のコンテキストでの顔の動きを含むセットと比較することで、コンピュータは値を割り当て、結果を強制するために顔のデータを操作することができます。 この結果を利用して、特定のデータに合わせてデジタルマウスを動かすことができます。 AIはこれを使って、あるキャラクターの顔が特定のゴールに向かって動いている静止画を1枚ずつ作っていきます。例えば、与えられたスピーチの文字列を暗唱するとか。 これにシーンの残りや環境に対する反応、他のキャラクターに対する反応、状況などを加えると、さらに複雑な動きをさせることができます。 このようなAIを学習させるためのデータを探すのは、おそらく簡単なことでしょう。 この種のデータのソースファイルは、モーションキャプチャーの映像の中にたくさんあります。 もちろん、これは単純化しすぎた説明ですが、この投稿の範囲では、これらの詳細に悪魔はありません。

人工世界の生成とシミュレーション

映画を作る AI を見つける探求におけるもうひとつのキーポイントは、人工世界の生成とシミュレーションです。 完全にAIによって作られた映画は、完全なデジタル世界が舞台となります。 コンピュータが操作できるデジタル映像を挿入することはできますが、人間の影響をまったく受けずに構築された世界ほどクールではありません。 このような技術はすでにあり、ビデオゲームでも使われています。 プロシージャルな世界は何も新しいものではなく、1991年にシド・マイヤーの『シヴィライゼーション』がリリースされて以来、何らかの形で存在してきた。 プロシージャル技術は、その後の約30年間に着実に進歩し、2016年の『No Man’s Sky』では、地球外の世界、植物、動物が最大256の別々の銀河までプロシージャル生成され、認識できるピークに達しました。 しかし、これは映画にとってどのような意味を持つのでしょうか。 脚本に「20世紀初頭のデザインを取り入れた近未来的なディストピア世界」と書かれていた場合、観客はニューヨークの再カラー化ではなく、20世紀初頭の建築物から影響を受けたプロシージャル生成の世界を手に入れることになります。 これは確かに歓迎すべき変化だろう。 バイオハザードはもはやトロントで撮影されることはなく、手続き的に生成されたラクーンシティで撮影されることになるのだ。 5882>

Physics Simulators

Photo Credit – Pexels

環境に対する反応に加えて、まったく新しい環境をデジタルで作り出しているのです。 そして、最も興味深いのは、私たちが作成した環境が、自然のものとほぼ同じように私たちに反応することです。 これらの環境は、典型的なビデオゲームで使用され、テクスチャ、照明、物理学の面で現実世界をモデル化しています。 あと数年、あるいは10年、20年かければ、AIを使って個体や動物の大群の行動をモデル化し、私たちの行動を反映した都市や大規模な行動を構築できるようになるかもしれません。 コンピュータグラフィックス技術の大手メーカーであるNvidia社は、昨年、同社のPhysXシミュレータをオープンソースに公開しました。 このような決定により、ノウハウがあれば誰でも、私たちが現在持っている、そして拡大しつつある豊富な知識に貢献することができます。

Deepfakes

Deepfakes とは、コンピュータビジョンや同様の技術を使用して、顔や音声を重ねて新しいものを作り出す画像やビデオのことです。 このような技術を使った動画は、以前からインターネット上に出回っています。 この技術が発展するにつれて発生する可能性のあるセキュリティリスクは別として、これまでの結果は、驚きと面白さの両方が証明されている。 映画でDeepfakeの技術を使用した前例はすでにある。 有名なところでは、『スター・ウォーズ ローグ・ワン』でピーター・カッシングが復活し、ターキン役を演じました。 そして、その演技は一見したところ、非常に説得力があった。 デジタル画像と生身の演者の顔を完璧に融合させるのは、かなり難しい。 同じく『ローグ・ワン』のレイア・オーガナ役で、キャリー・フィッシャーの若い姿が求められたとき、アーティストが故人の画像を生身のイングヴィルド・デリアに合成した。 その技術は注目に値するものではありますが、完璧ではありません。 このシーンを見ていた人なら、実はキャリー・フィッシャーではないことを指摘できるだろう。 しかし、もしこのDeepfakeがアーティストではなく、機械によって行われたとしたらどうだろう? より良いものになるでしょうか? おそらくそうでしょう。 ローグ・ワン』で世界が見たものは、モーションキャプチャーアーティストの作品でしたが、モーションキャプチャーが不要になったらどうでしょうか。 すぐに必要だとわかるものではありませんが、大量の人や動物が登場するシーンでは、この種のアルゴリズムが必要になるでしょう。 人や動物は、大きな集団の中では、ある刺激に反応して予測可能な行動をとります。 例えば、エイリアンの攻撃やアンデッドの大群が登場する映画では、コンピュータが集団の行動をモデル化して、正確なシーンを生成する必要があります。 このようなデータを使用することで、より大規模なシナリオを作成し、ポイントの外挿によって分析し、脅威に対する人間の自然な反応を映画に反映させることができ、より説得力のある恐ろしいシーンにつながります。

Digital Characters From Celebrity Likeness

Photo Credit – Unsplash

この潜在テクノロジーの最も刺激的な展望として、過去の有名人の人格に基づいてコンピューターが生み出した人格という可能性も追加されたことが挙げられます。 ステージやスクリーンには、もう亡くなってしまったけれども、その優れた才能を懐かしく思い出されるスターがたくさんいます。 このような人物を未来の映画に登場させることができるのは、近い将来、魔法やSFの産物ではなくなるかもしれない。 パターンの分析において、機械は登場人物の行動をモデル化し、正確なモデルを再現することができるだろう。 これは倫理的に正しくないかもしれませんが、現在すでに映画の中でこの種の技術の前例があります。 もちろん、これは出演者の復活に限ったことではなく、同じような技術を現代の俳優・女優に適用して、キャラクターを異なる年代や種族として再想像することも可能でしょう。

Microsoft text to image

まだ初期段階ですが、現在マイクロソフトはテキストから画像を生成する技術を開発しました。 ユーザが簡単な説明を入力すると、それをもとにプログラムが画像を生成してくれます。 近くで見ると、幻想的なほど細かいわけではありません。 しかし、遠くから見ると、驚くほど正確な画像になっている。 今後、このような画像がより鮮明になることは容易に想像がつくでしょう。 これをもっと進化させれば、もっと細かいデータを入力しても、本物そっくりの映像が返ってくるようになるでしょう。

音声翻訳 – 他言語で自然に作られる映画

スターウォーズやマーベル映画など世界的に公開されている映画では、英語以外の言語を話す人も映画を見られるように、声優チームがキャラクターのセリフを演じている。 しかし、吹き替えや字幕の映画では、母国語の映画のような没入感を得ることができないのは明らかです。 人間は、音声を見るだけでなく、聞くこともできるようにできています。 映画のように録音された音声を聞く場合、私たちは当然、目に見えるもの(俳優の口)が音声に反映されることを期待します。 吹き替えの映画では、そうではありません。 しかし、技術を組み合わせることで、この問題を解決できるかもしれません。 Deepfakeアルゴリズムの要素を取り入れ、マイクロソフトのSpeech Translationのようなサービスと組み合わせることで、演者の音声を自動的に翻訳するプログラムを作ることができるかもしれませんし、私たちが常に厳しい目で見ている声道の調音を、実物に近い形で再現できるという特典もあります。

Modelling director styles

映画の多くは、監督に左右されます。 監督は、ひどい時間の浪費と芸術的傑作の間にある最初の防衛線です。 監督もまた、映画の出演者と同様、人間であり、すべての人間と同様、永遠に続くわけではありません。 そして、俳優と同じように、それぞれの監督は、高度な撮影技術、革新、実践の全データセットを持ち、それを機械が分析し、忠実に再現することができるのです。 このような技術があれば、スタンリー・キューブリックが作らなかった「ナポレオン」の映画を、世界中で見ることができるのです。

AI Movies may be more accurate than “real-life” Movies

Photo Credit – Unsplash

このテーマで最も興味深い要素の1つは超臨場感の話である。 AIは数学と対話します。 人間の目や耳、感情を持ちません。 数字とパターンを扱うのです。 人工知能の最も興味深い点は、これらの操作の産物である。 映画「インターステラー」では、高度な計算アルゴリズムが視覚効果と連動して、ブラックホールの驚くべき映像を作り出し、観客に見せてくれました。 インターステラー』に登場するブラックホールは、2014年に初めて観客に公開されました。 実際にどのような姿をしているのかは、2019年の4月までわかりませんでした。 コンピューターによって生み出された画像は、実際の写真と驚くほど似ています。 動く作りのAIにシナリオを送り込むことで、先端科学が発見を急ぐ姿をこの目で見ることができるかもしれない

教育にとっての意味

この種の技術で教育への恩恵は前例のないものです。 歴史映画は、あくまでも歴史映画です。 古い写真をカラー化することはよく行われていますが、非常に時間とコストがかかる作業です。 しかし、もし写真が話せるとしたらどうでしょう。 例えば、リンカーンのゲティスバーグの演説は、録音技術の出現以前に行われ、時間の経過とともに失われています。 しかし、このような歴史的に重要な出来事は、高度な技術を使えばデジタルで再現することができるのです。 リンカーンがどのような人物で、どのように話し、どのように考えていたかは、同時代の人々の証言によってわかっている。 これらの情報をプログラムに取り込むことで、デジタル版の第16代大統領を新たに構築し、アメリカの歴史の中で最も不安定だった時代のトピックについて、若者たちに教育することができるのです。 ゲティスバーグの演説は、そのほんの一例に過ぎません。

Conclusion

この概要では、AIを使用して映画を構築することの可能性について説明しました。 機械学習とパターン認識を使って、映画、テレビ、教育を完全に刷新することができます。 現在採用している技術や手法の側面を組み合わせることで、全く新しい映画制作のプロセスが噴出し、メディア界を永遠に変えていくことでしょう。 ディープフェイク、音声認識、言語処理、行動アルゴリズムなど、すべてが映画とテレビの未来に一役買っている。 未来は有望ですが、私たちは協力して、責任を持って対処する必要があります。

このテクノロジーが現在、そして近いうちにどれほど重要になるか、これまでの説明で納得できなかった方は、覚えておいてください… ゲーム オブ スローンズ シーズン 8 のリメイクに使われるかもしれないことを。

コメントする