How brain recognises face

Emergent properties

この新しい論文は、「私たちが『』でやりたいことをうまく説明している。つまり、一方では機械学習とコンピュータサイエンス、他方では神経生理学、人間の行動の側面を統合したことだ」とポッジョ氏は言う。 「つまり、脳が使用するアルゴリズムだけでなく、これらのアルゴリズムを実装する脳の回路が何であるかを意味します」

ポッジオは、脳が顔やその他のオブジェクトの「不変の」表現、つまり、空間におけるオブジェクトの向き、見る人からの距離、視野内の位置に関係なく表現する必要があると長い間考えていました。 しかし2010年、フライワルドは、マカクザルの顔認識メカニズムの神経解剖学について、より詳細に説明する研究を発表しました。 最初の領域のニューロンは特定の顔の向きにのみ反応し、最後の領域のニューロンは顔の向きに関係なく発火する、つまり不変的な表現である。 つまり、顔の向きには関係なく、顔の回転角度に敏感なのである。 最初の領域では、顔が左に45度回転すると1つのニューロンのクラスタが発火し、右に45度回転すると別のクラスタが発火する。 最後の領域では、顔が30度、45度、90度、あるいはその中間のどこに回転されても、同じ神経細胞群が発火する。 しかし中間領域では、顔がどちらかに45度回転すると特定の神経細胞群が発火し、30度回転すると別の神経細胞群が発火するというように、研究者の機械学習システムがこのような動作を再現したのです。 「これは、鏡面対称性を説明しようとするモデルではなかったのです」とポッジオは言います。 「このモデルは不変性を説明しようとしていたのですが、その過程で、このような別の性質が現れてきたのです」

ニューラル トレーニング

研究者の機械学習システムはニューラル ネットワークで、人間の脳の構造にほぼ近似していることから、そう呼ばれています。 ニューラルネットワークは、層状に配置された非常に単純な処理ユニットで構成されており、上下の層の処理ユニット(ノード)に密に接続されている。 データはネットワークの最下層に供給され、何らかの方法で処理された後、次の層に供給され、といった具合に繰り返される。

以前の研究で、ポッジオのグループは、基本的に、ポッジオが「テンプレート」と呼ぶ、ほんの一握りの顔の代表的な向きセットを記憶することによって、不変の表現を生成するようにニューラルネットワークを訓練していました。 ネットワークは、新しい顔が提示されたとき、これらのテンプレートとの違いを測定する。 その差は、新しい顔と同じ向きのテンプレートで最も小さくなり、そのテンプレートに関連するノードの出力が、最上層に到達するまでに情報信号の大部分を占めるようになるのである。

実験では、このアプローチによって不変の表現が得られた。

実験では、このアプローチは不変の表現を作り出しました。 しかし、テンプレートを記憶するというメカニズムは、生物学的に妥当ではなかったと Poggio 氏は言います。 つまり、訓練中に、より正確な出力を生成するためにノード間の接続の重みが調整されると、特定の刺激に協調して反応するノードは、独立して反応する (またはまったく反応しない) ノードよりも最終出力に多く寄与するようになるのです。 しかし、ネットワークの中間層は、霊長類の脳の中間視覚処理領域の鏡面対称の反応と重複していました。 「すべてがビッグデータか巨大なコンピュータシミュレーションに支配されている今日において、これは、学習の原理的理解がいかに不可解な発見を説明できるかを示しています」

「彼らは非常に慎重です」と、コッチは付け加えます。 「彼らはフィードフォワード経路、言い換えれば、最初の80~100ミリ秒だけを見ているのです。 サルは目を開け、80~100ミリ秒以内に顔を認識し、それを示すボタンを押すことができるのです。 問題は、その80〜100ミリ秒の間に何が起こっているかということですが、彼らのモデルはそれを非常にうまく説明しているようです」

コメントする