Emergente Eigenschaften
Die neue Arbeit ist „eine schöne Illustration dessen, was wir tun wollen, nämlich die Integration von maschinellem Lernen und Informatik auf der einen Seite, Neurophysiologie auf der anderen und Aspekte des menschlichen Verhaltens“, sagt Poggio. „
Poggio ist seit langem der Ansicht, dass das Gehirn „invariante“ Darstellungen von Gesichtern und anderen Objekten erzeugen muss, d. h. Darstellungen, die unabhängig von der Ausrichtung der Objekte im Raum, ihrer Entfernung zum Betrachter oder ihrer Position im Gesichtsfeld sind. Magnetresonanz-Scans von Menschen- und Affengehirnen legten dies nahe, aber 2010 veröffentlichte Freiwald eine Studie, in der er die Neuroanatomie des Gesichtserkennungsmechanismus von Makakenaffen sehr viel detaillierter beschrieb.
Freiwald zeigte, dass die Informationen von den Sehnerven der Affen eine Reihe von Hirnregionen durchlaufen, von denen jede weniger empfindlich auf die Gesichtsausrichtung reagiert als die letzte. Neuronen in der ersten Region feuern nur als Reaktion auf bestimmte Gesichtsausrichtungen; Neuronen in der letzten Region feuern unabhängig von der Gesichtsausrichtung – eine invariante Repräsentation.
Neuronen in einer Zwischenregion scheinen jedoch „spiegelsymmetrisch“ zu sein: Das heißt, sie sind empfindlich für den Winkel der Gesichtsdrehung, ohne Rücksicht auf die Richtung. In der ersten Region wird eine Gruppe von Neuronen feuern, wenn ein Gesicht um 45 Grad nach links gedreht wird, und eine andere Gruppe wird feuern, wenn es um 45 Grad nach rechts gedreht wird. In der letzten Region wird dieselbe Gruppe von Neuronen feuern, egal ob das Gesicht um 30 Grad, 45 Grad, 90 Grad oder irgendwo dazwischen gedreht wird. Aber in der Zwischenregion wird eine bestimmte Gruppe von Neuronen feuern, wenn das Gesicht um 45 Grad in eine der beiden Richtungen gedreht wird, eine andere, wenn es um 30 Grad gedreht wird, und so weiter.
Dies ist das Verhalten, das das maschinelle Lernsystem der Forscher reproduziert. „Es handelte sich nicht um ein Modell, das die Spiegelsymmetrie erklären wollte“, sagt Poggio. „
Neuronales Training
Das maschinelle Lernsystem der Forscher ist ein neuronales Netzwerk, das so genannt wird, weil es die Architektur des menschlichen Gehirns annähernd nachbildet. Ein neuronales Netz besteht aus sehr einfachen, in Schichten angeordneten Verarbeitungseinheiten, die dicht mit den Verarbeitungseinheiten – oder Knoten – in den darüber und darunter liegenden Schichten verbunden sind. Die Daten werden in die unterste Schicht des Netzes eingespeist, die sie in irgendeiner Weise verarbeitet und an die nächste Schicht weiterleitet, usw. Während des Trainings wird die Ausgabe der obersten Schicht mit einem Klassifizierungskriterium korreliert, z. B. der korrekten Bestimmung, ob ein bestimmtes Bild eine bestimmte Person darstellt.
In früheren Arbeiten hatte Poggios Gruppe neuronale Netze darauf trainiert, unveränderliche Darstellungen zu erzeugen, indem sie sich im Wesentlichen einen repräsentativen Satz von Orientierungen für nur eine Handvoll Gesichter einprägten, die Poggio „Vorlagen“ nennt. Wurde dem Netzwerk ein neues Gesicht präsentiert, maß es dessen Unterschied zu diesen Vorlagen. Dieser Unterschied wäre bei den Vorlagen am geringsten, deren Ausrichtungen mit denen des neuen Gesichts übereinstimmen, und die Ausgabe der zugehörigen Knoten würde das Informationssignal dominieren, wenn es die oberste Schicht erreicht. Der gemessene Unterschied zwischen dem neuen Gesicht und den gespeicherten Gesichtern gibt dem neuen Gesicht eine Art identifizierende Signatur.
In Experimenten führte dieser Ansatz zu invarianten Darstellungen: Die Signatur eines Gesichts erwies sich unabhängig von seiner Ausrichtung als ungefähr gleich. Aber der Mechanismus – das Einprägen von Schablonen – war laut Poggio biologisch nicht plausibel.
Stattdessen verwendet das neue Netzwerk eine Variation der Hebb’schen Regel, die in der neurologischen Literatur oft als „Neuronen, die zusammen feuern, verdrahten sich“ beschrieben wird. Das bedeutet, dass während des Trainings, wenn die Gewichte der Verbindungen zwischen den Knoten angepasst werden, um genauere Ausgaben zu erzeugen, Knoten, die gemeinsam auf bestimmte Reize reagieren, mehr zur endgültigen Ausgabe beitragen als Knoten, die unabhängig voneinander (oder gar nicht) reagieren.
Auch dieser Ansatz führte zu unveränderlichen Darstellungen. Aber die mittleren Schichten des Netzwerks duplizierten auch die spiegelsymmetrischen Reaktionen der mittleren visuell verarbeitenden Regionen des Primatengehirns.
„Ich denke, das ist ein bedeutender Schritt nach vorn“, sagt Christof Koch, Präsident und wissenschaftlicher Leiter des Allen Institute for Brain Science. „In der heutigen Zeit, in der alles entweder von großen Datenmengen oder riesigen Computersimulationen dominiert wird, zeigt dies, wie ein prinzipielles Verständnis des Lernens einige rätselhafte Ergebnisse erklären kann.“
„Sie sind sehr vorsichtig“, fügt Koch hinzu. „Sie betrachten nur den Feed-Forward-Weg, also die ersten 80, 100 Millisekunden. Der Affe öffnet die Augen, und innerhalb von 80 bis 100 Millisekunden kann er ein Gesicht erkennen und einen Knopf drücken, der dies signalisiert. Die Frage ist, was in diesen 80 bis 100 Millisekunden vor sich geht, und das Modell, das sie haben, scheint das recht gut zu erklären.“