Jak mózg rozpoznaje twarze

Właściwości emergentne

Nowy artykuł jest „ładną ilustracją tego, co chcemy zrobić w , czyli integracji uczenia maszynowego i informatyki z jednej strony, neurofizjologii z drugiej oraz aspektów ludzkiego zachowania” – mówi Poggio. „Oznacza to nie tylko to, jakich algorytmów używa mózg, ale również to, jakie obwody w mózgu implementują te algorytmy.”

Poggio od dawna wierzy, że mózg musi tworzyć „niezmienne” reprezentacje twarzy i innych obiektów, czyli reprezentacje, które są obojętne na orientację obiektów w przestrzeni, ich odległość od widza lub ich położenie w polu widzenia. Skany rezonansu magnetycznego mózgów ludzi i małp sugerowały to samo, ale w 2010 roku Freiwald opublikował pracę opisującą neuroanatomię mechanizmu rozpoznawania twarzy u małp makaków w sposób znacznie bardziej szczegółowy.

Freiwald wykazał, że informacje z nerwów wzrokowych małp przechodzą przez serię miejsc w mózgu, z których każde jest mniej wrażliwe na orientację twarzy niż ostatnie. Neurony w pierwszym regionie zapalają się tylko w odpowiedzi na określoną orientację twarzy; neurony w ostatnim regionie zapalają się niezależnie od orientacji twarzy – jest to niezmienna reprezentacja.

Ale neurony w regionie pośrednim wydają się być „symetryczne jak lustro”: To znaczy, że są wrażliwe na kąt obrotu twarzy bez względu na kierunek. W pierwszym regionie, jedno skupisko neuronów zapala się, jeśli twarz jest obrócona o 45 stopni w lewo, a inne skupisko zapala się, jeśli jest obrócona o 45 stopni w prawo. W regionie końcowym, to samo skupisko neuronów będzie się uruchamiać niezależnie od tego, czy twarz zostanie obrócona o 30 stopni, 45 stopni, 90 stopni, czy w dowolnym miejscu pomiędzy. Ale w regionie pośrednim, konkretne skupisko neuronów zapala się, jeśli twarz jest obrócona o 45 stopni w dowolnym kierunku, inne, jeśli jest obrócona o 30 stopni, i tak dalej.

To jest zachowanie, które odtworzył system uczenia maszynowego naukowców. „To nie był model, który próbował wyjaśnić symetrię lustrzaną” – mówi Poggio. „Ten model próbował wyjaśnić niezmienność, a w trakcie tego procesu pojawiła się ta inna właściwość.”

Trening neuronowy

System uczenia maszynowego naukowców to sieć neuronowa, nazwana tak, ponieważ w przybliżeniu przypomina architekturę ludzkiego mózgu. Sieć neuronowa składa się z bardzo prostych jednostek przetwarzających, ułożonych w warstwy, które są gęsto połączone z jednostkami przetwarzającymi – lub węzłami – w warstwach powyżej i poniżej. Dane są wprowadzane do dolnej warstwy sieci, która przetwarza je w jakiś sposób i przekazuje do następnej warstwy, i tak dalej. Podczas treningu wyjście górnej warstwy jest skorelowane z jakimś kryterium klasyfikacji – powiedzmy, prawidłowym określeniem, czy dany obraz przedstawia konkretną osobę.

We wcześniejszych pracach grupa Poggio wytrenowała sieci neuronowe do tworzenia niezmiennych reprezentacji poprzez, zasadniczo, zapamiętywanie reprezentatywnego zestawu orientacji dla zaledwie kilku twarzy, które Poggio nazywa „szablonami”. Kiedy sieć była prezentowana z nową twarzą, mierzyła jej różnicę w stosunku do tych szablonów. Różnica ta była najmniejsza w przypadku szablonów, których orientacje były takie same jak orientacje nowej twarzy, a wyjście powiązanych z nimi węzłów dominowało w sygnale informacyjnym, zanim dotarł on do górnej warstwy. Zmierzona różnica między nową twarzą a twarzami zapisanymi w pamięci daje nowej twarzy rodzaj identyfikacyjnego podpisu.

W eksperymentach podejście to dało niezmienne reprezentacje: Okazało się, że sygnatura twarzy jest mniej więcej taka sama bez względu na jej orientację. Ale mechanizm – zapamiętywanie szablonów – nie był, jak twierdzi Poggio, biologicznie wiarygodny.

Więc zamiast tego nowa sieć wykorzystuje wariację na temat reguły Hebba, która jest często opisywana w literaturze neurologicznej jako „neurony, które płoną razem, łączą się”. Oznacza to, że podczas treningu, gdy wagi połączeń między węzłami są dostosowywane w celu uzyskania dokładniejszych danych wyjściowych, węzły, które reagują zgodnie na określone bodźce, wnoszą więcej do ostatecznego wyniku niż węzły, które reagują niezależnie (lub wcale).

Takie podejście również zakończyło się uzyskaniem niezmiennych reprezentacji. Ale środkowe warstwy sieci również powielały lustrzano-symetryczne odpowiedzi pośrednich regionów przetwarzania wzrokowego w mózgu naczelnych.

„Myślę, że to znaczący krok naprzód”, mówi Christof Koch, prezes i dyrektor naukowy Allen Institute for Brain Science. „W dzisiejszych czasach, kiedy wszystko jest zdominowane albo przez big data, albo przez ogromne symulacje komputerowe, to pokazuje, jak pryncypialne rozumienie uczenia się może wyjaśnić niektóre zagadkowe odkrycia.”

„Są bardzo ostrożni,” dodaje Koch. „Przyglądają się tylko ścieżce „feed-forward” – innymi słowy, pierwszym 80, 100 milisekundom. Małpa otwiera oczy i w ciągu 80 do 100 milisekund może rozpoznać twarz i nacisnąć przycisk sygnalizujący to. Pytanie brzmi, co dzieje się w tych 80 do 100 milisekund, a model, który mają wydaje się wyjaśniać to całkiem dobrze.”

.

Dodaj komentarz