Hur hjärnan känner igen ansikten

Emergenta egenskaper

Den nya artikeln är ”en fin illustration av vad vi vill göra inom , vilket är denna integrering av maskininlärning och datavetenskap å ena sidan, neurofysiologi å andra sidan, och aspekter av mänskligt beteende”, säger Poggio. ”Det betyder inte bara vilka algoritmer hjärnan använder, utan också vilka kretsar i hjärnan som implementerar dessa algoritmer.”

Poggio har länge trott att hjärnan måste producera ”invarianta” representationer av ansikten och andra objekt, det vill säga representationer som är likgiltiga för objektens orientering i rummet, deras avstånd från betraktaren eller deras placering i synfältet. Magnetresonansscanningar av hjärnor från människor och apor tyder på detta, men 2010 publicerade Freiwald en studie som beskriver neuroanatomin i makakapans mekanism för ansiktsigenkänning mycket mer detaljerat.

Freiwald visade att information från apans synnerver passerar genom en rad platser i hjärnan, där var och en är mindre känslig för ansiktsorientering än den andra. Neuronerna i den första regionen tänds endast som svar på vissa ansiktsorienteringar; neuronerna i den sista regionen tänds oavsett ansiktets orientering – en invariant representation.

Men neuronerna i en mellanliggande region tycks vara ”spegelsymmetriska”: Det vill säga, de är känsliga för vinkeln på ansiktsrotationen utan hänsyn till riktningen. I den första regionen kommer ett kluster av neuroner att starta om ett ansikte roteras 45 grader åt vänster, och ett annat kluster kommer att starta om det roteras 45 grader åt höger. I den sista regionen kommer samma kluster av neuroner att starta om ansiktet roteras 30 grader, 45 grader, 90 grader eller någonstans däremellan. Men i den mellanliggande regionen kommer ett visst kluster av neuroner att starta om ansiktet roteras 45 grader i endera riktningen, ett annat om det roteras 30 grader och så vidare.

Detta är det beteende som forskarnas maskininlärningssystem reproducerade. ”Det var inte en modell som försökte förklara spegelsymmetri”, säger Poggio. ”Den här modellen försökte förklara invarians, och i processen finns det den här andra egenskapen som dyker upp.”

Neural träning

Forskarnas maskininlärningssystem är ett neuralt nätverk, som kallas så eftersom det i stort sett liknar arkitekturen i den mänskliga hjärnan. Ett neuralt nätverk består av mycket enkla bearbetningsenheter, ordnade i lager, som är tätt sammankopplade med bearbetningsenheterna – eller noderna – i lagren ovanför och nedanför. Data matas in till det nedersta lagret i nätverket, som bearbetar dem på något sätt och matar dem vidare till nästa lager, och så vidare. Under träningen korreleras resultatet från det översta lagret med något klassificeringskriterium – till exempel att korrekt avgöra om en viss bild föreställer en viss person.

I tidigare arbeten hade Poggios grupp tränat neurala nätverk att producera invarianta representationer genom att i huvudsak memorera en representativ uppsättning orienteringar för bara en handfull ansikten, som Poggio kallar ”mallar”. När nätverket presenterades för ett nytt ansikte skulle det mäta dess skillnad från dessa mallar. Skillnaden skulle vara minst för de mallar vars orientering var densamma som för det nya ansiktet, och resultatet från deras associerade noder skulle till slut dominera informationssignalen när den nådde det översta lagret. Den uppmätta skillnaden mellan det nya ansiktet och de lagrade ansiktena ger det nya ansiktet ett slags identifierande signatur.

I experiment gav detta tillvägagångssätt invarianta representationer: Ett ansikts signatur visade sig vara ungefär densamma oavsett dess orientering. Men mekanismen – att memorera mallar – var enligt Poggio inte biologiskt rimlig.

Så i stället använder det nya nätverket en variant av Hebbs regel, som ofta beskrivs i neurologisk litteratur som att ”neuroner som brinner tillsammans kopplar ihop”. Det innebär att under träningen, när vikterna för förbindelserna mellan noderna justeras för att producera mer exakta resultat, bidrar noder som reagerar tillsammans på vissa stimuli mer till det slutliga resultatet än noder som reagerar oberoende av varandra (eller inte alls).

Även detta tillvägagångssätt gav till slut invarianta representationer. Men nätverkets mellanskikt duplicerade också de spegelsymmetriska svaren från de mellanliggande visuella bearbetningsregionerna i primathjärnan.

”Jag tycker att det är ett viktigt steg framåt”, säger Christof Koch, ordförande och vetenskaplig chef vid Allen Institute for Brain Science. ”I vår tid, när allting domineras av antingen stora data eller enorma datorsimuleringar, visar detta hur en principiell förståelse av inlärning kan förklara vissa förbryllande resultat.”

”De är mycket försiktiga”, tillägger Koch. ”De tittar bara på feed-forward-banan – med andra ord de första 80, 100 millisekunderna. Apan öppnar ögonen och inom 80 till 100 millisekunder kan den känna igen ett ansikte och trycka på en knapp som signalerar det. Frågan är vad som händer under dessa 80-100 millisekunder, och den modell som de har verkar förklara det ganska bra.”

Lämna en kommentar