Hvordan hjernen genkender ansigter

Emergente egenskaber

Den nye artikel er “en fin illustration af det, vi ønsker at gøre i , som er denne integration af maskinlæring og datalogi på den ene side, neurofysiologi på den anden side, og aspekter af menneskelig adfærd,” siger Poggio. “Det betyder ikke kun, hvilke algoritmer hjernen bruger, men også hvilke kredsløb i hjernen der implementerer disse algoritmer.”

Poggio har længe ment, at hjernen skal producere “invariante” repræsentationer af ansigter og andre objekter, hvilket betyder repræsentationer, der er ligegyldige for objekters orientering i rummet, deres afstand fra beskueren eller deres placering i synsfeltet. Magnetresonansscanninger af menneske- og abehjerner tydede på det, men i 2010 offentliggjorde Freiwald en undersøgelse, der beskrev neuroanatomien i makakakernes ansigtsgenkendelsesmekanisme meget mere detaljeret.

Freiwald viste, at information fra abens synsnerver passerer gennem en række hjernelokaliteter, som hver især er mindre følsomme over for ansigtsorientering end den sidste. Neuroner i det første område affyres kun som reaktion på bestemte ansigtsorienteringer; neuroner i det sidste område affyres uanset ansigtets orientering – en invariant repræsentation.

Men neuroner i et mellemliggende område synes at være “spejlsymmetriske”: Det vil sige, at de er følsomme over for vinklen af ansigtsrotation uden hensyn til retning. I den første region vil en klynge af neuroner fyre, hvis et ansigt er drejet 45 grader til venstre, og en anden klynge vil fyre, hvis det er drejet 45 grader til højre. I den sidste region vil den samme klynge af neuroner blive aktiveret, uanset om ansigtet er drejet 30 grader, 45 grader, 90 grader eller et sted derimellem. Men i den mellemliggende region vil en bestemt klynge af neuroner blive aktiveret, hvis ansigtet er drejet 45 grader i en af retningerne, en anden klynge vil blive aktiveret, hvis ansigtet er drejet 30 grader osv.

Dette er den adfærd, som forskernes maskinlæringssystem reproducerede. “Det var ikke en model, der forsøgte at forklare spejlsymmetri,” siger Poggio. “Denne model forsøgte at forklare invarians, og i processen er der denne anden egenskab, der dukker op.”

Neural træning

Forskerens maskinlæringssystem er et neuralt netværk, der kaldes sådan, fordi det nogenlunde ligner arkitekturen i den menneskelige hjerne. Et neuralt netværk består af meget enkle behandlingsenheder, der er anbragt i lag, og som er tæt forbundet med behandlingsenhederne – eller knuderne – i lagene over og under. Data føres ind i det nederste lag af netværket, som behandler dem på en eller anden måde og sender dem videre til det næste lag osv. Under træningen korreleres output fra det øverste lag med et eller andet klassifikationskriterium – f.eks. korrekt bestemmelse af, om et givet billede forestiller en bestemt person.

I tidligere arbejde havde Poggios gruppe trænet neurale netværk til at producere invariante repræsentationer ved i det væsentlige at huske et repræsentativt sæt af orienteringer for blot en håndfuld ansigter, som Poggio kalder “skabeloner”. Når netværket blev præsenteret for et nyt ansigt, ville det måle dets forskel fra disse skabeloner. Denne forskel ville være mindst for de skabeloner, hvis orienteringer var de samme som det nye ansigts, og output fra de tilknyttede knuder ville ende med at dominere informationssignalet, når det nåede frem til det øverste lag. Den målte forskel mellem det nye ansigt og de lagrede ansigter giver det nye ansigt en slags identifikationssignatur.

I eksperimenterne producerede denne fremgangsmåde invariante repræsentationer: Et ansigts signatur viste sig at være nogenlunde den samme uanset dets orientering. Men mekanismen – at huske skabeloner – var ifølge Poggio ikke biologisk plausibel.

Så i stedet bruger det nye netværk en variation af Hebbs regel, som i den neurologiske litteratur ofte beskrives som “neuroner, der skyder sammen, er forbundet med hinanden”. Det betyder, at under træningen, når vægtene af forbindelserne mellem knuderne justeres for at producere mere præcise output, ender knuder, der reagerer i fællesskab på bestemte stimuli, med at bidrage mere til det endelige output end knuder, der reagerer uafhængigt (eller slet ikke).

Denne tilgang endte også med at give invariante repræsentationer. Men de midterste lag i netværket kopierede også de spejlsymmetriske reaktioner fra de mellemliggende visuelle behandlingsregioner i primaternes hjerne.

“Jeg mener, at det er et vigtigt skridt fremad,” siger Christof Koch, formand og videnskabelig chef ved Allen Institute for Brain Science. “I denne tid, hvor alting er domineret af enten store data eller enorme computersimuleringer, viser dette, hvordan en principiel forståelse af læring kan forklare nogle gådefulde resultater.”

“De er meget forsigtige,” tilføjer Koch. “De ser kun på feed-forward-vejen – med andre ord, de første 80, 100 millisekunder. Aben åbner øjnene, og inden for 80 til 100 millisekunder kan den genkende et ansigt og trykke på en knap, der signalerer det. Spørgsmålet er, hvad der foregår i de 80-100 millisekunder, og den model, som de har, synes at forklare det ganske godt.”

Skriv en kommentar