Emergent properties
De nieuwe paper is “een mooie illustratie van wat we willen doen in , dat is deze integratie van machine learning en computerwetenschap aan de ene kant, neurofysiologie aan de andere kant, en aspecten van menselijk gedrag,” zegt Poggio. “Dat betekent niet alleen welke algoritmen de hersenen gebruiken, maar wat de circuits in de hersenen zijn die deze algoritmen implementeren.”
Poggio gelooft al lang dat de hersenen “invariante” representaties van gezichten en andere objecten moeten produceren, d.w.z. representaties die onverschillig zijn voor de oriëntatie van objecten in de ruimte, hun afstand tot de toeschouwer, of hun locatie in het visuele veld. Magnetische resonantiescans van menselijke en apenhersenen suggereren dit, maar in 2010 publiceerde Freiwald een studie waarin de neuro-anatomie van het gezichtsherkenningsmechanisme van makaakapen veel gedetailleerder werd beschreven.
Freiwald toonde aan dat informatie van de oogzenuwen van de aap door een reeks hersenlocaties gaat, waarvan elk minder gevoelig is voor gezichtsoriëntatie dan de laatste. Neuronen in het eerste gebied vuren alleen in reactie op bepaalde gezichtsoriëntaties; neuronen in het laatste gebied vuren ongeacht de oriëntatie van het gezicht – een invariante representatie.
Maar neuronen in een tussenliggend gebied blijken “spiegelsymmetrisch” te zijn: Dat wil zeggen, ze zijn gevoelig voor de hoek van gezichtsrotatie zonder richting. In het eerste gebied zal een cluster neuronen vuren als een gezicht 45 graden naar links is gedraaid, en een andere cluster zal vuren als het 45 graden naar rechts is gedraaid. In het laatste gebied vuurt dezelfde cluster neuronen als het gezicht 30 graden, 45 graden, 90 graden of ergens daar tussenin is gedraaid. Maar in het tussenliggende gebied zal een bepaalde cluster van neuronen vuren als het gezicht 45 graden in beide richtingen wordt gedraaid, een andere als het 30 graden wordt gedraaid, enzovoort.
Dit is het gedrag dat het machine-learning systeem van de onderzoekers reproduceerde. “Het was geen model dat spiegelsymmetrie probeerde te verklaren,” zegt Poggio. “Dit model probeerde invariantie te verklaren, en in het proces is er deze andere eigenschap die naar voren komt.”
Neural training
Het machine-learning systeem van de onderzoekers is een neuraal netwerk, zo genoemd omdat het ruwweg de architectuur van het menselijk brein benadert. Een neuraal netwerk bestaat uit zeer eenvoudige verwerkingseenheden, gerangschikt in lagen, die nauw verbonden zijn met de verwerkingseenheden – of nodes – in de lagen erboven en eronder. Gegevens worden ingevoerd in de onderste laag van het netwerk, die ze op een bepaalde manier verwerkt en doorgeeft aan de volgende laag, enzovoort. Tijdens de training wordt de output van de bovenste laag gecorreleerd aan een of ander classificatiecriterium – zeg, correct bepalen of een bepaalde afbeelding een bepaalde persoon weergeeft.
In eerder werk had Poggio’s groep neurale netwerken getraind om invariante representaties te produceren door, in wezen, een representatieve set oriëntaties voor slechts een handvol gezichten te onthouden, die Poggio “sjablonen” noemt. Wanneer het netwerk een nieuw gezicht te zien kreeg, mat het het verschil met deze sjablonen. Dat verschil zou het kleinst zijn voor de sjablonen waarvan de oriëntaties hetzelfde waren als die van het nieuwe gezicht, en de output van hun geassocieerde knooppunten zou uiteindelijk het informatiesignaal domineren tegen de tijd dat het de bovenste laag bereikte. Het gemeten verschil tussen het nieuwe gezicht en de opgeslagen gezichten geeft het nieuwe gezicht een soort identificerende handtekening.
In experimenten leverde deze aanpak invariante representaties op: De handtekening van een gezicht bleek ruwweg hetzelfde te zijn, ongeacht de oriëntatie. Maar het mechanisme – het onthouden van sjablonen – was volgens Poggio biologisch niet aannemelijk.
In plaats daarvan maakt het nieuwe netwerk gebruik van een variatie op de regel van Hebb, die in de neurologische literatuur vaak wordt omschreven als “neuronen die samen vuren, vormen samen een draad”. Dat betekent dat tijdens de training, wanneer de gewichten van de verbindingen tussen de knooppunten worden aangepast om meer accurate outputs te produceren, de knooppunten die gezamenlijk reageren op bepaalde stimuli uiteindelijk meer bijdragen aan de uiteindelijke output dan de knooppunten die onafhankelijk (of helemaal niet) reageren.
Ook deze aanpak leverde uiteindelijk invariante representaties op. Maar de middelste lagen van het netwerk dupliceerden ook de spiegelsymmetrische reacties van de tussenliggende visuele verwerkingsgebieden van het primatenbrein.
“Ik denk dat het een belangrijke stap voorwaarts is,” zegt Christof Koch, president en chief scientific officer bij het Allen Institute for Brain Science. “In deze tijd, waarin alles wordt gedomineerd door ofwel big data ofwel enorme computersimulaties, laat dit zien hoe een principieel begrip van leren een aantal raadselachtige bevindingen kan verklaren.”
“Ze zijn heel voorzichtig,” voegt Koch eraan toe. “Ze kijken alleen naar de feed-forward pathway – met andere woorden, de eerste 80, 100 milliseconden. De aap opent zijn ogen, en binnen 80 tot 100 milliseconden kan hij een gezicht herkennen en op een knop drukken die dat signaleert. De vraag is wat er in die 80 tot 100 milliseconden gebeurt, en het model dat zij hebben, lijkt dat heel goed te verklaren.”