Comment le cerveau reconnaît les visages

Propriétés émergentes

Le nouveau papier est « une belle illustration de ce que nous voulons faire dans , qui est cette intégration de l’apprentissage automatique et de l’informatique d’une part, de la neurophysiologie d’autre part, et des aspects du comportement humain », dit Poggio. « Cela signifie non seulement quels algorithmes le cerveau utilise, mais aussi quels sont les circuits du cerveau qui mettent en œuvre ces algorithmes. »

Poggio croit depuis longtemps que le cerveau doit produire des représentations « invariantes » des visages et d’autres objets, c’est-à-dire des représentations indifférentes à l’orientation des objets dans l’espace, à leur distance par rapport à l’observateur ou à leur emplacement dans le champ visuel. Les scanners à résonance magnétique de cerveaux humains et de singes le suggéraient, mais en 2010, Freiwald a publié une étude décrivant la neuroanatomie du mécanisme de reconnaissance des visages des macaques de façon beaucoup plus détaillée.

Freiwald a montré que les informations provenant des nerfs optiques du singe passent par une série de localisations cérébrales, chacune étant moins sensible à l’orientation du visage que la précédente. Les neurones de la première région se déclenchent uniquement en réponse à des orientations particulières du visage ; les neurones de la région finale se déclenchent quelle que soit l’orientation du visage – une représentation invariante.

Mais les neurones d’une région intermédiaire semblent être « symétriques en miroir » : C’est-à-dire qu’ils sont sensibles à l’angle de rotation du visage sans tenir compte de la direction. Dans la première région, un groupe de neurones se déclenche si un visage est tourné de 45 degrés vers la gauche, et un autre groupe se déclenche s’il est tourné de 45 degrés vers la droite. Dans la dernière région, le même groupe de neurones se déclenchera si le visage est tourné de 30 degrés, 45 degrés, 90 degrés ou n’importe où entre les deux. Mais dans la région intermédiaire, un groupe particulier de neurones se déclenchera si le visage est tourné de 45 degrés dans un sens ou dans l’autre, un autre s’il est tourné de 30 degrés, et ainsi de suite.

C’est ce comportement que le système d’apprentissage automatique des chercheurs a reproduit. « Ce n’était pas un modèle qui essayait d’expliquer la symétrie du miroir », explique Poggio. « Ce modèle essayait d’expliquer l’invariance, et dans le processus, il y a cette autre propriété qui apparaît. »

Formation neuronale

Le système d’apprentissage automatique des chercheurs est un réseau neuronal, appelé ainsi parce qu’il se rapproche grossièrement de l’architecture du cerveau humain. Un réseau neuronal est constitué d’unités de traitement très simples, disposées en couches, qui sont densément connectées aux unités de traitement – ou nœuds – des couches supérieures et inférieures. Les données sont introduites dans la couche inférieure du réseau, qui les traite d’une certaine manière et les transmet à la couche suivante, et ainsi de suite. Au cours de la formation, la sortie de la couche supérieure est corrélée à un certain critère de classification – par exemple, déterminer correctement si une image donnée représente une personne particulière.

Dans des travaux antérieurs, le groupe de Poggio avait formé des réseaux neuronaux pour produire des représentations invariantes en mémorisant, essentiellement, un ensemble représentatif d’orientations pour une poignée de visages, que Poggio appelle des « modèles ». Lorsqu’un nouveau visage était présenté au réseau, celui-ci mesurait sa différence par rapport à ces modèles. Cette différence était la plus faible pour les modèles dont les orientations étaient les mêmes que celles du nouveau visage, et la sortie des nœuds qui leur étaient associés finissait par dominer le signal d’information lorsqu’il atteignait la couche supérieure. La différence mesurée entre le nouveau visage et les visages stockés donne au nouveau visage une sorte de signature d’identification.

Dans les expériences, cette approche a produit des représentations invariantes : La signature d’un visage s’est avérée être à peu près la même quelle que soit son orientation. Mais le mécanisme – la mémorisation de modèles – n’était pas, selon Poggio, biologiquement plausible.

A la place, le nouveau réseau utilise une variation de la règle de Hebb, souvent décrite dans la littérature neurologique comme « les neurones qui tirent ensemble se connectent ensemble ». Cela signifie qu’au cours de la formation, alors que les poids des connexions entre les nœuds sont ajustés pour produire des sorties plus précises, les nœuds qui réagissent de concert à des stimuli particuliers finissent par contribuer davantage à la sortie finale que les nœuds qui réagissent indépendamment (ou pas du tout).

Cette approche a également fini par donner des représentations invariantes. Mais les couches intermédiaires du réseau ont également reproduit les réponses symétriques en miroir des régions intermédiaires de traitement visuel du cerveau des primates.

« Je pense que c’est une avancée significative », déclare Christof Koch, président et directeur scientifique de l’Allen Institute for Brain Science. « À notre époque, où tout est dominé par le big data ou par d’énormes simulations informatiques, cela montre comment une compréhension de l’apprentissage fondée sur des principes peut expliquer certaines découvertes déroutantes. »

« Ils sont très prudents », ajoute Koch. « Ils n’examinent que la voie d’alimentation – en d’autres termes, les 80 ou 100 premières millisecondes. Le singe ouvre les yeux, et en 80 à 100 millisecondes, il peut reconnaître un visage et appuyer sur un bouton pour le signaler. La question est de savoir ce qui se passe dans ces 80 à 100 millisecondes, et le modèle dont ils disposent semble l’expliquer assez bien. »

Laisser un commentaire