Proprietà emergenti
Il nuovo documento è “una bella illustrazione di ciò che vogliamo fare in , che è questa integrazione di apprendimento automatico e informatica da un lato, neurofisiologia dall’altro, e aspetti del comportamento umano”, dice Poggio. “Questo significa non solo quali algoritmi usa il cervello, ma quali sono i circuiti nel cervello che implementano questi algoritmi.”
Poggio ha creduto a lungo che il cervello deve produrre rappresentazioni “invarianti” di volti e altri oggetti, cioè rappresentazioni che sono indifferenti all’orientamento degli oggetti nello spazio, la loro distanza dallo spettatore, o la loro posizione nel campo visivo. Le scansioni a risonanza magnetica del cervello umano e di quello delle scimmie lo suggerivano, ma nel 2010, Freiwald ha pubblicato uno studio che descrive la neuroanatomia del meccanismo di riconoscimento dei volti delle scimmie macaco in modo molto più dettagliato.
Freiwald ha dimostrato che le informazioni provenienti dai nervi ottici della scimmia passano attraverso una serie di posizioni del cervello, ognuna delle quali è meno sensibile all’orientamento dei volti rispetto alla precedente. I neuroni della prima regione si attivano solo in risposta a particolari orientamenti del volto; i neuroni della regione finale si attivano indipendentemente dall’orientamento del volto – una rappresentazione invariante.
Ma i neuroni di una regione intermedia sembrano essere “simmetrici allo specchio”: Cioè, sono sensibili all’angolo di rotazione del viso, senza rispetto alla direzione. Nella prima regione, un gruppo di neuroni si attiva se un volto è ruotato di 45 gradi a sinistra, e un gruppo diverso si attiva se è ruotato di 45 gradi a destra. Nella regione finale, lo stesso gruppo di neuroni si attiverà se la faccia è ruotata di 30 gradi, 45 gradi, 90 gradi, o in qualsiasi punto intermedio. Ma nella regione intermedia, un particolare gruppo di neuroni sparerà se il viso è ruotato di 45 gradi in entrambe le direzioni, un altro se è ruotato di 30 gradi, e così via.
Questo è il comportamento che il sistema di apprendimento automatico dei ricercatori ha riprodotto. “Non era un modello che stava cercando di spiegare la simmetria dello specchio”, dice Poggio. “Questo modello stava cercando di spiegare l’invarianza, e nel processo, c’è quest’altra proprietà che salta fuori.”
Allenamento neurale
Il sistema di apprendimento automatico dei ricercatori è una rete neurale, così chiamata perché approssima l’architettura del cervello umano. Una rete neurale consiste di unità di elaborazione molto semplici, organizzate in strati, che sono densamente connesse alle unità di elaborazione – o nodi – negli strati superiori e inferiori. I dati vengono immessi nello strato inferiore della rete, che li elabora in qualche modo e li trasmette allo strato successivo, e così via. Durante l’addestramento, l’output dello strato superiore è correlato a qualche criterio di classificazione – ad esempio, determinare correttamente se una data immagine raffigura una particolare persona.
Nel lavoro precedente, il gruppo di Poggio aveva addestrato le reti neurali a produrre rappresentazioni invarianti, essenzialmente memorizzando una serie rappresentativa di orientamenti per una manciata di volti, che Poggio chiama “modelli”. Quando alla rete veniva presentata una nuova faccia, si misurava la sua differenza da questi modelli. Questa differenza sarebbe stata minima per i modelli i cui orientamenti erano uguali a quelli della nuova faccia, e l’output dei loro nodi associati avrebbe finito per dominare il segnale informativo nel momento in cui avesse raggiunto lo strato superiore. La differenza misurata tra il nuovo volto e i volti memorizzati dà al nuovo volto una sorta di firma identificativa.
Negli esperimenti, questo approccio ha prodotto rappresentazioni invarianti: La firma di un volto è risultata essere più o meno la stessa indipendentemente dal suo orientamento. Ma il meccanismo – memorizzare i modelli – non era, dice Poggio, biologicamente plausibile.
Così, invece, la nuova rete usa una variazione della regola di Hebb, che è spesso descritta nella letteratura neurologica come “i neuroni che sparano insieme legano insieme”. Ciò significa che durante l’addestramento, mentre i pesi delle connessioni tra i nodi vengono regolati per produrre output più accurati, i nodi che reagiscono di concerto a particolari stimoli finiscono per contribuire maggiormente all’output finale rispetto ai nodi che reagiscono indipendentemente (o per niente).
Anche questo approccio ha finito per produrre rappresentazioni invarianti. Ma gli strati intermedi della rete hanno anche duplicato le risposte simmetriche speculari delle regioni intermedie di elaborazione visiva del cervello dei primati.
“Penso che sia un significativo passo avanti”, dice Christof Koch, presidente e responsabile scientifico dell’Allen Institute for Brain Science. “In questo giorno ed età, quando tutto è dominato da grandi dati o enormi simulazioni al computer, questo mostra come una comprensione di principio dell’apprendimento può spiegare alcuni risultati sconcertanti.”
“Sono molto attenti”, aggiunge Koch. “Stanno guardando solo il percorso feed-forward – in altre parole, i primi 80, 100 millisecondi. La scimmia apre gli occhi, ed entro 80 o 100 millisecondi, può riconoscere un volto e premere un pulsante che lo segnala. La domanda è cosa succede in quegli 80-100 millisecondi, e il modello che hanno sembra spiegarlo abbastanza bene.”
.