Propiedades emergentes
El nuevo trabajo es «una bonita ilustración de lo que queremos hacer en , que es esta integración del aprendizaje automático y la informática por un lado, la neurofisiología por otro, y los aspectos del comportamiento humano», dice Poggio. «Eso significa no sólo qué algoritmos utiliza el cerebro, sino cuáles son los circuitos cerebrales que implementan esos algoritmos».
Poggio cree desde hace tiempo que el cerebro debe producir representaciones «invariantes» de los rostros y otros objetos, es decir, representaciones que son indiferentes a la orientación de los objetos en el espacio, su distancia del espectador o su ubicación en el campo visual. Los escáneres de resonancia magnética de cerebros humanos y de monos así lo sugerían, pero en 2010, Freiwald publicó un estudio que describía la neuroanatomía del mecanismo de reconocimiento facial de los monos macacos con mucho más detalle.
Freiwald demostró que la información procedente de los nervios ópticos de los monos pasa por una serie de localizaciones cerebrales, cada una de las cuales es menos sensible a la orientación de la cara que la anterior. Las neuronas de la primera región se disparan sólo en respuesta a orientaciones particulares de la cara; las neuronas de la última región se disparan independientemente de la orientación de la cara: una representación invariable.
Pero las neuronas de una región intermedia parecen ser «simétricas al espejo»: Es decir, son sensibles al ángulo de rotación de la cara sin respetar la dirección. En la primera región, un grupo de neuronas se dispara si una cara se gira 45 grados a la izquierda, y otro grupo diferente se dispara si se gira 45 grados a la derecha. En la última región, el mismo grupo de neuronas se activará si la cara se gira 30 grados, 45 grados, 90 grados o en cualquier punto intermedio. Pero en la región intermedia, un grupo concreto de neuronas se disparará si la cara se gira 45 grados en cualquier dirección, otro si se gira 30 grados, y así sucesivamente.
Este es el comportamiento que reprodujo el sistema de aprendizaje automático de los investigadores. «No era un modelo que intentara explicar la simetría de los espejos», dice Poggio. «Este modelo intentaba explicar la invariabilidad y, en el proceso, aparece esta otra propiedad».
Entrenamiento neuronal
El sistema de aprendizaje automático de los investigadores es una red neuronal, llamada así porque se aproxima a la arquitectura del cerebro humano. Una red neuronal está formada por unidades de procesamiento muy simples, organizadas en capas, que están densamente conectadas a las unidades de procesamiento -o nodos- de las capas superiores e inferiores. Los datos se introducen en la capa inferior de la red, que los procesa de alguna manera y los transmite a la siguiente capa, y así sucesivamente. Durante el entrenamiento, la salida de la capa superior se correlaciona con algún criterio de clasificación -por ejemplo, determinar correctamente si una imagen dada representa a una persona en particular.
En trabajos anteriores, el grupo de Poggio había entrenado a las redes neuronales para que produjeran representaciones invariables, esencialmente, memorizando un conjunto representativo de orientaciones para sólo un puñado de caras, que Poggio llama «plantillas». Cuando a la red se le presentaba una nueva cara, medía su diferencia con respecto a esas plantillas. Esa diferencia sería menor para las plantillas cuyas orientaciones fueran las mismas que las de la nueva cara, y la salida de sus nodos asociados acabaría dominando la señal de información cuando llegara a la capa superior. La diferencia medida entre la nueva cara y las caras almacenadas da a la nueva cara una especie de firma identificativa.
En los experimentos, este enfoque produjo representaciones invariables: La firma de una cara resultó ser aproximadamente la misma sin importar su orientación. Pero el mecanismo -la memorización de plantillas- no era, según Poggio, biológicamente plausible.
Así que, en su lugar, la nueva red utiliza una variación de la regla de Hebb, que a menudo se describe en la literatura neurológica como «las neuronas que se disparan juntas se conectan». Esto significa que durante el entrenamiento, a medida que se ajustan los pesos de las conexiones entre los nodos para producir salidas más precisas, los nodos que reaccionan de forma conjunta a determinados estímulos acaban contribuyendo más a la salida final que los nodos que reaccionan de forma independiente (o no reaccionan en absoluto).
Este enfoque, también, acabó produciendo representaciones invariables. Pero las capas intermedias de la red también duplicaron las respuestas simétricas en espejo de las regiones intermedias de procesamiento visual del cerebro de los primates.
«Creo que es un importante paso adelante», dice Christof Koch, presidente y director científico del Instituto Allen para la Ciencia del Cerebro. «En esta época, en la que todo está dominado por los grandes datos o las enormes simulaciones por ordenador, esto muestra cómo una comprensión de principios del aprendizaje puede explicar algunos hallazgos desconcertantes».
«Son muy cuidadosos», añade Koch. «Sólo se fijan en la vía de avance, es decir, en los primeros 80 o 100 milisegundos. El mono abre los ojos y, en 80 o 100 milisegundos, puede reconocer una cara y pulsar un botón de señalización. La cuestión es qué ocurre en esos 80 o 100 milisegundos, y el modelo que tienen parece explicarlo bastante bien».