Propriedades emergentes
O novo artigo é “uma bela ilustração do que queremos fazer no , que é esta integração de aprendizagem de máquinas e informática, por um lado, neurofisiologia, por outro, e aspectos do comportamento humano”, diz Poggio. “Isso significa não só o que os algoritmos usam o cérebro, mas quais são os circuitos no cérebro que implementam esses algoritmos”, diz Poggio. “Há muito tempo que Poggio acredita que o cérebro deve produzir representações “invariantes” de rostos e outros objetos, ou seja, representações que são indiferentes à orientação dos objetos no espaço, à sua distância do espectador, ou à sua localização no campo visual. Ressonâncias magnéticas de cérebros humanos e de macacos sugeriram isso, mas em 2010, Freiwald publicou um estudo descrevendo com muito mais detalhes a neuroanatomia do mecanismo de reconhecimento facial dos macacos macacos.
Freiwald mostrou que a informação dos nervos ópticos do macaco passa por uma série de localizações cerebrais, cada uma delas menos sensível à orientação facial do que a última. Neurônios na primeira região disparam apenas em resposta a determinadas orientações faciais; neurônios na região final disparam independentemente da orientação da face – uma representação invariante.
Mas neurônios em uma região intermediária parecem ser “simétricos ao espelho”: Ou seja, eles são sensíveis ao ângulo de rotação da face sem respeito à direção. Na primeira região, um aglomerado de neurônios disparará se uma face for girada 45 graus para a esquerda, e um aglomerado diferente disparará se for girada 45 graus para a direita. Na região final, o mesmo aglomerado de neurônios disparará se a face for girada 30 graus, 45 graus, 90 graus, ou em qualquer lugar intermediário. Mas na região intermediária, um determinado aglomerado de neurônios disparará se a face for girada 45 graus em qualquer direção, outro se for girado 30 graus, e assim por diante.
Este é o comportamento que o sistema de aprendizagem da máquina dos pesquisadores reproduziu. “Não era um modelo que estava tentando explicar a simetria de espelhos”, diz Poggio. “Este modelo estava tentando explicar a invariância, e no processo, há esta outra propriedade que aparece”.
O treinamento neural
O sistema de aprendizado automático dos pesquisadores é uma rede neural, assim chamada porque se aproxima aproximadamente da arquitetura do cérebro humano. Uma rede neural consiste de unidades de processamento muito simples, dispostas em camadas, que estão densamente conectadas às unidades de processamento – ou nós – nas camadas acima e abaixo. Os dados são alimentados na camada inferior da rede, que os processa de alguma forma e os alimenta para a camada seguinte, e assim por diante. Durante o treinamento, a saída da camada superior é correlacionada com algum critério de classificação – digamos, determinar corretamente se uma determinada imagem representa uma determinada pessoa.
No trabalho anterior, o grupo de Poggio havia treinado redes neurais para produzir representações invariantes, essencialmente memorizando um conjunto representativo de orientações para apenas um punhado de rostos, que Poggio chama de “modelos”. Quando a rede era apresentada com um novo rosto, ela media a sua diferença em relação a esses modelos. Essa diferença seria menor para os templates cujas orientações fossem as mesmas da nova face, e a saída de seus nós associados acabaria dominando o sinal de informação no momento em que atingisse a camada superior. A diferença medida entre a nova face e as faces armazenadas dá à nova face uma espécie de assinatura identificadora.
Em experimentos, esta abordagem produziu representações invariantes: A assinatura de uma face revelou-se mais ou menos a mesma, independentemente da sua orientação. Mas o mecanismo – modelos de memorização – não era, diz Poggio, biologicamente plausível.
Então, em vez disso, a nova rede usa uma variação na regra de Hebb, que é muitas vezes descrita na literatura neurológica como “neurônios que disparam juntos fio a fio”. Isso significa que durante o treinamento, como os pesos das conexões entre nós estão sendo ajustados para produzir saídas mais precisas, os nós que reagem em conjunto a determinados estímulos acabam contribuindo mais para a saída final do que os nós que reagem independentemente (ou não reagem de forma alguma).
Esta abordagem, também, acabou produzindo representações invariantes. Mas as camadas médias da rede também duplicaram as respostas simétricas espelhadas das regiões intermediárias de processamento visual do cérebro primata.
“Acho que é um passo significativo em frente”, diz Christof Koch, presidente e diretor científico do Instituto Allen de Ciências do Cérebro. “Nos dias de hoje, quando tudo é dominado por grandes dados ou enormes simulações de computador, isto mostra como uma compreensão de princípio da aprendizagem pode explicar alguns achados intrigantes”, acrescenta Koch. “Eles estão apenas olhando para o caminho de avanço – em outras palavras, os primeiros 80, 100 milissegundos. O macaco abre os olhos, e dentro de 80 a 100 milissegundos, ele consegue reconhecer um rosto e apertar um botão sinalizando isso. A questão é o que se passa nesses 80 a 100 milissegundos, e o modelo que eles têm parece explicar isso muito bem”