Proprietăți emergente
Noua lucrare este „o ilustrare frumoasă a ceea ce vrem să facem în , care este această integrare a învățării automate și a informaticii, pe de o parte, a neurofiziologiei, pe de altă parte, și a aspectelor comportamentului uman”, spune Poggio. „Asta înseamnă nu numai ce algoritmi folosește creierul, ci și care sunt circuitele din creier care implementează acești algoritmi.”
Poggio a crezut mult timp că creierul trebuie să producă reprezentări „invariante” ale fețelor și ale altor obiecte, adică reprezentări care sunt indiferente la orientarea obiectelor în spațiu, la distanța lor față de privitor sau la locația lor în câmpul vizual. Scanările prin rezonanță magnetică ale creierelor umane și ale maimuțelor au sugerat acest lucru, dar în 2010, Freiwald a publicat un studiu care descrie mult mai detaliat neuroanatomia mecanismului de recunoaștere a fețelor de către maimuțele macaque.
Freiwald a arătat că informațiile de la nervii optici ai maimuțelor trec printr-o serie de locații ale creierului, fiecare dintre acestea fiind mai puțin sensibilă la orientarea fețelor decât cea precedentă. Neuronii din prima regiune se declanșează numai ca răspuns la anumite orientări ale feței; neuronii din regiunea finală se declanșează indiferent de orientarea feței – o reprezentare invariantă.
Dar neuronii dintr-o regiune intermediară par să fie „simetrici în oglindă”: Adică, ei sunt sensibili la unghiul de rotație a feței fără a respecta direcția. În prima regiune, un grup de neuroni se va declanșa dacă o față este rotită cu 45 de grade spre stânga, iar un alt grup se va declanșa dacă este rotită cu 45 de grade spre dreapta. În regiunea finală, același grup de neuroni se va declanșa dacă fața este rotită la 30 de grade, 45 de grade, 90 de grade sau oriunde între ele. Dar în regiunea intermediară, un anumit grup de neuroni se va declanșa dacă fața este rotită cu 45 de grade în orice direcție, altul dacă este rotită cu 30 de grade, și așa mai departe.
Acesta este comportamentul pe care sistemul de învățare automată al cercetătorilor l-a reprodus. „Nu a fost un model care încerca să explice simetria în oglindă”, spune Poggio. „Acest model încerca să explice invarianța și, în acest proces, apare această altă proprietate.”
Învățare neuronală
Sistemul de învățare automată al cercetătorilor este o rețea neuronală, numită astfel deoarece se apropie aproximativ de arhitectura creierului uman. O rețea neuronală este formată din unități de procesare foarte simple, aranjate în straturi, care sunt conectate în mod dens la unitățile de procesare – sau noduri – din straturile de deasupra și de dedesubt. Datele sunt introduse în stratul inferior al rețelei, care le procesează într-un anumit fel și le transmite stratului următor, și așa mai departe. În timpul antrenamentului, ieșirea stratului superior este corelată cu un anumit criteriu de clasificare – de exemplu, determinarea corectă dacă o anumită imagine reprezintă o anumită persoană.
În lucrările anterioare, grupul lui Poggio a antrenat rețele neuronale pentru a produce reprezentări invariante prin, în esență, memorarea unui set reprezentativ de orientări pentru doar o mână de fețe, pe care Poggio le numește „șabloane”. Atunci când rețelei i se prezenta o față nouă, aceasta măsura diferența față de aceste șabloane. Această diferență ar fi cea mai mică pentru șabloanele ale căror orientări erau identice cu cele ale feței noi, iar ieșirea nodurilor asociate acestora ar sfârși prin a domina semnalul informațional în momentul în care ar ajunge la stratul superior. Diferența măsurată între noua față și fețele memorate conferă feței noi un fel de semnătură de identificare.
În experimente, această abordare a produs reprezentări invariante: Semnătura unei fețe s-a dovedit a fi aproximativ aceeași indiferent de orientarea sa. Dar mecanismul – memorarea șabloanelor – nu era, spune Poggio, plauzibil din punct de vedere biologic.
Așa că, în schimb, noua rețea folosește o variație a regulii lui Hebb, care este adesea descrisă în literatura neurologică ca „neuronii care trag împreună se conectează împreună”. Aceasta înseamnă că, în timpul antrenamentului, pe măsură ce ponderile conexiunilor dintre noduri sunt ajustate pentru a produce ieșiri mai precise, nodurile care reacționează în mod concertat la anumiți stimuli sfârșesc prin a contribui mai mult la ieșirea finală decât nodurile care reacționează independent (sau deloc).
Această abordare, de asemenea, a sfârșit prin a produce reprezentări invariante. Dar straturile medii ale rețelei au duplicat, de asemenea, răspunsurile simetrice în oglindă ale regiunilor intermediare de procesare vizuală din creierul primatelor.
„Cred că este un pas înainte semnificativ”, spune Christof Koch, președinte și director științific la Allen Institute for Brain Science. „În ziua de azi, când totul este dominat fie de date mari, fie de simulări uriașe pe calculator, acest lucru vă arată cum o înțelegere de principiu a învățării poate explica unele descoperiri derutante.”
„Sunt foarte atenți”, adaugă Koch. „Ei se uită doar la calea feed-forward – cu alte cuvinte, primele 80, 100 de milisecunde. Maimuța deschide ochii și, în 80 sau 100 de milisecunde, poate recunoaște o față și poate apăsa un buton care semnalizează acest lucru. Întrebarea este ce se întâmplă în acele 80-100 de milisecunde, iar modelul pe care îl au pare să explice acest lucru destul de bine.”
.