Emergent properties
Az új tanulmány “jól illusztrálja, hogy mit akarunk csinálni, ami egyrészt a gépi tanulás és az informatika, másrészt a neurofiziológia és az emberi viselkedés aspektusainak integrációja” – mondja Poggio. “Ez nem csak azt jelenti, hogy milyen algoritmusokat használ az agy, hanem azt is, hogy milyen áramkörök vannak az agyban, amelyek ezeket az algoritmusokat megvalósítják.”
Poggio régóta úgy véli, hogy az agynak “invariáns” reprezentációkat kell létrehoznia az arcokról és más tárgyakról, vagyis olyan reprezentációkat, amelyeknek közömbös a tárgyak térbeli tájolása, a nézőtől való távolsága vagy a látómezőben való elhelyezkedése. Az emberi és majomagy mágneses rezonancia-vizsgálatai ezt sugallták, de 2010-ben Freiwald publikált egy tanulmányt, amelyben sokkal részletesebben leírta a makákómajmok arcfelismerő mechanizmusának neuroanatómiáját.
Freiwald kimutatta, hogy a majom látóidegeiből származó információ egy sor agyi helyen halad keresztül, amelyek közül mindegyik kevésbé érzékeny az arc orientációjára, mint az előző. Az első régióban lévő idegsejtek csak bizonyos arcorientációkra reagálva tüzelnek; az utolsó régióban lévő idegsejtek az arc orientációjától függetlenül tüzelnek – ez egy invariáns reprezentáció.
A köztes régióban lévő idegsejtek azonban “tükörszimmetrikusnak” tűnnek: Ez azt jelenti, hogy érzékenyek az arc elfordulásának szögére, az irányra való tekintet nélkül. Az első régióban a neuronok egyik klasztere tüzel, ha egy arcot 45 fokkal balra forgatnak, és egy másik klaszter tüzel, ha 45 fokkal jobbra forgatják. Az utolsó régióban ugyanaz a neuroncsoport fog tüzelni, akár 30, akár 45, akár 90 fokos, akár a kettő között bárhol van az arc elforgatva. A köztes régióban azonban a neuronok egy bizonyos klasztere fog tüzelni, ha az arcot 45 fokkal elforgatják bármelyik irányba, egy másik, ha 30 fokkal, és így tovább.
Ezt a viselkedést reprodukálta a kutatók gépi tanuló rendszere. “Ez nem egy olyan modell volt, amely a tükörszimmetriát próbálta megmagyarázni” – mondja Poggio. “Ez a modell az invarianciát próbálta megmagyarázni, és eközben előbukkan ez a másik tulajdonság.”
Neurális képzés
A kutatók gépi tanuló rendszere egy neurális hálózat, amelyet azért hívnak így, mert nagyjából megközelíti az emberi agy felépítését. Egy neurális hálózat nagyon egyszerű, rétegekbe rendezett feldolgozóegységekből áll, amelyek sűrűn kapcsolódnak a felette és alatta lévő rétegekben lévő feldolgozóegységekhez – vagy csomópontokhoz -. Az adatok a hálózat legalsó rétegébe kerülnek, amely azokat valamilyen módon feldolgozza, majd továbbítja a következő rétegnek, és így tovább. A képzés során a felső réteg kimenete valamilyen osztályozási kritériummal korrelál – mondjuk annak helyes meghatározásával, hogy egy adott kép egy adott személyt ábrázol-e.
A korábbi munkákban Poggio csoportja neurális hálózatokat képzett ki arra, hogy invariáns reprezentációkat hozzanak létre, lényegében úgy, hogy egy reprezentatív orientációkészletet memorizáltak csupán egy maroknyi arc számára, amelyeket Poggio “sablonoknak” nevez. Amikor a hálózatnak egy új arcot mutattak, megmérte a különbséget ezektől a sablonoktól. Ez a különbség azon sablonok esetében lenne a legkisebb, amelyek orientációja megegyezik az új arc orientációjával, és a hozzájuk tartozó csomópontok kimenete dominálná az információs jelet, mire az elérné a legfelső réteget. Az új arc és a tárolt arcok között mért különbség az új arcnak egyfajta azonosító aláírást ad.
A kísérletekben ez a megközelítés invariáns reprezentációkat eredményezett: Kiderült, hogy egy arc szignatúrája nagyjából ugyanaz, függetlenül az orientációjától. De a mechanizmus – a sablonok memorizálása – Poggio szerint biológiailag nem volt plauzibilis.
Az új hálózat ehelyett a Hebb-szabály egy variációját használja, amelyet a neurológiai szakirodalomban gyakran úgy írnak le, hogy “az együtt tüzelő neuronok együtt vezetnek”. Ez azt jelenti, hogy a képzés során, amikor a csomópontok közötti kapcsolatok súlyait a pontosabb kimenetek előállítása érdekében módosítják, az egyes ingerekre együttesen reagáló csomópontok végül nagyobb mértékben járulnak hozzá a végső kimenethez, mint az egymástól függetlenül (vagy egyáltalán nem) reagáló csomópontok.
Ez a megközelítés is invariáns reprezentációkat eredményezett. De a hálózat középső rétegei is lemásolták a főemlősök agyának köztes vizuális feldolgozó régióinak tükörszimmetrikus válaszait.
“Azt hiszem, ez egy jelentős előrelépés” – mondja Christof Koch, az Allen Institute for Brain Science elnöke és tudományos vezetője. “Napjainkban, amikor mindent vagy a nagy adatok, vagy a hatalmas számítógépes szimulációk uralnak, ez megmutatja, hogy a tanulás elvi megértése hogyan magyarázhat meg néhány rejtélyes eredményt.”
“Nagyon óvatosak” – teszi hozzá Koch. “Csak a feed-forward útvonalat vizsgálják – más szóval az első 80, 100 milliszekundumot. A majom kinyitja a szemét, és 80-100 milliszekundumon belül felismer egy arcot, és megnyom egy gombot, ami ezt jelzi. A kérdés az, hogy mi történik ebben a 80-100 milliszekundumban, és úgy tűnik, hogy az általuk kidolgozott modell ezt elég jól megmagyarázza.”