Emergentit ominaisuudet
Uusi julkaisu on ”hieno osoitus siitä, mitä haluamme tehdä, eli koneoppimisen ja tietojenkäsittelytieteen, neurofysiologian ja ihmisen käyttäytymisen yhdistämisestä”, Poggio sanoo. ”Se ei tarkoita vain sitä, mitä algoritmeja aivot käyttävät, vaan myös sitä, mitkä aivojen piirit toteuttavat nämä algoritmit.”
Poggio on jo pitkään uskonut, että aivojen on tuotettava ”invariantteja” representaatioita kasvoista ja muista objekteista, mikä tarkoittaa representaatioita, jotka ovat välinpitämättömiä objektien orientaatiosta avaruudessa, niiden etäisyydestä katsojasta tai niiden sijainnista näkökentässä. Ihmisten ja apinoiden aivojen magneettikuvaukset viittasivat tähän, mutta vuonna 2010 Freiwald julkaisi tutkimuksen, jossa hän kuvasi paljon yksityiskohtaisemmin makakiapinoiden kasvojen tunnistamismekanismin neuroanatomiaa.
Freiwald osoitti, että apinoiden näköhermoista tuleva informaatio kulkee useiden aivoalueiden läpi, joista kukin on vähemmän herkkä kasvojen orientaatiolle kuin edellinen. Ensimmäisen alueen neuronit syttyvät vain vastauksena tiettyyn kasvojen orientaatioon; viimeisen alueen neuronit syttyvät kasvojen orientaatiosta riippumatta – invariantti representaatio.
Mutta välialueen neuronit näyttävät olevan ”peilisymmetrisiä”: Toisin sanoen ne ovat herkkiä kasvojen kiertokulmalle ilman suuntaa. Ensimmäisellä alueella yksi neuroniryhmä palaa, jos kasvoja käännetään 45 astetta vasemmalle, ja toinen ryhmä palaa, jos niitä käännetään 45 astetta oikealle. Viimeisellä alueella sama neuroniryhmä palaa riippumatta siitä, onko kasvoja käännetty 30 astetta, 45 astetta, 90 astetta vai mitä tahansa siltä väliltä. Mutta välialueella tietty neuroniryhmä palaa, jos kasvoja käännetään 45 astetta jompaankumpaan suuntaan, toinen, jos niitä käännetään 30 astetta, ja niin edelleen.
Tällaista käyttäytymistä tutkijoiden koneoppimisjärjestelmä toisti. ”Se ei ollut malli, joka yritti selittää peilisymmetriaa”, Poggio sanoo. ”Tämä malli yritti selittää invarianssia, ja prosessin aikana esiin putkahti tämä toinen ominaisuus.”
Neuraalinen harjoittelu
Tutkijoiden koneoppimisjärjestelmä on neuroverkko, jota kutsutaan niin, koska se lähestyy suurin piirtein ihmisen aivojen arkkitehtuuria. Neuroverkko koostuu hyvin yksinkertaisista, kerroksiin järjestetyistä prosessointiyksiköistä, jotka ovat tiiviisti yhteydessä ylä- ja alapuolella olevien kerrosten prosessointiyksiköihin eli solmuihin. Tiedot syötetään verkon alimpaan kerrokseen, joka käsittelee ne jollakin tavalla ja syöttää ne seuraavaan kerrokseen ja niin edelleen. Harjoittelun aikana ylimmän kerroksen tulosta korreloidaan jonkin luokittelukriteerin kanssa – esimerkiksi määrittämällä oikein, kuvaako tietty kuva tiettyä henkilöä.
Aikaisemmassa työssä Poggion ryhmä oli kouluttanut neuroverkkoja tuottamaan invariantteja representaatioita lähinnä muistamalla edustavan joukon orientaatioita vain muutamalle kasvolle, joita Poggio kutsuu ”malleiksi”. Kun verkolle esitettiin uudet kasvot, se mittasi niiden eron näistä malleista. Ero oli pienin niiden mallien kohdalla, joiden orientaatio oli sama kuin uusien kasvojen orientaatio, ja niihin liittyvien solmujen ulostulot hallitsivat informaatiosignaalia, kun se saavutti ylimmän kerroksen. Mitattu ero uusien kasvojen ja tallennettujen kasvojen välillä antaa uusille kasvoille eräänlaisen tunnistavan allekirjoituksen.
Kokeissa tämä lähestymistapa tuotti invariantteja representaatioita: Kasvojen allekirjoitus osoittautui suunnilleen samaksi riippumatta niiden orientaatiosta. Mutta mekanismi – mallien muistaminen – ei ollut Poggion mukaan biologisesti uskottava.
Niinpä sen sijaan uusi verkko käyttää muunnelmaa Hebbin säännöstä, jota neurologisessa kirjallisuudessa kuvataan usein seuraavasti: ”Neuronit, jotka palavat yhdessä, johdottuvat yhteen”. Tämä tarkoittaa sitä, että harjoittelun aikana, kun solmujen välisten yhteyksien painoja mukautetaan tarkempien ulostulojen tuottamiseksi, solmut, jotka reagoivat yhdessä tiettyihin ärsykkeisiin, osallistuvat lopulta enemmän lopulliseen ulostuloon kuin solmut, jotka reagoivat itsenäisesti (tai eivät reagoi lainkaan).
Tämäkin lähestymistapa tuotti lopulta invariantteja representaatioita. Mutta verkon keskimmäiset kerrokset kopioivat myös kädellisten aivojen visuaalisen prosessoinnin välialueiden peilisymmetriset vasteet.
”Mielestäni tämä on merkittävä edistysaskel”, sanoo Christof Koch, Allen Institute for Brain Science -instituutin puheenjohtaja ja tieteellinen johtaja. ”Nykypäivänä, jolloin kaikkea hallitsevat joko suuret datamäärät tai valtavat tietokonesimulaatiot, tämä osoittaa, miten periaatteellinen ymmärrys oppimisesta voi selittää joitakin hämmentäviä löydöksiä.”
”He ovat hyvin varovaisia”, Koch lisää. ”He tarkastelevat vain eteenpäin suuntautuvaa reittiä – toisin sanoen ensimmäisiä 80, 100 millisekuntia. Apina avaa silmänsä, ja 80-100 millisekunnin kuluessa se voi tunnistaa kasvot ja painaa niistä kertovaa nappia. Kysymys kuuluu, mitä noiden 80-100 millisekunnin aikana tapahtuu, ja heidän mallinsa näyttää selittävän sen melko hyvin.”