Jak mozek rozpoznává obličeje | MIT News | Massachusetts Institute of Technology

Emergentní vlastnosti

Nový článek je „pěknou ilustrací toho, co chceme dělat v , což je integrace strojového učení a počítačové vědy na jedné straně, neurofyziologie na straně druhé a aspektů lidského chování,“ říká Poggio. „To znamená nejen to, jaké algoritmy mozek používá, ale jaké jsou obvody v mozku, které tyto algoritmy implementují.“

Poggio se dlouho domníval, že mozek musí vytvářet „invariantní“ reprezentace tváří a dalších objektů, což znamená reprezentace, které jsou lhostejné k orientaci objektů v prostoru, jejich vzdálenosti od pozorovatele nebo jejich umístění v zorném poli. Magnetická rezonance lidských a opičích mozků tomu nasvědčovala, ale v roce 2010 Freiwald publikoval studii popisující neuroanatomii mechanismu rozpoznávání obličejů u opic makaků mnohem podrobněji.

Freiwald ukázal, že informace ze zrakových nervů opic prochází řadou mozkových míst, z nichž každé je méně citlivé na orientaci obličeje než to předchozí. Neurony v první oblasti se aktivují pouze v reakci na určitou orientaci obličeje; neurony v poslední oblasti se aktivují bez ohledu na orientaci obličeje – jedná se o invariantní reprezentaci.

Nurony v přechodné oblasti se však zdají být „zrcadlově symetrické“: To znamená, že jsou citlivé na úhel natočení obličeje bez ohledu na jeho směr. V první oblasti se jeden shluk neuronů spustí, pokud je obličej otočen o 45 stupňů doleva, a jiný shluk se spustí, pokud je otočen o 45 stupňů doprava. V poslední oblasti se stejný shluk neuronů spustí, ať už je obličej otočen o 30 stupňů, 45 stupňů, 90 stupňů nebo kdekoli mezi tím. Ale v přechodné oblasti se určitý shluk neuronů spustí, pokud je obličej otočen o 45 stupňů v obou směrech, jiný, pokud je otočen o 30 stupňů, a tak dále.

Takové chování reprodukoval systém strojového učení výzkumníků. „Nebyl to model, který by se snažil vysvětlit zrcadlovou symetrii,“ říká Poggio. „Tento model se snažil vysvětlit invarianci, a přitom se objevila tato další vlastnost.“

Neurální trénink

Systém strojového učení výzkumníků je neuronová síť, která se tak nazývá proto, že se zhruba přibližuje architektuře lidského mozku. Neuronová síť se skládá z velmi jednoduchých výpočetních jednotek uspořádaných do vrstev, které jsou hustě propojeny se zpracovatelskými jednotkami – neboli uzly – ve vrstvách nad a pod nimi. Data jsou přiváděna do spodní vrstvy sítě, která je určitým způsobem zpracuje a předá je další vrstvě atd. Během tréninku je výstup horní vrstvy korelován s nějakým klasifikačním kritériem – řekněme správným určením, zda daný obrázek zobrazuje určitou osobu.

V dřívější práci trénovala Poggiova skupina neuronové sítě k vytváření invariantních reprezentací v podstatě zapamatováním reprezentativní sady orientací pro pouhou hrstku tváří, které Poggio nazývá „šablony“. Když byla síti předložena nová tvář, změřila její odlišnost od těchto šablon. Tento rozdíl by byl nejmenší u šablon, jejichž orientace by byla stejná jako orientace nové tváře, a výstup přidružených uzlů by nakonec dominoval informačnímu signálu v době, kdy by dosáhl horní vrstvy. Naměřený rozdíl mezi novou tváří a uloženými tvářemi dává nové tváři jakýsi identifikační podpis.

V experimentech tento přístup vytvářel invariantní reprezentace: Ukázalo se, že podpis obličeje je zhruba stejný bez ohledu na jeho orientaci. Podle Poggia však tento mechanismus – zapamatování šablon – nebyl biologicky věrohodný.

Na místo toho nová síť využívá variaci na Hebbovo pravidlo, které je v neurologické literatuře často popisováno jako „neurony, které střílejí společně, se spojují“. To znamená, že během tréninku, kdy se upravují váhy spojení mezi uzly tak, aby vznikaly přesnější výstupy, se nakonec uzly, které reagují na určité podněty společně, podílejí na konečném výstupu více než uzly, které reagují samostatně (nebo vůbec).

Tento přístup také nakonec přinesl invariantní reprezentace. Střední vrstvy sítě však také kopírovaly zrcadlově symetrické reakce mezilehlých oblastí zpracovávajících zrakové vjemy v mozku primátů.

„Myslím, že je to významný krok vpřed,“ říká Christof Koch, prezident a vědecký ředitel Allenova institutu pro vědu o mozku. „V dnešní době, kdy všemu dominují buď velká data, nebo obrovské počítačové simulace, to ukazuje, jak může principiální chápání učení vysvětlit některá záhadná zjištění.“

„Jsou velmi opatrní,“ dodává Koch. „Zkoumají pouze cestu feed-forward – jinými slovy prvních 80, 100 milisekund. Opice otevře oči a během 80 až 100 milisekund dokáže rozpoznat obličej a stisknout tlačítko, které to signalizuje. Otázkou je, co se děje během těchto 80 až 100 milisekund, a zdá se, že model, který mají, to docela dobře vysvětluje.“

Napsat komentář Zrušit odpověď na komentář