Prohlížení dat
Čtyři typy grafů jsou výchozími body pro průzkum rozsáhlých, vícerozměrných obrazovek založených na obrazech v CellProfiler Analyst (obrázek 1). Důležité je, že tyto nástroje jsou kompatibilní s měřítkem dat obvykle získávaných v obrazovkách založených na obraze, které mohou představovat stovky funkcí pro každou ze stovek milionů buněk. Histogramy zobrazují rozložení hodnot pro jeden měřený rys seskupením obrazových nebo objektových dat do rovnoměrně rozmístěných binů v lineárním nebo logaritmickém měřítku (obrázek 1a). Takové grafy mohou být užitečné například pro zkoumání stavu buněčného cyklu vzorků (vykreslením obsahu DNA na buňku) nebo pro zkoumání odlehlých hodnot pro účely kontroly kvality (např. vykreslením počtu buněk na snímek). Dva naměřené znaky na jeden snímek nebo objekt lze zobrazit na stejném grafu prostřednictvím rozptylového grafu (obrázek 1b), což je rovněž užitečné pro identifikaci shod a pro účely kontroly kvality. Výzkumník může například snadno vyloučit z analýzy rozostřené snímky na základě měření provedených modulem CellProfiler „Measure Image Quality“. Protože se datové body v rozptylových grafech mohou navzájem zakrývat, jsou obvykle nevhodné pro data jednotlivých buněk, kde se zkoumají stovky milionů datových bodů za účelem identifikace zajímavých subpopulací. Pro tyto případy je vhodnější graf hustoty (obrázek 1c). Každý pixel v grafu představuje „bin“ histogramu a barva pixelu představuje počet datových bodů v daném bin. Tyto grafy jsou užitečné například pro stanovení prahových hodnot, při kterých lze jednotlivé buňky klasifikovat jako „pozitivní“ nebo „negativní“ na základě dvou znaků (např. na základě dvou měr intenzity jako v průtokové cytometrii). Pro zkoumání více než dvou měřených znaků každého obrazu nebo datového bodu se používá paralelní souřadnicový graf. Paralelní souřadnicové grafy umožňují analýzu více rozměrů dat, přičemž hodnoty každého měřeného rysu ve stupnici (0-1) mají samostatnou osu y a jednotlivé datové body jsou propojeny napříč těmito více osami (obrázek 1d).
Každý datový bod v grafu může představovat jednotlivou buňku nebo naopak střední hodnotu populace buněk v rámci obrazu. Data lze také seskupit podle vlastností, které mají vzorky společné (např. chemický název nebo dávka). Více experimentů, které zkoumají stejnou sadu podmínek ošetření (např. chemické sloučeniny nebo činidla pro interferenci RNA), lze seskupit dohromady, což usnadňuje analýzu replikátů. U všech typů grafů lze zobrazovaná data filtrovat, například vykreslit data pouze z jednoho snímku, ze vzorku datových bodů v určených stejných intervalech nebo data, která splňují určitá kritéria (specifikovaná v klauzulích SQL „where“, například „CellCount > 100“).
Zkoumání vztahů mezi daty
Datové body vybrané a zvýrazněné v jednom grafu jsou okamžitě zvýrazněny ve všech ostatních otevřených grafech (technika často nazývaná „kartáčování“ ), takže vzorek nebo soubor vzorků lze zkoumat v kontextu jiných souborů vzorků (obrázek 2). To umožňuje například porovnání měření ze vzorků, které jsou předmětem zájmu, se všemi vzorky v experimentu. Kartáčování pomáhá uživateli snadněji zkoumat vztahy v datech, zejména pokud data obsahují velký počet atributů nebo položek, pokud data zahrnují více experimentů (včetně například replikátů) nebo pokud je přirozené zkoumat různé části dat pomocí různých pohledů. Koncept kartáčování je v CellProfiler Analyst rozšířen pro situace, kdy se současně zkoumá více experimentů: když je zvýrazněn bod odpovídající určitému zobrazení, mohou být zvýrazněny všechny body odpovídající danému experimentálnímu stavu ošetření, i když data pocházejí z více experimentů, které se zkoumají společně. Například v grafu rozptylu na obrázku 1b jsou čtyři datové body modré, protože původně byl vybrán jeden a uživatel požadoval zvýraznění replikátů pro tento vzorek.
Zkoumání dat
Zajímavé datové body nebo soubory datových bodů lze zkoumat vrtáním do dat několika způsoby (obrázek 3). U grafů zobrazujících datové body představující měření snímků lze vybrat datový bod nebo sadu datových bodů a zobrazit původní snímky, které tento datový bod vytvořily (obrázek 3d). To může odhalit artefakty při přípravě vzorku nebo při zobrazování, jako jsou fluorescenční testovací sloučeniny, agregáty nebo nadbytek barvicích činidel, vlákna nebo nečistoty (obrázek 3g). Tyto artefakty nejen zakrývají skutečné buňky na snímcích, ale mohou také narušit správnou identifikaci a měření zbývajících buněk na snímku. Z těchto a dalších důvodů lze pro vybrané datové body (obrázek 3e) zobrazit také snímky zobrazující identifikační obrysy vyplývající z analýzy obrazu (pokud jsou k dispozici), aby bylo možné určit, zda identifikace buněk proběhla správně. To je důležitý aspekt vzhledem k tomu, že žádné segmentační algoritmy nejsou bezchybné.
Dále lze vybrat datový bod nebo sadu datových bodů a zobrazit graf měření jednotlivých buněk, které byly přítomny v těchto snímcích, jako samostatný dílčí graf. To umožňuje například zobrazit histogram obsahu DNA udávající rozložení buněčného cyklu buněčné populace pro určitý snímek nebo sadu snímků, které jsou předmětem zájmu (Obrázek 2c a Obrázek 3b). Pro zkoumání identity zajímavých vzorků lze pro získání přehledu zobrazit jednoduchý seznam podmínek ošetření, které vedly k souboru datových bodů (obrázek 2d). Pro další zkoumání lze v externím webovém prohlížeči spustit webové informace o podmínkách ošetření každého snímku (obrázek 3f), pokud jsou v databázi uloženy webové adresy spojené s každým vzorkem. Všechna dostupná měření a další informace pro konkrétní vzorek lze zobrazit v jednoduché tabulce a uložit jako textový soubor oddělený čárkou pro analýzu v jiném softwarovém balíčku (obrázek 3c).
Zpracování údajů o jednotlivých buňkách za účelem vyhodnocení komplexních fenotypů
Údaje založené na snímcích jsou nesmírně cenné tím, že je k dispozici více měření jednotlivých buněk. Reakce jednotlivých buněk na léčbu jsou obvykle nehomogenní v důsledku změn buněčného cyklu nebo rozdílů v hladinách proteinů způsobených pamětí nebo stochastickým šumem . V mnoha případech lze k hodnocení jednotlivých buněk použít jediný měřený znak (např. celkovou intenzitu červeného barviva v jádře) a jediným problémem je určit vhodný práh pro hodnocení pozitivních buněk. Toho lze v nástroji CellProfiler Analyst dosáhnout pomocí histogramů údajů o jednotlivých buňkách. U složitých fenotypů může být pro efektivní skórování vyžadováno několik vlastností každé buňky. V těchto případech může být pro identifikaci zajímavých buněčných subpopulací užitečný graf hustoty zobrazující jednotlivé buňky (obrázek 4a), a to vymezením části grafu (často nazývané „gating“). Zda brána obsahuje buňky, které vás zajímají, lze otestovat pomocí dvou funkcí: funkce „Show Object Montage“ (Zobrazit montáž objektu), která umožňuje zjistit, jak vypadají jednotlivé buňky uvnitř brány (Obrázek 4b), a funkce „Show Image“ (Zobrazit obrázek), která umožňuje zjistit, zda jsou buňky v určitém vzorku vhodně označeny jako buňky uvnitř nebo vně brány (Obrázek 4c). Jakmile je konečná požadovaná subpopulace buněk brána, vypočítá se pro každý snímek počet buněk, které spadají do této subpopulace, pro další statistickou analýzu (Obrázek 4d). Jako příklad lze uvést, že pokud jsou DNA i fosforylovaný serin 10 histonu H3 obarveny, umožňuje jednoduchá dvoufázová brána v aplikaci CellProfiler Analyst bodování mitotických subfází u lidských buněk HT29 (Obrázek 4e). Mnoho softwarových systémů provádí analýzu obrazu za běhu během pořizování obrazu; v takových případech je třeba předem zvolit prahovou hodnotu pro zájmový znak, aby bylo možné obrazovku obodovat. Naproti tomu tyto nástroje v CellProfiler Analyst umožňují testovat účinnost bodování na základě různých rysů a různých prahových hodnot měření.
Pokud jsou k vyhodnocení fenotypu potřeba více než dva znaky, lze na datech buněk použít sekvenční brány. Tento přístup se použije následujícím způsobem: (1) zobrazí se celá populace buněk z experimentu v grafu hustoty, (2) kolem datových bodů představujících potenciální buňky zájmu se nakreslí brána, (3) brána se upraví tak, aby zahrnovala téměř všechny pozitivní buňky a vyloučila co nejvíce negativních buněk, (4) výsledná brána subpopulace se vykreslí v novém grafu hustoty se dvěma novými měřicími prvky jako osami, (5) subpopulace se znovu brání na základě těchto nových prvků a (6) vypočítá se procento buněk každého obrazu, které spadají do konečné brány.
Případová studie: obrazovka mitotické subfáze
Motivace
Chtěli jsme otestovat schopnost nástroje CellProfiler Analyst vykreslovat, zkoumat a filtrovat data jednotlivých buněk za účelem identifikace subpopulací definovaných několika morfologickými znaky. Rozhodli jsme se identifikovat buňky Drosophila melanogaster Kc167 v telofázi a metafázi buněčného cyklu pouze pomocí barvení DNA. Identifikace vzorků s narušenou regulací buněčného cyklu má jednoznačný význam pro biologii normálních buněk i pro studium rakoviny. Regulátory buněčného cyklu se intenzivně hledají již desítky let prostřednictvím tradičních i vysoce výkonných skríninků na změny v celkovém rozložení buněčného cyklu nebo na zvýšené barvení fosfohistonu H3, což je marker buněk v pozdní fázi G2 a M (např. a odkazy v nich). Usoudili jsme, že by mohly existovat další geny, jejichž narušení by vedlo ke zvýšení počtu jader ve fázi metafáze nebo telofáze, aniž by byl podstatně ovlivněn celkový mitotický index (barvení fosfohistonem H3) nebo rozložení buněčného cyklu. Ačkoli jsme si nebyli vědomi žádné pozitivní kontroly s takovým fenotypem, měli jsme podezření, že takové geny mohly být dříve přehlédnuty, protože jsme si všimli, že ne všechna jádra v metafázi se z neznámých důvodů jasně barví na fosfo-histon H3 (obr. 5a). Identifikace genů, jejichž RNAi vytváří buňky, které se zdají být v určitých podfázích mitózy, bez ohledu na současné barvení fosfo-histonu H3, by byla prvním krokem k pochopení těchto jevů.
Několik skupin testovalo automatizované metody pro bodování mitotických subfází ; tyto studie byly provedeny pomocí výpočetních nástrojů přizpůsobených konkrétnímu testu a často se opíraly o více buněčných barvení. Metody strojového učení byly zkoumány naší vlastní skupinou a dalšími (a viz Závěry), ale chtěli jsme také prozkoumat možnost umožnit uživateli ručně vybrat malý počet znaků se známým biologickým významem, po kterém by následovalo sekvenční gating na těchto znacích. To by výzkumníkovi poskytlo plnou kontrolu nad rysy použitými při skórování a skórování by bylo snadněji přenositelné z jednoho experimentu do druhého, protože je vybrán malý počet rysů. Chtěli jsme proto skórovat mitotické subfáze pouze pomocí barvení DNA s použitím kontrolovaného výběru měření a následného sekvenčního gatingu na těchto měřeních, a to v kontextu softwarového balíčku použitelného i pro nepočítačového vědce.
Bodování snímků pomocí sekvenčního gatingu na datech jednotlivých buněk
Prováděli jsme screening genů pomocí mikročipů živých buněk Drosophila s interferencí RNA s cílem identifikovat genové „knockdowny“, které dávají nepřiměřený počet buněk ve dvou podfázích mitózy: metafázi a anafázi/telofázi (pro zjednodušení označované jako telofáze). Vytvořili jsme a analyzovali 5 replikátů matrice Drosophila s 1120 skvrnami dsRNA na jednom mikroskopickém sklíčku (obr. 5b), včetně tří replikátů skvrn pro každý z 288 genů (většinou kináz a fosfatáz), plus 256 negativních kontrolních skvrn bez dsRNA. Některé fenotypy vzniklé v těchto buňkách Drosophila Kc167 (např. buněčná smrt) jsou viditelné v nízkém rozlišení (5× objektiv; obrázek 5c), ale pro identifikaci jader v telofázi a metafázi jsme shromáždili jednotlivé snímky ve vysokém rozlišení v rámci každé skvrny na každém sklíčku (40× objektiv; malá část jednoho snímku je uvedena na obrázku 5d).
Začali jsme s fenotypem telofáze. Abychom určili, které měřené buněčné znaky budou nejefektivnější pro bodové hodnocení, vybrali jsme z náhodných screeningových snímků ručně reprezentativní jádra telofáze a normální jádra G2-fáze a vytvořili obrazové montáže pro tyto dvě třídy (obrázek 6a) pomocí programu Adobe Photoshop. Pomocí nástroje CellProfiler jsme změřili jaderné rysy na těchto montážních snímcích, poté jsme výsledky exportovali do aplikace Excel a vybrali pět rysů, které jsme použili pro sekvenční třídění, a to na základě kombinace biologické intuice a kvantitativní schopnosti každého rysu rozlišit jádra v telofázi od normálních jader pomocí jednoduchých statistických testů v aplikaci Excel. Vybrané rysy zahrnovaly obsah DNA, intenzitu, tvar a texturu (doplňkový datový soubor 1).
Poté jsme interaktivně vytvořili sekvenční brány pomocí grafů hustoty těchto znaků v programu CellProfiler Analyst (viz část „Gating individual cell data to score complex phenotypes“). K provedení tohoto úkolu byl použit CellProfiler ke zpracování celé sady screeningových snímků a načtení výsledných dat do databáze (2,8 milionu buněk × 396 rysů/buňku = celkem 1,1 miliardy měření). To nám umožnilo zobrazit všechny jednotlivé buňky v experimentu v počátečním grafu hustoty se dvěma námi vybranými znaky jako osami, tj. obsahem DNA a velikostí (plochou) jádra. Nakreslili jsme počáteční bránu kolem vrcholu obsahu DNA 2N a malé plochy jádra a empiricky upřesnili bránu pro buňky v telofázi zkoumáním snímků bráněných jader a odpovídajícím způsobem upravili hranice brány. Zatímco automatizované přístupy by jistě mohly určit hranici na základě výzkumníkem poskytnutého tréninkového souboru, tento manuální přístup umožňuje biologovi specificky posoudit mnoho buněk v blízkosti příslušných hranic. Jakmile byla vybrána vhodná brána pro počáteční hustotní graf, byla subpopulace přenesena do nového hustotního grafu se dvěma novými prvky použitými jako osy a byla vytvořena další brána, přičemž byly opět nalezeny optimální parametry pro odlišení jader v telofázi od všech ostatních jader. Tento postup se opakoval pro pátý a poslední vybraný rys. Jakmile byla finální brána upřesněna, použili jsme postupné brány na novou sadu snímků a potvrdili jsme, že jejich bodové hodnocení bylo účinné (tabulka 1 a obrázek 6b) a úspěšně odlišilo telofázová jádra od ostatních. Při vytváření bran jsme se snažili minimalizovat míru falešně pozitivních výsledků a zároveň akceptovat vyšší míru falešně negativních výsledků (tabulka 1). Usoudili jsme, že pravé shody budou mít dostatek pozitivních výsledků, aby překonaly tento záměrně přísný postup výběru. V tomto okamžiku jsme na všechny buňky aplikovali závěrečné sekvenční brány, abychom celý screening vyhodnotili z hlediska telofázového fenotypu. Zjistili jsme, že brány je obvykle nutné mezi různými replikačními preparáty mírně upravit kvůli variabilitě mezi experimenty (např, intenzita barvení), ačkoli by bylo možné prozkoumat metody normalizace mezi experimenty, aby se tento efekt snížil.
Samostatně jsme provedli stejný postup pro fenotyp metafáze (pomocí čtyř znaků pro rozlišení jader metafáze od všech ostatních jader); úplný seznam 288 testovaných genů a jejich skóre pro telofázi a metafázi je uveden v doplňkovém datovém souboru 2.
Telofázová analýza
Řazení vzorků podle procenta telofázových jader odhalilo 4 vyřazené geny s významným nárůstem telofázových jader (obr. 6c, první 4 řádky). Ověření přístupu: dva z těchto genů jsou podjednotky komplexu PP2A, které byly dříve spojovány s mitózou: katalytická podjednotka PP2A-C mts (CG7109/microtubule star) a regulační podjednotka rodiny PP2A-A (CG17291/CG33297/CG13383, poznámka: dicistronní s CSN8). RNAi proti oběma genům zvýšila procento buněk, které byly fosfohiston H3 pozitivní (obrázek 6c, pátý sloupec). Třetí zásah, Ck1α (kaseinkináza 1α/CG2028), byl rovněž dříve spojen s mitózou (obrázek 6c, poslední sloupec). Všimli jsme si, že jeho vyřazení pomocí RNAi vytváří jádra, jejichž chromatin se zdá být o něco méně kondenzovaný než typická jádra v telofázi (obrázek 7), přičemž je stále více kondenzovaný než jádra v interfázi. Procento buněk, které byly fosfohiston H3 pozitivní, bylo normální (obrázek 6c, pátý sloupec). Tato pozorování společně naznačují, že k tomuto defektu dochází v pozdní fázi telofáze/anafáze. Čtvrtou shodou byla předpovězená kináza bez funkční anotace (CG8878). Vizuální kontrola odhalila, že téměř všechna jádra v těchto vzorcích vypadala světlejší a kompaktnější než u kontrol, což je jemný, ale reprodukovatelný efekt (obr. 7). To pochopitelně vedlo k tomu, že více jader 2N bylo započítáno jako jádra s morfologií podobnou telofázi. Zjistili jsme, že tyto buňky nebyly obohaceny o fosfo-histon H3-pozitivitu (obrázek 6c, pátý sloupec); bez dalších experimentů není jasné, zda se jedná o skutečný fenotyp pozdní fáze mitózy, nebo spíše o fenotyp kondenzovaných jader.
Metafázová analýza
Zajímavé je, že jediným metafázovým hitem v tomto screenu (obrázek 6c, poslední řádek) je regulační podjednotka podrodiny B’/B56 PP2A (CG5643/widerborst), která v době našeho screenu nebyla spojena s regulací buněčného cyklu. Procento buněk, které byly fosfohiston H3 pozitivní, nebylo o mnoho vyšší než obvykle (obr. 6c, pátý sloupec). Očima jsme potvrdili fenotyp vyvolávající metafázi při knockdownu widerborst na původních snímcích a v samostatných pokusech s dalšími dvěma dsRNA, včetně jednoho, který se s původním nepřekrýval (obrázek 8a). Widerborst je zásadní gen podílející se na planární polarizaci buněk a apoptóze . Pozoruhodné je, že v jiných souvislostech (cyklování proteinů cirkadiánních hodin a vývoj smyslových orgánů ) je widerborst nepřímo spojen s členem podrodiny B/PR55 twins/aar, o němž je známo, že je sám vyžadován pro přechod z metafáze do anafáze . Naše práce tedy pomocí nepřekrývajících se dsRNA potvrzuje nedávno popsanou roli widerborst v regulaci buněčného cyklu a společně naznačuje, že je nepravděpodobné, že by tento fenotyp byl způsoben účinky mimo cíl .
Nejbližším lidským homologem widerborst je PPP2R5E, izoforma epsilon podrodiny regulačních podjednotek PP2R5 (alias B’/PR61/B56) komplexu PP2A. S PPP2R5E nebyla dosud spojena žádná konkrétní funkce. Zajímalo nás, zda PPP2R5E může být regulační podjednotkou B‘, která moduluje známou roli PP2A v mitóze, vzhledem k našemu zjištění role jejího homologu widerborst u drozofily. Vyřazení PPP2R5E významně nezvýšilo mitotický index v nedávných RNA interferenčních screenech na zvýšený fosfohiston H3 . Když jsme však tytéž snímky s vyřazením PPP2R5E hodnotili spíše z hlediska morfologie metafáze než z hlediska hladin fosfo-histonu H3, objevili jsme u vyřazení PPP2R5E fenotyp metafázové restrikce, potvrzený dvěma různými shRNA (obr. 8b), který odpovídá fenotypu pozorovanému u widerborst u drozofily. Zda jsou widerborst/PPP2R5E samy o sobě nutné pro přechod z metafáze do anafáze, nebo zda jejich deplece způsobuje fenotyp specifickým narušením stechiometrie příslušného komplexu PP2A, zbývá určit. Nedávná zjištění, že PPP2R5E se lokalizuje v centromerách a že podrodina regulačních podjednotek B‘ je nezbytná pro správné meiotické oddělení sesterských chromatid u štěpných a pučících kvasinek, podporují myšlenku, že tato rodina podjednotek je skutečně důležitá pro správnou dynamiku chromatinu během buněčného dělení.
.