Viewing data
Vier soorten plots zijn de uitgangspunten voor de verkenning van grote, multi-dimensionale beeld-gebaseerde schermen in CellProfiler Analyst (figuur 1). Belangrijk is dat deze tools compatibel zijn met de schaal van gegevens die doorgaans worden verkregen in beeld-gebaseerde schermen, die honderden kenmerken kunnen zijn voor elk van honderden miljoenen cellen. Histogrammen geven de verdeling van de waarden voor één gemeten kenmerk weer door de beeld- of objectgegevens te groeperen in gelijkmatig verdeelde bins, op een lineaire of logaritmische schaal (figuur 1a). Dergelijke diagrammen kunnen nuttig zijn om bijvoorbeeld de celcyclusstatus van monsters te onderzoeken (door het DNA-gehalte per cel te plotten) of om uitschieters te onderzoeken voor kwaliteitscontroledoeleinden (bv. door het aantal cellen per beeld te plotten). Twee gemeten kenmerken per beeld of object kunnen op dezelfde grafiek worden weergegeven via een scatterplot (figuur 1b), die ook nuttig is voor het identificeren van hits en voor kwaliteitscontroledoeleinden. Bijvoorbeeld, de onderzoeker kan gemakkelijk uitsluiten out-of-focus beelden van de analyse op basis van metingen door CellProfiler’s “Measure Image Quality” module. Omdat datapunten in scatterplots elkaar kunnen overlappen, zijn ze meestal ongeschikt voor individuele celgegevens waarbij honderden miljoenen datapunten worden onderzocht om interessante subpopulaties te identificeren. Voor deze gevallen is een dichtheidsplot meer geschikt (figuur 1c). Elke pixel in de plot vertegenwoordigt een histogram “bin” en de kleur van de pixel vertegenwoordigt het aantal datapunten in de bin. Deze plots zijn bijvoorbeeld nuttig voor het vaststellen van drempelwaarden waarbij individuele cellen worden geclassificeerd als “positief” of “negatief” op basis van twee kenmerken (bv. op basis van twee intensiteitsmetingen zoals bij flowcytometrie). Om meer dan twee gemeten kenmerken van elk beeld of gegevenspunt te onderzoeken, wordt een parallelle coördinatenplot gebruikt. Met parallelle coördinatenplots kunnen meerdere gegevensdimensies worden geanalyseerd, waarbij de geschaalde (0-1) waarden van elk gemeten kenmerk een afzonderlijke y-as krijgen en individuele gegevenspunten over deze meerdere assen worden verbonden (afbeelding 1d).
Elk gegevenspunt in een plot kan een individuele cel vertegenwoordigen of, in tegenstelling daarmee, de gemiddelde waarde van de populatie cellen binnen een afbeelding. De gegevens kunnen ook worden gegroepeerd aan de hand van gemeenschappelijke kenmerken van de monsters (bv. chemische naam of dosis). Meerdere experimenten die dezelfde set behandelingscondities onderzoeken (bijv. chemische verbindingen of RNA-interferentie reagentia) kunnen samen worden gegroepeerd, wat de analyse van replicaten vergemakkelijkt. Voor alle soorten plots kunnen de weer te geven gegevens worden gefilterd, bijvoorbeeld om alleen gegevens van een enkele afbeelding weer te geven, van een steekproef van datapunten met gespecificeerde gelijke intervallen, of gegevens die aan bepaalde criteria voldoen (gespecificeerd in SQL “where”-clausules zoals “CellCount > 100”).
Verkennen van relaties tussen gegevens
Gegevens die in één plot worden geselecteerd en gemarkeerd, worden onmiddellijk gemarkeerd in alle andere open plots (een techniek die vaak “borstelen” wordt genoemd), zodat een monster of een reeks monsters kan worden onderzocht in de context van andere reeksen monsters (figuur 2). Dit maakt het bijvoorbeeld mogelijk metingen van interessante monsters te vergelijken met die van alle monsters in het experiment. Borstelen helpt de gebruiker om gemakkelijker relaties in de gegevens te onderzoeken, vooral wanneer de gegevens een groot aantal attributen of items hebben, wanneer de gegevens meerdere experimenten omvatten (inclusief bijvoorbeeld replicaten), of wanneer het natuurlijk is om verschillende delen van de gegevens te onderzoeken met behulp van verschillende weergaven. Het brush-concept wordt in CellProfiler Analyst uitgebreid voor situaties waarin meerdere experimenten tegelijk worden onderzocht: wanneer een punt dat correspondeert met een bepaalde afbeelding wordt gemarkeerd, kunnen alle punten die corresponderen met die experimentele behandelingsconditie worden gemarkeerd, zelfs als de gegevens afkomstig zijn van meerdere experimenten die samen worden onderzocht. In de scatterplot in figuur 1b zijn bijvoorbeeld vier gegevenspunten blauw omdat er oorspronkelijk één was geselecteerd en de gebruiker had gevraagd om de replicaten voor dat monster te markeren.
Onderzoeken van gegevens
Interessante gegevenspunten of reeksen gegevenspunten kunnen worden onderzocht door op verschillende manieren in de gegevens te boren (figuur 3). Voor percelen met gegevenspunten die beeldmetingen vertegenwoordigen, kan een gegevenspunt of een reeks gegevenspunten worden geselecteerd en kunnen de oorspronkelijke beelden die het gegevenspunt hebben opgeleverd, worden weergegeven (figuur 3d). Dit kan artefacten in de monstervoorbereiding of beeldvorming aan het licht brengen, zoals fluorescerende testverbindingen, aggregaten of een overvloed aan kleuringreagentia, vezels of puin (figuur 3g). Deze artefacten niet alleen occluderen werkelijke cellen in beelden, maar kan ook verstoren de juiste identificatie en meting van de resterende cellen in het beeld. Om deze en andere redenen, beelden met identificatie contouren als gevolg van beeldanalyse (indien beschikbaar) kan ook worden getoond voor geselecteerde datapunten (figuur 3e), om te bepalen of de identificatie van cellen goed gebeurd. Dit is een belangrijke overweging, aangezien geen enkel segmentatiealgoritme foutloos is.
Extra kan een gegevenspunt of een reeks gegevenspunten worden geselecteerd en kan een plot van de metingen van afzonderlijke cellen die in die beelden aanwezig waren, als een afzonderlijke subplot worden weergegeven. Hierdoor kan bijvoorbeeld een histogram van het DNA-gehalte worden weergegeven dat de verdeling van de celcyclus van de celpopulatie aangeeft voor een bepaald beeld of een reeks beelden van belang (figuur 2c en figuur 3b). Om de identiteit van interessante monsters te onderzoeken, kan een eenvoudige lijst van de behandelingscondities die een reeks datapunten hebben opgeleverd, worden weergegeven om een overzicht te krijgen (figuur 2d). Voor verder onderzoek kan webgebaseerde informatie over de behandelingsconditie van elk beeld in een externe webbrowser worden gestart (figuur 3f), als de webadressen die aan elk monster zijn gekoppeld, in de database zijn opgeslagen. Alle beschikbare metingen en andere informatie voor een bepaald monster kan worden weergegeven in een eenvoudige tabel en opgeslagen als een comma-delimited tekstbestand voor analyse in een ander softwarepakket (figuur 3c).
Gating individuele celgegevens te scoren complexe fenotypen
Image-based gegevens is enorm waardevol in dat meerdere single-cel metingen beschikbaar zijn. Reacties van individuele cellen op een behandeling zijn meestal inhomogeen als gevolg van variaties in de celcyclus of verschillen in eiwitniveaus als gevolg van geheugen of stochastische ruis . In veel gevallen kan één gemeten kenmerk (b.v. de totale intensiteit van de rode kleur binnen de kern) worden gebruikt om individuele cellen te scoren en de enige uitdaging is een geschikte drempel te vinden om positieve cellen te scoren. Dit kan in CellProfiler Analyst worden gedaan met behulp van histogrammen van individuele celgegevens. Voor complexe fenotypes kunnen meerdere kenmerken van elke cel nodig zijn om effectief te scoren. In deze gevallen kan een dichtheidsgrafiek met individuele cellen (figuur 4a) nuttig zijn voor het identificeren van interessante celsubpopulaties, door een deel van de grafiek af te bakenen (vaak “gating” genoemd). Of de poort bevat de cellen van belang kan worden getest met behulp van twee functies: de “Show Object Montage” functie om te zien wat individuele cellen binnen de poort eruit (figuur 4b), en de “Show Image” functie om te zien of cellen binnen een bepaald monster zijn op de juiste wijze gemarkeerd als binnen of buiten de poort (figuur 4c). Zodra de uiteindelijke, gewenste subpopulatie van cellen is gated, wordt het aantal cellen dat binnen die subpopulatie vallen berekend voor elk beeld, voor verdere statistische analyse (figuur 4d). Als voorbeeld, wanneer DNA en gefosforyleerd Serine 10 van histon H3 zijn beide gekleurd, een eenvoudige twee-feature poort in CellProfiler Analyst maakt het mogelijk het scoren van mitotische subfasen in menselijke HT29 cellen (figuur 4e). Veel software systemen uit te voeren beeldanalyse op de vlieg tijdens de beeldacquisitie, in dergelijke gevallen, een drempelwaarde voor een kenmerk van belang moet vooraf worden gekozen om het scherm te scoren. In tegenstelling, deze tools in CellProfiler Analyst kunnen testen van de doeltreffendheid van scoren op basis van verschillende functies en verschillende meetdrempels.
Als er meer dan twee kenmerken nodig zijn om een fenotype te scoren, kunnen sequentiële poorten worden gebruikt op de celgegevens. Deze benadering wordt als volgt toegepast: (1) weergave van de gehele populatie van cellen van een experiment in een dichtheid plot, (2) trek een poort rond de datapunten die potentiële cellen van belang, (3) de poort aan te passen aan bijna alle positieve cellen op te nemen en zo veel negatieve cellen mogelijk uit te sluiten, (4) plot de resulterende gated subpopulatie in een nieuwe dichtheid plot met twee nieuwe meting kenmerken als assen, (5) poort de subpopulatie opnieuw op basis van deze nieuwe kenmerken, en (6) bereken het percentage van de cellen van elk beeld die binnen de definitieve poort vallen.
Casestudie: mitotische subfase screen
Motivatie
We wilden CellProfiler Analyst’s vermogen om te plotten, verkennen en filteren van individuele celgegevens om subpopulaties gedefinieerd door verschillende morfologische kenmerken te identificeren testen. We kozen ervoor om Drosophila melanogaster Kc167 cellen te identificeren in telofase en metafase van de celcyclus, met behulp van alleen een DNA-kleuring. Identificatie van monsters met een verstoorde regulatie van de celcyclus is van duidelijk belang voor zowel normale celbiologie als kankerstudies. Al tientallen jaren wordt intensief gezocht naar regulatoren van de celcyclus via traditionele en high-throughput screenings voor veranderingen in de totale distributie van de celcyclus of voor verhoogde fosfo-histon H3 kleuring, een marker van cellen in de late G2 en M fase (bv. en referenties daarin). We redeneerden dat er bijkomende genen zouden kunnen bestaan die, wanneer ze gestoord worden, verhoogde aantallen metafase- of telofase-kernen opleveren zonder de algemene mitotische index (fosfo-histon H3 kleuring) of de celcyclusverdeling substantieel te beïnvloeden. Hoewel we ons niet bewust van een positieve controles met een dergelijk fenotype, we vermoedden dat dergelijke genen eerder over het hoofd gezien omdat we merkten dat niet alle metafase kernen vlekken helder voor fosfo-histon H3 (Figuur 5a), om onbekende redenen. Het identificeren van genen waarvan RNAi cellen produceert die in bepaalde subfasen van mitose lijken te zijn, ongeacht gelijktijdige fosfo-histon H3 kleuring, zou een eerste stap zijn in het begrijpen van deze verschijnselen.
Verschillende groepen hebben getest geautomatiseerde methoden voor het scoren van mitotische subfasen, deze studies werden bereikt door computationele hulpmiddelen op maat van de specifieke test en vaak afhankelijk van meerdere cellulaire vlekken. Methoden voor machinaal leren zijn door onze eigen groep en door anderen onderzocht (zie Conclusies), maar wij wilden ook nagaan of de gebruiker handmatig een klein aantal kenmerken van bekende biologische relevantie kan selecteren, gevolgd door sequentiële selectie op die kenmerken. Dit zou de onderzoeker volledige controle geven over de kenmerken die gebruikt worden in de score, en de score zou gemakkelijker overdraagbaar zijn van het ene experiment naar het volgende omdat een klein aantal kenmerken geselecteerd wordt. We wilden daarom mitotische subfasen scoren met behulp van alleen een DNA-kleuring, met behulp van gecontroleerde selectie van metingen gevolgd door sequentiële gating op die metingen, in de context van een softwarepakket dat bruikbaar is voor een niet-computerwetenschapper.
Image scoring door sequentiële gating van individuele celgegevens
We onderzochten genen met behulp van Drosophila RNA-interferentie levende cel microarrays om gen “knockdowns” die een onevenredig aantal cellen in twee subfasen van mitose opleveren te identificeren: metafase en anafase/telofase (voor de eenvoud aangeduid als telofase). We gemaakt en geanalyseerd 5 replicaten van een Drosophila array, met 1120 vlekken van dsRNA op een microscoop dia (figuur 5b), met inbegrip van drie replicaat vlekken voor elk van 288 genen (meestal kinasen en fosfatasen), plus 256 negatieve controle vlekken zonder dsRNA. Sommige fenotypes geproduceerd in deze Drosophila Kc167 cellen (bijv. celdood) zijn zichtbaar bij lage resolutie (5× lens; figuur 5c), maar om telofase en metafase kernen te identificeren verzamelden we individuele hoge resolutie beelden binnen elke vlek op elke dia (40× lens; klein deel van een beeld getoond in figuur 5d).
We begonnen met de telofase fenotype. Om te bepalen welke gemeten cellulaire kenmerken zou het meest effectief zijn voor het scoren, we met de hand uitgezocht representatieve telofase kernen en normale G2-fase kernen van willekeurige screening beelden en creëerde beeldmontages voor deze twee klassen (figuur 6a) met behulp van Adobe Photoshop. We gebruikten CellProfiler om nucleaire kenmerken in deze montage beelden te meten, dan geëxporteerd de resultaten naar Excel en vijf functies geselecteerd om te gebruiken voor sequentiële gating, gebaseerd op een combinatie van biologische intuïtie plus de kwantitatieve vermogen van elk kenmerk telofase van normale kernen te discrimineren, met behulp van eenvoudige statistische tests in Excel. De geselecteerde kenmerken opgenomen DNA-inhoud, intensiteit, vorm en textuur kenmerken (extra data file 1).
We ontwikkelden vervolgens interactief sequentiële poorten met behulp van dichtheid plots van deze kenmerken in CellProfiler Analyst (zie “Gating individuele cel gegevens om complexe fenotypen score” sectie). Om deze taak te volbrengen, werd CellProfiler gebruikt om de volledige set van screening beelden te verwerken en de resulterende gegevens te laden in een database (2,8 miljoen cellen × 396 functies / cel = 1,1 miljard metingen totaal). Dit stelde ons in staat om alle individuele cellen in het experiment weer te geven in een eerste dichtheid plot met twee van onze geselecteerde functies als assen, dat wil zeggen, DNA-inhoud en grootte (oppervlakte) van de kern. We trokken een eerste poort rond de 2N DNA-inhoud piek en kleine kern gebied, en empirisch verfijnd de poort voor telofase cellen door het onderzoeken van beelden van de gated kernen en dienovereenkomstig de grenzen van de poort grenzen aan te passen. Terwijl geautomatiseerde benaderingen zeker een grens op basis van een onderzoeker verstrekte training set zou kunnen identificeren, deze handmatige aanpak kan de bioloog specifiek te beoordelen veel cellen in de buurt van de relevante grenzen. Zodra de juiste poort werd geselecteerd voor de eerste dichtheid plot, werd de subpopulatie overgebracht naar een nieuwe dichtheid plot met twee nieuwe kenmerken gebruikt als assen en de volgende poort werd gemaakt, opnieuw het vinden van de optimale parameters om telofase kernen te onderscheiden van alle andere kernen. Deze procedure werd herhaald voor het vijfde, en laatste, geselecteerde kenmerk. Zodra de laatste poort was verfijnd, pasten wij de opeenvolgende poorten toe op een nieuwe reeks beelden en bevestigden dat hun score effectief was (Tabel 1 en Figuur 6b), waarbij telofase met succes werd onderscheiden van andere kernen. Bij het maken van de poorten, hebben we geprobeerd om de vals-positieve tarief minimaliseren, terwijl het aanvaarden van een hogere vals-negatieve tarief (tabel 1). Wij redeneerden dat echte hits genoeg positieven zouden hebben om deze opzettelijk strenge selectieprocedure te overwinnen. Op dit punt hebben we de laatste sequentiële poorten toegepast op alle cellen om het hele scherm te scoren voor het telofase fenotype. We vonden dat de poorten typisch moeten licht worden aangepast tussen verschillende repliceren dia’s als gevolg van inter-experiment variabiliteit (bijv, kleuring intensiteit), hoewel experiment-to-experiment normalisatie methoden kunnen worden onderzocht om dit effect te verminderen.
We afzonderlijk uitgevoerd dezelfde procedure voor de metafase fenotype (met behulp van vier kenmerken om metafase kernen te onderscheiden van alle andere kernen); een volledige lijst van de 288 geteste genen en hun scores voor telofase en metafase is te zien in extra data file 2.
Telofase analyse
Rank-ordering monsters door het percentage telofase kernen onthuld 4 gen knockdowns met een significante toename van telofase kernen (figuur 6c, eerste 4 rijen). Valideren van de aanpak, twee van de genen zijn PP2A complex subeenheden die eerder zijn geassocieerd met mitose: de PP2A-C katalytische subeenheid mts (CG7109/microtubule ster) en een PP2A-A familie regulerende subeenheid (CG17291/CG33297/CG13383, Opmerking: dicistronic met CSN8). RNAi tegen beide genen verhoogde het percentage cellen die fosfo-histon H3-positief waren (figuur 6c, vijfde kolom). Een derde hit, Ck1α (Caseïne kinase 1α/CG2028), is ook eerder gekoppeld aan mitose (figuur 6c, laatste kolom). We zagen dat de knockdown door RNAi geproduceerd kernen waarvan chromatine leek te zijn iets minder gecondenseerd dan typische telofase kernen (figuur 7), terwijl nog steeds meer gecondenseerd dan interfase kernen. Het percentage van de cellen die fosfo-histon H3-positief was normaal (figuur 6c, vijfde kolom). Samen suggereren deze waarnemingen dat dit defect optreedt in een laat stadium van telofase/anafase. De vierde hit was een voorspeld kinase zonder functionele annotatie (CG8878). Visuele inspectie toonde aan dat bijna alle kernen in deze monsters helderder en compacter leken dan de controles, een subtiel maar reproduceerbaar effect (figuur 7). Dit resulteerde begrijpelijkerwijs in meer van de 2N kernen worden geteld als telofase-achtige morfologie hebben. We vonden dat deze cellen waren niet verrijkt voor fosfo-histon H3-positiviteit (figuur 6c, vijfde kolom); zonder verdere experimenten, is het onduidelijk of dit een echte laat-stadium mitotische fenotype of eerder een gecondenseerde kernen fenotype.
Metafase analyse
Interessant is dat de enige metafase hit in dit scherm (figuur 6c, laatste rij) is de B’/B56 subfamilie regulerende subeenheid van PP2A (CG5643/widerborst), die op het moment van ons scherm nog niet was gekoppeld aan celcyclus regulering. Het percentage cellen dat fosfo-histon H3-positief was, was niet veel hoger dan normaal (figuur 6c, vijfde kolom). We bevestigden met het oog de metafase-inducerende fenotype van widerborst knockdown in de oorspronkelijke beelden en in afzonderlijke experimenten met twee andere dsRNAs, waaronder een die niet overlapte met het origineel (figuur 8a). Widerborst is een essentieel gen betrokken bij vlakke cel polarisatie en apoptose . Met name in andere contexten (circadiane klok eiwitcyclus en zintuiglijke orgaanontwikkeling) widerborst is indirect gekoppeld aan de B / PR55 subfamilie lid tweelingen / aar, die zelf bekend is dat nodig is voor metafase naar anafase overgang . Ons werk bevestigt daarom, met niet-overlappende dsRNA’s, een recent gerapporteerde celcyclusregulerende rol voor widerborst en geeft samen aan dat het onwaarschijnlijk is dat dit fenotype te wijten is aan off-target effecten.
De dichtstbijzijnde menselijke homoloog van widerborst is PPP2R5E, de epsilon isovorm van een subfamilie van PP2R5 (ook bekend als B’/PR61/B56) regulerende subeenheden van het PP2A-complex. Tot nu toe is er geen specifieke functie in verband gebracht met PPP2R5E. Wij vroegen ons af of PPP2R5E een B’-regulerende subeenheid zou kunnen zijn die de bekende rol van PP2A in mitose moduleert, gezien onze ontdekking van de rol van zijn homoloog widerborst in Drosophila. Het uitschakelen van PPP2R5E heeft de mitotische index niet significant doen toenemen in recente RNA-interferentie screeningen voor verhoogde fosfo-histon H3. Echter, toen we scoorden deze zelfde PPP2R5E-knockdown beelden voor metafase morfologie, in plaats van fosfo-histon H3 niveaus, ontdekten we een metafase-arrest fenotype voor PPP2R5E knockdown, bevestigd door twee verschillende shRNAs (figuur 8b), consistent met het fenotype gezien voor widerborst in Drosophila. Of widerborst/PPP2R5E zelf nodig zijn voor de overgang van metafase naar anafase of dat hun uitputting het fenotype veroorzaakt door specifiek de stoichiometrie van het relevante PP2A complex te verstoren, moet nog worden vastgesteld. Recente bevindingen dat PPP2R5E lokaliseert naar centromeren en dat de B’ subfamilie van regulerende subeenheden nodig zijn voor een goede meiotische zusterchromatide scheiding in splijt- en kiemgist ondersteunen het idee dat deze familie van subeenheden inderdaad belangrijk is voor een goede chromatine dynamiek tijdens celdeling.