Vizualizarea datelor
Cele patru tipuri de diagrame sunt punctele de plecare pentru explorarea ecranelor mari, multidimensionale bazate pe imagini în CellProfiler Analyst (Figura 1). Este important faptul că aceste instrumente sunt compatibile cu scara datelor dobândite de obicei în ecranele bazate pe imagini, care poate fi de sute de caracteristici pentru fiecare dintre sutele de milioane de celule. Histogramele afișează distribuția valorilor pentru o caracteristică măsurată prin gruparea datelor de imagine sau de obiect în intervale de timp uniform distanțate, pe o scară liniară sau logaritmică (figura 1a). Astfel de diagrame pot fi utile, de exemplu, pentru a examina starea ciclului celular al probelor (prin reprezentarea grafică a conținutului de ADN per celulă) sau pentru a examina valorile aberante în scopul controlului calității (de exemplu, prin reprezentarea grafică a numărului de celule per imagine). Două caracteristici măsurate per imagine sau obiect pot fi afișate pe aceeași diagramă prin intermediul unei diagrame de dispersie (figura 1b), care este, de asemenea, utilă pentru identificarea rezultatelor pozitive și în scopuri de control al calității. De exemplu, cercetătorul poate exclude cu ușurință imaginile defocalizate din analiză pe baza măsurătorilor efectuate de modulul „Measure Image Quality” al CellProfiler. Deoarece punctele de date din diagramele de dispersie se pot ascunde unele de altele, acestea sunt de obicei nepotrivite pentru datele de celule individuale, unde sunt examinate sute de milioane de puncte de date pentru a identifica subpopulațiile interesante. Pentru aceste cazuri, un grafic de densitate este mai adecvat (Figura 1c). Fiecare pixel din grafic reprezintă un „bin” al histogramei, iar culoarea pixelului reprezintă numărul de puncte de date din acel bin. Aceste diagrame sunt utile, de exemplu, pentru a stabili praguri la care să se clasifice celulele individuale ca fiind „pozitive” sau „negative” pe baza a două caracteristici (de exemplu, pe baza a două măsuri de intensitate, ca în citometria de flux). Pentru a explora mai mult de două caracteristici măsurate ale fiecărei imagini sau ale fiecărui punct de date, se utilizează un grafic de coordonate paralele. Diagramele de coordonate paralele permit analiza mai multor dimensiuni ale datelor, prin care valorile scalate (0-1) ale fiecărei caracteristici măsurate primesc o axă y separată, iar punctele de date individuale sunt conectate pe aceste axe multiple (figura 1d).
Care punct de date dintr-un grafic poate reprezenta o celulă individuală sau, prin contrast, valoarea medie a populației de celule dintr-o imagine. Datele pot fi, de asemenea, grupate în funcție de caracteristicile pe care eșantioanele le au în comun (de exemplu, denumirea chimică sau doza). Experimentele multiple care investighează același set de condiții de tratament (de exemplu, compuși chimici sau reactivi de interferență ARN) pot fi grupate împreună, ceea ce facilitează analiza replicilor. Pentru toate tipurile de reprezentări grafice, datele care urmează să fie afișate pot fi filtrate, de exemplu pentru a reprezenta grafic doar datele dintr-o singură imagine, dintr-un eșantion de puncte de date la intervale egale specificate sau datele care îndeplinesc anumite criterii (specificate în clauze SQL „where”, cum ar fi „CellCount > 100”).
Explorarea relațiilor dintre date
Punctele de date selectate și evidențiate într-un grafic sunt imediat evidențiate în toate celelalte grafice deschise (o tehnică numită adesea „brushing” ), astfel încât un eșantion sau un set de eșantioane poate fi examinat în contextul altor seturi de eșantioane (figura 2). Acest lucru permite, de exemplu, compararea măsurătorilor din eșantioanele de interes față de toate eșantioanele din experiment. Brushing ajută utilizatorul să examineze mai ușor relațiile din date, în special atunci când datele au un număr mare de atribute sau elemente, când datele se întind pe mai multe experimente (inclusiv, de exemplu, replici) sau când este firesc să se examineze diferite părți ale datelor cu ajutorul unor vizualizări diferite. Conceptul de „brushing” este extins în CellProfiler Analyst pentru situațiile în care mai multe experimente sunt explorate simultan: atunci când un punct corespunzător unei anumite imagini este evidențiat, toate punctele corespunzătoare acelei condiții de tratament experimental pot fi evidențiate, chiar dacă datele provin din mai multe experimente care sunt examinate împreună. În diagrama de dispersie din figura 1b, de exemplu, patru puncte de date sunt albastre deoarece unul dintre ele a fost selectat inițial, iar utilizatorul a solicitat ca replicile pentru acel eșantion să fie evidențiate.
Investigarea datelor
Punctele de date sau seturile de puncte de date interesante pot fi investigate prin aprofundarea datelor în mai multe moduri (figura 3). Pentru diagramele care prezintă puncte de date reprezentând măsurători de imagini, se poate selecta un punct de date sau un set de puncte de date și pot fi afișate imaginile originale care au produs punctul de date (figura 3d). Acest lucru poate scoate la iveală artefacte în pregătirea probei sau în imagistică, cum ar fi compuși de testare fluorescenți, agregate sau supraabundență de reactivi de colorare, fibre sau resturi (figura 3g). Aceste artefacte nu numai că ocolesc celulele reale din imagini, dar pot perturba, de asemenea, identificarea și măsurarea corectă a celulelor rămase în imagine. Din aceste motive și din alte motive, se pot afișa, de asemenea, imagini care prezintă contururile de identificare rezultate în urma analizei imaginii (dacă sunt disponibile) pentru punctele de date selectate (figura 3e), pentru a identifica dacă identificarea celulelor a avut loc în mod corespunzător. Acesta este un aspect important, având în vedere că niciun algoritm de segmentare nu este fără cusur.
În plus, se poate selecta un punct de date sau un set de puncte de date și se poate afișa un traseu al măsurătorilor celulelor individuale care au fost prezente în acele imagini ca un subtraseu separat. Acest lucru permite, de exemplu, afișarea unei histograme a conținutului de ADN care indică distribuția ciclului celular al populației de celule pentru o anumită imagine sau un set de imagini de interes (figura 2c și figura 3b). Pentru a investiga identitatea eșantioanelor interesante, pentru a obține o imagine de ansamblu, se poate afișa o listă simplă a condițiilor de tratament care au produs un set de puncte de date (Figura 2d). Pentru investigații suplimentare, pot fi lansate informații web despre condiția de tratament a fiecărei imagini într-un browser web extern (figura 3f), dacă adresele web asociate cu fiecare eșantion sunt stocate în baza de date. Toate măsurătorile disponibile și alte informații pentru o anumită probă pot fi afișate într-un tabel simplu și salvate ca fișier text delimitat prin virgulă pentru a fi analizate într-un alt pachet software (Figura 3c).
Gatarea datelor de celule individuale pentru a puncta fenotipuri complexe
Datele bazate pe imagini sunt extrem de valoroase prin faptul că sunt disponibile mai multe măsurători ale unei singure celule. Răspunsurile celulelor individuale la un tratament sunt de obicei neomogene din cauza variațiilor ciclului celular sau a diferențelor în nivelurile de proteine datorate memoriei sau zgomotului stocastic . În multe cazuri, o singură caracteristică măsurată (de exemplu, intensitatea totală a colorației roșii din nucleu) poate fi utilizată pentru a evalua celulele individuale, iar singura provocare este identificarea unui prag adecvat pentru evaluarea celulelor pozitive. Acest lucru poate fi realizat în CellProfiler Analyst folosind histograme ale datelor celulelor individuale. În cazul fenotipurilor complexe, este posibil să fie necesare mai multe caracteristici ale fiecărei celule pentru o notare eficientă. În aceste cazuri, un grafic de densitate care prezintă celule individuale (figura 4a) poate fi util pentru a identifica subpopulațiile celulare interesante, prin delimitarea unei secțiuni a graficului (adesea numită „gating”). Dacă poarta conține celulele de interes poate fi testată cu ajutorul a două caracteristici: caracteristica „Show Object Montage” pentru a vedea cum arată celulele individuale din cadrul porții (figura 4b) și caracteristica „Show Image” pentru a vedea dacă celulele dintr-un anumit eșantion sunt marcate corespunzător ca fiind în interiorul sau în afara porții (figura 4c). Odată ce subpopulația finală, dorită, de celule este marcată, numărul de celule care se încadrează în subpopulația respectivă este calculat pentru fiecare imagine, pentru o analiză statistică ulterioară (figura 4d). Ca exemplu, atunci când ADN-ul și serina 10 fosforilată a histonei H3 sunt ambele colorate, o poartă simplă cu două caracteristici în CellProfiler Analyst permite punctarea subfazelor mitotice în celulele umane HT29 (figura 4e). Multe sisteme software efectuează analiza imaginilor pe loc, în timpul achiziției de imagini; în astfel de cazuri, trebuie aleasă în prealabil o valoare de prag pentru o caracteristică de interes pentru a puncta ecranul. În schimb, aceste instrumente din CellProfiler Analyst permit testarea eficacității scorării pe baza unor caracteristici diferite și a unor praguri de măsurare diferite.
Dacă sunt necesare mai mult de două caracteristici pentru a puncta un fenotip, se pot utiliza porți secvențiale asupra datelor celulare. Această abordare se aplică după cum urmează: (1) se afișează întreaga populație de celule dintr-un experiment într-un grafic de densitate, (2) se trasează o poartă în jurul punctelor de date care reprezintă potențialele celule de interes, (3) se ajustează poarta pentru a include aproape toate celulele pozitive și pentru a exclude cât mai multe celule negative, (4) se trasează subpopulația gated rezultată într-un nou grafic de densitate cu două noi caracteristici de măsurare ca axe, (5) se trasează din nou poarta subpopulației pe baza acestor noi caracteristici și (6) se calculează procentul de celule din fiecare imagine care se încadrează în poarta finală.
Studiu de caz: ecranarea subfazei mitotice
Motivație
Am dorit să testăm capacitatea CellProfiler Analyst de a trasa, explora și filtra datele celulelor individuale pentru a identifica subpopulațiile definite de mai multe caracteristici morfologice. Am ales să identificăm celulele Drosophila melanogaster Kc167 în telofaza și metafaza ciclului celular, folosind doar o colorație ADN. Identificarea eșantioanelor cu reglare perturbată a ciclului celular este de o importanță evidentă pentru biologia celulară normală, precum și pentru studiile privind cancerul. Reglementatorii ciclului celular au fost căutați intensiv timp de decenii prin intermediul ecranelor tradiționale și de mare randament pentru modificări în distribuția generală a ciclului celular sau pentru creșterea colorării fosfo-histone H3, un marker al celulelor aflate în faza G2 târzie și în faza M (de exemplu, și referințele din acestea). Ne-am gândit că ar putea exista gene suplimentare care, atunci când sunt perturbate, produc un număr mai mare de nuclei în stadiul de metafază sau de telofază, fără a afecta substanțial indicele mitotic general (colorarea fosfo-histonei H3) sau distribuția ciclului celular. Deși nu aveam cunoștință de niciun control pozitiv cu un astfel de fenotip, am suspectat că astfel de gene ar fi putut fi trecute cu vederea anterior, deoarece am observat că nu toți nucleii metafazici se colorează intens pentru fosfo-histona H3 (figura 5a), din motive necunoscute. Identificarea genelor al căror ARNi produce celule care par să se afle în anumite subfaze ale mitozei, indiferent de colorarea concomitentă a fosfo-histonei H3, ar fi un prim pas spre înțelegerea acestor fenomene.
Câteva grupuri au testat metode automate de notare a subfazelor mitotice; aceste studii au fost realizate cu ajutorul unor instrumente de calcul adaptate la testul specific și s-au bazat adesea pe mai multe colorații celulare. Metodele de învățare automată au fost explorate de propriul nostru grup și de alții (și a se vedea Concluzii), dar am dorit, de asemenea, să explorăm posibilitatea de a permite utilizatorului să selecteze manual un număr mic de caracteristici de relevanță biologică cunoscută, urmate de un gating secvențial pe aceste caracteristici. În acest fel, cercetătorul ar avea control deplin asupra caracteristicilor utilizate în scor, iar scorul ar fi mai ușor de transferat de la un experiment la altul, deoarece este selectat un număr mic de caracteristici. Prin urmare, am dorit să evaluăm subfazele mitotice utilizând doar o colorație ADN, folosind o selecție supravegheată a măsurătorilor, urmată de un gating secvențial pe aceste măsurători, în contextul unui pachet software utilizabil de către un neinformatician.
Scoringul imaginii prin gating secvențial al datelor celulelor individuale
Am analizat genele folosind microarrays de celule vii cu interferență ARN din Drosophila pentru a identifica genele „knockdowns” care produc un număr disproporționat de celule în două subfaze ale mitozei: metafaza și anafaza/telofaza (denumită telofaza pentru simplificare). Am creat și analizat 5 replici ale unei matrice de Drosophila, cu 1120 de spoturi de ARNdS pe o singură lamelă de microscop (figura 5b), inclusiv trei spoturi replicate pentru fiecare dintre cele 288 de gene (majoritatea kinaze și fosfataze), plus 256 de spoturi de control negativ fără ARNdS. Unele fenotipuri produse în aceste celule Drosophila Kc167 (de exemplu, moartea celulară) sunt vizibile la rezoluție joasă (obiectiv 5×; Figura 5c), dar pentru a identifica nucleii în telofaza și metafaza am colectat imagini individuale de înaltă rezoluție în cadrul fiecărui spot de pe fiecare lamelă (obiectiv 40×; o mică porțiune dintr-o imagine prezentată în Figura 5d).
Am început cu fenotipul de telofaza. Pentru a determina ce caracteristici celulare măsurate ar fi cele mai eficiente pentru punctare, am ales manual nuclee reprezentative de telofază și nuclee normale din faza G2 din imagini de screening aleatorii și am creat montaje de imagini pentru aceste două clase (Figura 6a) folosind Adobe Photoshop. Am folosit CellProfiler pentru a măsura caracteristicile nucleare în aceste imagini de montaj, apoi am exportat rezultatele în Excel și am selectat cinci caracteristici pentru a le utiliza pentru gatingul secvențial, pe baza unei combinații de intuiție biologică plus capacitatea cantitativă a fiecărei caracteristici de a discrimina nucleele de telofaza de cele normale, folosind teste statistice simple în Excel. Caracteristicile selectate au inclus caracteristici ale conținutului de ADN, intensității, formei și texturii (fișier de date suplimentare 1).
Apoi am dezvoltat interactiv porți secvențiale folosind diagrame de densitate ale acestor caracteristici în CellProfiler Analyst (a se vedea secțiunea „Gating individual cell data to score complex phenotypes”). Pentru a îndeplini această sarcină, CellProfiler a fost utilizat pentru a procesa întregul set de imagini de screening și pentru a încărca datele rezultate într-o bază de date (2,8 milioane de celule × 396 caracteristici/celulă = 1,1 miliarde de măsurători în total). Acest lucru ne-a permis să afișăm toate celulele individuale din experiment într-un grafic inițial de densitate cu două dintre caracteristicile noastre selectate ca axe, și anume conținutul de ADN și dimensiunea (suprafața) nucleului. Am trasat o poartă inițială în jurul vârfului 2N al conținutului de ADN și al zonei nucleare mici și am rafinat în mod empiric poarta pentru celulele aflate în telofaza prin examinarea imaginilor nucleelor gated și prin ajustarea corespunzătoare a limitelor porții. În timp ce abordările automate ar putea, cu siguranță, să identifice o limită pe baza unui set de formare furnizat de cercetător, această abordare manuală permite biologului să evalueze în mod specific multe celule din apropierea limitelor relevante. Odată ce a fost selectată poarta adecvată pentru graficul de densitate inițial, subpopulația a fost transferată pe un nou grafic de densitate cu două noi caracteristici utilizate ca axe și a fost creată următoarea poartă, găsind din nou parametrii optimi pentru a distinge nucleele din telofaza de toate celelalte nuclee. Această procedură a fost repetată pentru a cincea și ultima caracteristică selectată. După ce poarta finală a fost rafinată, am aplicat porțile secvențiale la un nou set de imagini și am confirmat că scorul lor a fost eficient (tabelul 1 și figura 6b), reușind să diferențieze cu succes telofaza de celelalte nuclee. La crearea porților, am încercat să minimizăm rata falsurilor pozitive, acceptând în același timp o rată mai mare a falsurilor negative (tabelul 1). Am considerat că adevăratele rezultate pozitive ar avea suficiente rezultate pozitive pentru a depăși această procedură de selecție intenționat riguroasă. În acest moment, am aplicat porțile secvențiale finale la toate celulele pentru a evalua întreaga selecție pentru fenotipul de telofaza. Am constatat că, de obicei, porțile trebuie să fie ușor ajustate între diferitele lame de replicare din cauza variabilității inter-experimentale (de ex, intensitatea colorării), deși ar putea fi explorate metode de normalizare de la experiment la experiment pentru a reduce acest efect.
Am efectuat separat aceeași procedură pentru fenotipul metafazei (folosind patru caracteristici pentru a distinge nucleele metafazei de toate celelalte nuclee); o listă completă a celor 288 de gene testate și scorurile lor pentru telofază și metafază este prezentată în fișierul de date suplimentare 2.
Analiza telofazei
Ordonarea eșantioanelor în funcție de procentul de nuclei în telofaza a evidențiat 4 gene knockdown cu o creștere semnificativă a nucleilor în telofaza (Figura 6c, primele 4 rânduri). Validând abordarea, două dintre gene sunt subunități ale complexului PP2A care au fost asociate anterior cu mitoza: subunitatea catalitică PP2A-C mts (CG7109/microtubule star) și o subunitate de reglementare a familiei PP2A-A (CG17291/CG33297/CG13383, Notă: dicistronică cu CSN8). RNAi împotriva ambelor gene a crescut procentul de celule fosfo-histon H3-pozitive (Figura 6c, coloana a cincea). Un al treilea rezultat pozitiv, Ck1α (Casein kinaza 1α/CG2028), a fost, de asemenea, legat anterior de mitoză (Figura 6c, ultima coloană). Am observat că reducerea sa prin RNAi a produs nuclee a căror cromatină părea a fi puțin mai puțin condensată decât nucleele tipice ale telofazei (figura 7), dar în același timp mai condensată decât nucleele din interfază. Procentul de celule care erau fosfo-histon H3-pozitive a fost normal (figura 6c, coloana a cincea). Împreună, aceste observații sugerează că acest defect apare în faza târzie a telofazei/anafazei. Al patrulea rezultat a fost o kinază prezisă fără adnotare funcțională (CG8878). Inspecția vizuală a arătat că aproape toate nucleele din aceste probe păreau mai strălucitoare și mai compacte decât cele de control, un efect subtil, dar reproductibil (figura 7). Acest lucru a dus, în mod normal, la numărarea unui număr mai mare de nuclee 2N ca având o morfologie asemănătoare cu cea a telofazei. Am constatat că aceste celule nu au fost îmbogățite pentru fosfo-histonă H3-pozitivitate (Figura 6c, coloana a cincea); fără experimente suplimentare, nu este clar dacă acesta este un adevărat fenotip mitotic în fază târzie sau mai degrabă un fenotip de nuclee condensate.
Analiză metafazică
În mod interesant, singurul rezultat pozitiv în metafază din acest screening (Figura 6c, ultimul rând) este subunitatea de reglare a subfamiliei B’/B56 a PP2A (CG5643/widerborst), care la momentul screeningului nostru nu fusese legată de reglarea ciclului celular. Procentul de celule fosfo-histon H3-pozitive nu a fost mult mai mare decât în mod normal (figura 6c, coloana a cincea). Am confirmat cu ochiul liber fenotipul de inducere a metafazei de knockdown al lui widerborst în imaginile originale și în experimente separate cu alte două ARNdb, inclusiv unul care nu se suprapunea cu cel original (Figura 8a). Widerborst este o genă esențială implicată în polarizarea celulară planară și apoptoza . În mod notabil, în alte contexte (ciclul proteinei ceasului circadian și dezvoltarea organelor senzoriale ) widerborst este indirect legată de membrul subfamiliei B/PR55 gemeni/aar, care este la rândul său cunoscut ca fiind necesar pentru tranziția de la metafază la anafază . Prin urmare, activitatea noastră confirmă, cu ARNd care nu se suprapun, un rol de reglare a ciclului celular recent raportat pentru widerborst și indică împreună că este puțin probabil ca acest fenotip să se datoreze unor efecte în afara țintei .
Cel mai apropiat omolog uman al lui widerborst este PPP2R5E, izoforma epsilon a unei subfamilii de subunități de reglare PP2R5 (alias B’/PR61/B56) a complexului PP2A. Până în prezent, nicio funcție specială nu a fost asociată cu PPP2R5E. Ne-am întrebat dacă PPP2R5E ar putea fi o subunitate de reglare B’ care modulează rolul cunoscut al PP2A în mitoză, având în vedere descoperirea noastră privind rolul omologului său widerborst în Drosophila. Eliminarea PPP2R5E nu a crescut semnificativ indicele mitotic în recentele ecrane de interferență ARN pentru creșterea fosfo-histonei H3 . Cu toate acestea, atunci când am marcat aceleași imagini PPP2R5E-knockdown pentru morfologia metafazei, mai degrabă decât pentru nivelurile de fosfo-histonă H3, am descoperit un fenotip de metafază-restanță pentru PPP2R5E knockdown, confirmat de două shRNA-uri diferite (Figura 8b), în concordanță cu fenotipul observat pentru widerborst la Drosophila. Rămâne de stabilit dacă widerborst/PPP2R5E sunt ei înșiși necesari pentru tranziția de la metafază la anafază sau dacă diminuarea lor provoacă fenotipul prin întreruperea specifică a stoichiometriei complexului PP2A relevant. Descoperirile recente care arată că PPP2R5E se localizează la centromeri și că subfamilia B’ de subunități de reglare este necesară pentru separarea corespunzătoare a cromatidelor surori meiotice la drojdia de fisiune și de înmugurire susțin ideea că această familie de subunități este într-adevăr importantă pentru dinamica corespunzătoare a cromatinei în timpul diviziunii celulare.
.