Voir les données
Quatre types de tracés constituent les points de départ de l’exploration de grands cribles multidimensionnels basés sur l’image dans CellProfiler Analyst (figure 1). Il est important de noter que ces outils sont compatibles avec l’échelle des données généralement acquises dans les cribles basés sur l’image, qui peuvent représenter des centaines de caractéristiques pour chacune des centaines de millions de cellules. Les histogrammes affichent la distribution des valeurs pour une caractéristique mesurée en regroupant les données d’image ou d’objet dans des cases régulièrement espacées, sur une échelle linéaire ou logarithmique (figure 1a). Ces graphiques peuvent être utiles, par exemple, pour examiner l’état du cycle cellulaire des échantillons (en traçant le contenu en ADN par cellule) ou pour examiner les valeurs aberrantes à des fins de contrôle de la qualité (par exemple, en traçant le nombre de cellules par image). Deux caractéristiques mesurées par image ou objet peuvent être affichées sur le même graphique via un nuage de points (figure 1b), ce qui est également utile pour identifier les occurrences et à des fins de contrôle de la qualité. Par exemple, le chercheur peut facilement exclure les images non focalisées de l’analyse en se basant sur les mesures effectuées par le module « Measure Image Quality » de CellProfiler. Comme les points de données dans les diagrammes de dispersion peuvent s’occulter les uns les autres, ils ne sont généralement pas adaptés aux données de cellules individuelles où des centaines de millions de points de données sont examinés pour identifier les sous-populations intéressantes. Dans ce cas, un diagramme de densité est plus approprié (figure 1c). Chaque pixel du graphique représente une « case » de l’histogramme et la couleur du pixel représente le nombre de points de données dans la case. Ces graphiques sont utiles, par exemple, pour établir les seuils auxquels classer les cellules individuelles comme « positives » ou « négatives » sur la base de deux caractéristiques (par exemple, sur la base de deux mesures d’intensité comme en cytométrie de flux). Pour explorer plus de deux caractéristiques mesurées de chaque image ou point de données, on utilise un tracé de coordonnées parallèles. Les tracés de coordonnées parallèles permettent l’analyse de plusieurs dimensions de données, dans lesquels les valeurs mises à l’échelle (0-1) de chaque caractéristique mesurée se voient attribuer un axe y distinct et les points de données individuels sont connectés à travers ces axes multiples (figure 1d).
Chaque point de données d’un tracé peut représenter une cellule individuelle ou, à l’inverse, la valeur moyenne de la population de cellules dans une image. Les données peuvent également être regroupées par des caractéristiques que les échantillons ont en commun (par exemple, le nom chimique ou la dose). Les expériences multiples qui étudient le même ensemble de conditions de traitement (par exemple, les composés chimiques ou les réactifs d’interférence ARN) peuvent être regroupées, ce qui facilite l’analyse des répliques. Pour tous les types de tracés, les données à afficher peuvent être filtrées, par exemple pour tracer des données provenant uniquement d’une seule image, d’un échantillon de points de données à des intervalles égaux spécifiés, ou des données qui satisfont à certains critères (spécifiés dans des clauses SQL « where » comme « CellCount > 100 »).
Exploration des relations entre les données
Les points de données sélectionnés et mis en évidence dans un tracé sont immédiatement mis en évidence dans tous les autres tracés ouverts (une technique souvent appelée « brushing » ) de sorte qu’un échantillon ou un ensemble d’échantillons peut être examiné dans le contexte d’autres ensembles d’échantillons (figure 2). Cela permet, par exemple, de comparer les mesures des échantillons d’intérêt à celles de tous les échantillons de l’expérience. Le brossage permet à l’utilisateur d’examiner plus facilement les relations dans les données, en particulier lorsque les données comportent un grand nombre d’attributs ou d’éléments, lorsque les données couvrent plusieurs expériences (y compris, par exemple, les répliques), ou lorsqu’il est naturel d’examiner différentes parties des données en utilisant différentes vues. Le concept de brossage est étendu dans CellProfiler Analyst pour les situations où plusieurs expériences sont explorées simultanément : lorsqu’un point correspondant à une image particulière est mis en évidence, tous les points correspondant à cette condition de traitement expérimental peuvent être mis en évidence, même si les données proviennent de plusieurs expériences qui sont examinées ensemble. Dans le nuage de points de la figure 1b, par exemple, quatre points de données sont bleus parce qu’un seul a été sélectionné à l’origine et que l’utilisateur a demandé que les répliques de cet échantillon soient mises en évidence.
Investigation des données
Des points de données ou des ensembles de points de données intéressants peuvent être étudiés en forant dans les données de plusieurs façons (Figure 3). Pour les graphiques montrant des points de données représentant des mesures d’images, un point de données ou un ensemble de points de données peut être sélectionné et les images originales qui ont produit le point de données peuvent être affichées (figure 3d). Cela peut révéler des artefacts dans la préparation de l’échantillon ou l’imagerie, comme des composés de test fluorescents, des agrégats ou une surabondance de réactifs de coloration, des fibres ou des débris (figure 3g). Ces artefacts non seulement occultent les cellules réelles dans les images mais peuvent également perturber l’identification et la mesure correctes des cellules restantes dans l’image. Pour ces raisons et d’autres, les images montrant les contours de l’identification résultant de l’analyse de l’image (si disponible) peuvent également être montrées pour des points de données sélectionnés (Figure 3e), afin d’identifier si l’identification des cellules a eu lieu correctement. Il s’agit d’une considération importante étant donné qu’aucun algorithme de segmentation n’est sans faille.
En outre, un point de données ou un ensemble de points de données peut être sélectionné et un tracé des mesures de cellules individuelles qui étaient présentes dans ces images peut être affiché comme un sous-tracé séparé. Cela permet, par exemple, d’afficher un histogramme du contenu en ADN indiquant la distribution du cycle cellulaire de la population cellulaire pour une image particulière ou un ensemble d’images d’intérêt (figure 2c et figure 3b). Pour rechercher l’identité d’échantillons intéressants, une simple liste des conditions de traitement ayant produit un ensemble de points de données peut être affichée pour obtenir une vue d’ensemble (figure 2d). Pour aller plus loin, des informations sur les conditions de traitement de chaque image peuvent être lancées dans un navigateur Web externe (Figure 3f), si les adresses Web associées à chaque échantillon sont stockées dans la base de données. Toutes les mesures disponibles et d’autres informations pour un échantillon particulier peuvent être affichées dans un tableau simple et enregistrées dans un fichier texte délimité par des virgules pour être analysées dans un autre logiciel (Figure 3c).
Gratation des données de cellules individuelles pour marquer des phénotypes complexes
Les données basées sur les images sont extrêmement précieuses dans la mesure où de multiples mesures unicellulaires sont disponibles. Les réponses des cellules individuelles à un traitement sont généralement inhomogènes en raison des variations du cycle cellulaire ou des différences dans les niveaux de protéines dues à la mémoire ou au bruit stochastique . Dans de nombreux cas, une seule caractéristique mesurée (par exemple, l’intensité totale de la coloration rouge dans le noyau) peut être utilisée pour évaluer les cellules individuelles et le seul défi consiste à identifier un seuil approprié pour évaluer les cellules positives. Ceci peut être réalisé dans CellProfiler Analyst en utilisant des histogrammes de données de cellules individuelles. Pour les phénotypes complexes, plusieurs caractéristiques de chaque cellule peuvent être nécessaires pour une évaluation efficace. Dans ces cas, un graphique de densité montrant des cellules individuelles (Figure 4a) peut être utile pour identifier des sous-populations de cellules intéressantes, en délimitant une section du graphique (souvent appelé « gating »). On peut vérifier si la porte contient les cellules d’intérêt à l’aide de deux fonctions : la fonction « Show Object Montage » pour voir à quoi ressemblent les cellules individuelles à l’intérieur de la porte (Figure 4b), et la fonction « Show Image » pour voir si les cellules d’un échantillon particulier sont correctement marquées comme étant à l’intérieur ou à l’extérieur de la porte (Figure 4c). Une fois que la sous-population finale de cellules souhaitée a été sélectionnée, le nombre de cellules appartenant à cette sous-population est calculé pour chaque image, en vue d’une analyse statistique ultérieure (figure 4d). Par exemple, lorsque l’ADN et la sérine 10 phosphorylée de l’histone H3 sont tous deux colorés, une simple porte à deux fonctions dans CellProfiler Analyst permet de marquer les sous-phases mitotiques des cellules HT29 humaines (figure 4e). De nombreux logiciels effectuent une analyse d’image à la volée pendant l’acquisition de l’image ; dans ce cas, une valeur seuil pour une caractéristique d’intérêt doit être choisie à l’avance pour évaluer l’écran. En revanche, ces outils dans CellProfiler Analyst permettent de tester l’efficacité du scoring basé sur différentes caractéristiques et différents seuils de mesure.
Si plus de deux caractéristiques sont nécessaires pour noter un phénotype, des portes séquentielles peuvent être utilisées sur les données cellulaires. Cette approche est appliquée comme suit : (1) afficher la population entière de cellules d’une expérience dans un graphique de densité, (2) dessiner une porte autour des points de données représentant les cellules potentielles d’intérêt, (3) ajuster la porte pour inclure presque toutes les cellules positives et exclure autant de cellules négatives que possible, (4) tracer la sous-population à porte résultante dans un nouveau graphique de densité avec deux nouvelles caractéristiques de mesure comme axes, (5) porter la sous-population à nouveau sur la base de ces nouvelles caractéristiques, et (6) calculer le pourcentage de cellules de chaque image qui tombent dans la porte finale.
Étude de cas : écran de sous-phase mitotique
Motivation
Nous voulions tester la capacité de CellProfiler Analyst à tracer, explorer et filtrer les données de cellules individuelles pour identifier des sous-populations définies par plusieurs caractéristiques morphologiques. Nous avons choisi d’identifier les cellules Kc167 de Drosophila melanogaster en télophase et métaphase du cycle cellulaire, en utilisant uniquement une coloration de l’ADN. L’identification des échantillons dont la régulation du cycle cellulaire est perturbée revêt une importance évidente pour la biologie des cellules normales ainsi que pour les études sur le cancer. Les régulateurs du cycle cellulaire sont recherchés intensivement depuis des décennies par le biais de cribles traditionnels et à haut débit pour des changements dans la distribution globale du cycle cellulaire ou pour une augmentation de la coloration de la phospho-histone H3, un marqueur des cellules en fin de phase G2 et M (par exemple, et les références qui y figurent). Nous avons pensé qu’il pourrait exister d’autres gènes qui, lorsqu’ils sont perturbés, produisent un nombre accru de noyaux en métaphase ou en télophase sans affecter de manière substantielle l’indice mitotique global (coloration phospho-histone H3) ou la distribution du cycle cellulaire. Bien que nous n’ayons pas connaissance de témoins positifs présentant un tel phénotype, nous soupçonnons que de tels gènes ont pu être négligés auparavant, car nous avons remarqué que tous les noyaux en métaphase ne présentent pas une coloration brillante de la phospho-histone H3 (Figure 5a), pour des raisons inconnues. L’identification des gènes dont l’ARNi produit des cellules semblant être dans des sous-phases particulières de la mitose, indépendamment de la coloration concomitante de la phospho-histone H3, serait une première étape vers la compréhension de ces phénomènes.
Plusieurs groupes ont testé des méthodes automatisées pour marquer les subphases mitotiques ; ces études ont été accomplies par des outils informatiques adaptés à l’essai spécifique et reposaient souvent sur de multiples colorations cellulaires. Les méthodes d’apprentissage automatique ont été étudiées par notre groupe et par d’autres (voir Conclusions), mais nous voulions également étudier la possibilité de permettre à l’utilisateur de sélectionner manuellement un petit nombre de caractéristiques dont la pertinence biologique est connue, puis de procéder à une sélection séquentielle de ces caractéristiques. Cela donnerait au chercheur un contrôle total sur les caractéristiques utilisées dans la notation, et la notation serait plus facilement transférable d’une expérience à l’autre parce qu’un petit nombre de caractéristiques est sélectionné. Nous avons donc voulu marquer les sous-phases mitotiques en utilisant uniquement une coloration de l’ADN, en utilisant une sélection supervisée de mesures suivie d’une sélection séquentielle sur ces mesures, dans le contexte d’un logiciel utilisable par un non-informaticien.
Correction d’images par sélection séquentielle de données de cellules individuelles
Nous avons criblé des gènes en utilisant des microréseaux de cellules vivantes à interférence ARN de drosophile pour identifier les gènes « knockdowns » qui donnent un nombre disproportionné de cellules dans deux sous-phases de la mitose : métaphase et anaphase/télophase (appelée télophase pour simplifier). Nous avons créé et analysé 5 répliques d’une matrice de drosophile, avec 1120 spots de dsRNA sur une seule lame de microscope (Figure 5b), y compris trois répliques de spots pour chacun des 288 gènes (principalement des kinases et des phosphatases), plus 256 spots de contrôle négatif sans dsRNA. Certains phénotypes produits dans ces cellules de drosophile Kc167 (par exemple, la mort cellulaire) sont visibles à basse résolution (objectif 5× ; figure 5c), mais pour identifier les noyaux en télophase et en métaphase, nous avons recueilli des images individuelles à haute résolution à l’intérieur de chaque spot sur chaque lame (objectif 40× ; petite partie d’une image présentée à la figure 5d).
Nous avons commencé par le phénotype de la télophase. Pour déterminer quelles caractéristiques cellulaires mesurées seraient les plus efficaces pour la notation, nous avons choisi à la main des noyaux en télophase représentatifs et des noyaux normaux en phase G2 à partir d’images de dépistage aléatoires et nous avons créé des montages d’images pour ces deux classes (figure 6a) en utilisant Adobe Photoshop. Nous avons utilisé CellProfiler pour mesurer les caractéristiques nucléaires dans ces images de montage, puis nous avons exporté les résultats vers Excel et sélectionné cinq caractéristiques à utiliser pour la sélection séquentielle, sur la base d’une combinaison d’intuition biologique et de la capacité quantitative de chaque caractéristique à distinguer les noyaux en télophase des noyaux normaux, en utilisant des tests statistiques simples dans Excel. Les caractéristiques sélectionnées comprenaient le contenu en ADN, l’intensité, la forme et les caractéristiques de texture (fichier de données supplémentaires 1).
Nous avons ensuite développé de manière interactive des portes séquentielles en utilisant des graphiques de densité de ces caractéristiques dans CellProfiler Analyst (voir la section « Gating individual cell data to score complex phenotypes »). Pour accomplir cette tâche, CellProfiler a été utilisé pour traiter l’ensemble des images de dépistage et charger les données résultantes dans une base de données (2,8 millions de cellules × 396 caractéristiques/cellule = 1,1 milliard de mesures au total). Cela nous a permis d’afficher toutes les cellules individuelles de l’expérience dans un graphique de densité initial avec deux de nos caractéristiques sélectionnées comme axes, à savoir le contenu en ADN et la taille (surface) du noyau. Nous avons dessiné une porte initiale autour du pic de contenu en ADN 2N et de la petite surface du noyau, et avons affiné empiriquement la porte pour les cellules en télophase en examinant les images des noyaux sélectionnés et en ajustant les limites de la porte en conséquence. Alors que les approches automatisées pourraient certainement identifier une limite sur la base d’un ensemble d’entraînement fourni par le chercheur, cette approche manuelle permet au biologiste d’évaluer spécifiquement de nombreuses cellules près des limites pertinentes. Une fois la porte appropriée sélectionnée pour le graphique de densité initial, la sous-population a été transférée vers un nouveau graphique de densité avec deux nouvelles caractéristiques utilisées comme axes et la porte suivante a été créée, en trouvant à nouveau les paramètres optimaux pour distinguer les noyaux en télophase de tous les autres noyaux. Cette procédure a été répétée pour la cinquième, et dernière, caractéristique sélectionnée. Une fois que la dernière porte a été affinée, nous avons appliqué les portes séquentielles à un nouvel ensemble d’images et confirmé que leur notation était efficace (tableau 1 et figure 6b), en différenciant avec succès la télophase des autres noyaux. En créant les portes, nous avons essayé de minimiser le taux de faux positifs tout en acceptant un taux de faux négatifs plus élevé (tableau 1). Nous avons pensé que les vrais résultats auraient suffisamment de positifs pour surmonter cette procédure de sélection intentionnellement stricte. À ce stade, nous avons appliqué les portes séquentielles finales à toutes les cellules afin d’évaluer l’ensemble du crible pour le phénotype de la télophase. Nous avons constaté que les portes doivent généralement être légèrement ajustées entre les différentes lames répliquées en raison de la variabilité inter-expérimentale (par exemple, l’intensité de la coloration), intensité de coloration), bien que des méthodes de normalisation d’expérience à expérience pourraient être explorées pour réduire cet effet.
Nous avons effectué séparément la même procédure pour le phénotype de métaphase (en utilisant quatre caractéristiques pour distinguer les noyaux de métaphase de tous les autres noyaux) ; une liste complète des 288 gènes testés et de leurs scores pour la télophase et la métaphase est présentée dans le fichier de données supplémentaire 2.
Analyse de la télophase
La mise en ordre des échantillons par le pourcentage de noyaux en télophase a révélé 4 knockdowns de gènes avec une augmentation significative des noyaux en télophase (Figure 6c, 4 premières lignes). Pour valider l’approche, deux de ces gènes sont des sous-unités du complexe PP2A qui ont été précédemment associées à la mitose : la sous-unité catalytique PP2A-C mts (CG7109/microtubule star) et une sous-unité régulatrice de la famille PP2A-A (CG17291/CG33297/CG13383, Note : dicistronique avec CSN8). L’ARNi contre ces deux gènes a augmenté le pourcentage de cellules qui étaient phospho-histone H3-positives (Figure 6c, cinquième colonne). Un troisième gène, Ck1α (Casein kinase 1α/CG2028), a également été associé à la mitose (Figure 6c, dernière colonne). Nous avons remarqué que son knockdown par ARNi produisait des noyaux dont la chromatine semblait être légèrement moins condensée que les noyaux typiques de la télophase (Figure 7), tout en restant plus condensée que les noyaux d’interphase. Le pourcentage de cellules qui étaient phospho-histone H3-positives était normal (Figure 6c, cinquième colonne). Ensemble, ces observations suggèrent que ce défaut se produit à un stade avancé de la télophase/anaphase. Le quatrième résultat était une kinase prédite sans annotation fonctionnelle (CG8878). Une inspection visuelle a révélé que presque tous les noyaux de ces échantillons semblaient plus brillants et plus compacts que ceux des témoins, un effet subtil mais reproductible (Figure 7). Cela a naturellement eu pour conséquence qu’un plus grand nombre de noyaux 2N ont été comptés comme ayant une morphologie de type télophase. Nous avons constaté que ces cellules n’étaient pas enrichies en phospho-histone H3-positivité (Figure 6c, cinquième colonne) ; sans expérimentation supplémentaire, il n’est pas clair s’il s’agit d’un véritable phénotype mitotique de stade tardif ou plutôt d’un phénotype de noyaux condensés.
Analyse de métaphase
Intéressant, le seul hit de métaphase dans ce crible (Figure 6c, dernière rangée) est la sous-unité régulatrice de la sous-famille B’/B56 de PP2A (CG5643/widerborst), qui au moment de notre crible n’avait pas été liée à la régulation du cycle cellulaire. Le pourcentage de cellules qui étaient phospho-histone H3-positives n’était pas beaucoup plus élevé que la normale (Figure 6c, cinquième colonne). Nous avons confirmé à l’œil le phénotype d’induction de métaphase du knockdown de Widerborst dans les images originales et dans des expériences séparées avec deux autres dsRNA, dont un qui n’était pas superposable à l’original (Figure 8a). Widerborst est un gène essentiel impliqué dans la polarisation cellulaire planaire et l’apoptose . Notamment, dans d’autres contextes (cycle des protéines de l’horloge circadienne et développement des organes sensoriels), Widerborst est indirectement lié au membre de la sous-famille B/PR55 twins/aar, qui est lui-même connu pour être requis pour la transition métaphase-anaphase. Notre travail confirme donc, avec des dsRNA non chevauchants, un rôle de régulation du cycle cellulaire récemment rapporté pour widerborst et indique ensemble qu’il est peu probable que ce phénotype soit dû à des effets hors cible .
L’homologue humain le plus proche de widerborst est PPP2R5E, l’isoforme epsilon d’une sous-famille de sous-unités régulatrices PP2R5 (alias B’/PR61/B56) du complexe PP2A. Jusqu’à présent, aucune fonction particulière n’a été associée à PPP2R5E. Nous nous sommes demandé si PPP2R5E pourrait être une sous-unité régulatrice B’ qui module le rôle connu de PP2A dans la mitose, étant donné notre découverte du rôle de son homologue widerborst chez la drosophile. Le knockdown de PPP2R5E n’a pas augmenté l’indice mitotique de manière significative dans les récents cribles d’interférence ARN pour une augmentation de la phospho-histone H3 . Cependant, lorsque nous avons évalué ces mêmes images de PPP2R5E-knockdown pour la morphologie de la métaphase, plutôt que pour les niveaux de phospho-histone H3, nous avons découvert un phénotype d’arrêt en métaphase pour PPP2R5E knockdown, confirmé par deux shRNA différents (Figure 8b), cohérent avec le phénotype observé pour widerborst chez la drosophile. Il reste à déterminer si widerborst/PPP2R5E sont eux-mêmes nécessaires à la transition métaphase-anaphase ou si leur déplétion provoque le phénotype en perturbant spécifiquement la stœchiométrie du complexe PP2A concerné. Les récentes découvertes que PPP2R5E se localise aux centromères et que la sous-famille B’ de sous-unités régulatrices est nécessaire pour une séparation méiotique correcte des chromatides sœurs chez la levure de fission et la levure bourgeonnante soutiennent l’idée que cette famille de sous-unités est effectivement importante pour une dynamique chromatinienne correcte pendant la division cellulaire.