NG-Circos : Circos de nouvelle génération pour la visualisation et l’interprétation des données

Abstract

Les parcelles Circos sont largement utilisées pour afficher des données génomiques multidimensionnelles de nouvelle génération, mais les implémentations existantes de Circos ne sont pas interactives avec un support limité des types de données. Ici, nous avons développé le Circos de nouvelle génération (NG-Circos), un outil flexible de visualisation du génome circulaire basé sur JavaScript pour concevoir des diagrammes Circos hautement interactifs en utilisant 21 modules fonctionnels avec différents types de données. À notre connaissance, NG-Circos est le logiciel le plus puissant pour construire des diagrammes Circos interactifs. En prenant en charge divers types de données dans une interface de navigateur dynamique, NG-Circos accélérera la visualisation et l’interprétation des données de nouvelle génération, favorisant ainsi la recherche reproductible dans les sciences biomédicales et au-delà. NG-Circos est disponible aux adresses https://wlcb.oit.uci.edu/NG-Circos et https://github.com/YaCui/NG-Circos.

INTRODUCTION

Visualiser des volumes croissants de données biologiques de nouvelle génération est essentiel à l’interprétation de ces données. Les diagrammes circos sont des représentations visuelles bidimensionnelles circulaires qui offrent une solution complète pour la présentation et l’interprétation de données génomiques multidimensionnelles. Circos (1), l’outil prédominant pour la création de diagrammes Circos, a été largement utilisé pour la visualisation de données biologiques complexes dans de nombreuses études. Toutefois, les résultats de Circos ne sont pas interactifs. D’autres outils dérivés de Circos, tels que Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) sont soit incapables de produire des diagrammes Circos interactifs dans un navigateur web, soit limités à des types de données spécifiques. L’outil que nous avons développé précédemment, BioCircos.js (10), semble être le seul logiciel publié capable de produire des diagrammes Circos interactifs et est devenu l’outil de pointe dans ce domaine (11-12). Néanmoins, BioCircos.js (10) ne met en œuvre que neuf modules fonctionnels, ce qui limite sa portée pour effectuer des tâches analytiques supplémentaires.

Pour remédier à cette faiblesse, nous avons développé ici le Circos de nouvelle génération (NG-Circos), un outil de visualisation circulaire du génome basé sur JavaScript qui dépasse le cadre de BioCircos.js (10) pour intégrer et interpréter des types de données génomiques par le biais de tracés Circos interactifs. NG-Circos contient actuellement 21 modules, permettant diverses fonctions qui étaient absentes dans d’autres outils (y compris BioCircos.js (10)). En supportant divers types de données génomiques dans une interface de navigateur interactive, NG-Circos accélérera la visualisation et l’interprétation des données de prochaine génération, favorisant ainsi la recherche reproductible dans les sciences biomédicales et au-delà.

MATERIALS AND METHODS

Implémentation de NG-Circos

NG-Circos est écrit en JavaScript et génère des graphiques interactifs avec l’élément SVG basé sur D3.js (documents pilotés par les données) et jQuery.js. Basé sur JavaScript, NG-Circos peut être utilisé sans installer de paquets supplémentaires. Après avoir téléchargé NG-Circos, les utilisateurs peuvent reproduire presque tous les tracés circulaires dessinés par Circos avec un navigateur web. Notez que NG-Circos lui-même n’est pas une application web, mais une bibliothèque pour construire des tracés Circos interactifs dans des applications web.

Mise en œuvre de la fonction de téléchargement d’images dans NG-Circos

La fonction de téléchargement dans NG-Circos est construite en utilisant le svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) du New York Times. NG-Circos prend désormais en charge les formats SVG et PNG. Le format d’image SVG permet aux utilisateurs d’extraire des images de haute qualité qui peuvent être ensuite utilisées dans Adobe Illustrator.

Traitement des données d’entrée dans NG-Circos

Nous fournissons un script de traitement des données (écrit par python et shell) pour traiter les données brutes, permettant aux utilisateurs de transformer facilement leurs données en format JSON avec des paramètres par défaut pour le module correspondant. Notamment, les données d’entrée de NG-Circos peuvent être soit générées par les scripts python, soit directement par les formats de données JSON bien documentés. Les utilisateurs peuvent intégrer NG-Circos dans une application web existante basée sur JavaScript qui possède ses propres structures de données JSON internes. Nous fournissons un exemple pour chaque module afin d’illustrer la structure de données d’entrée et toutes les étapes nécessaires pour recréer cet exemple (https://wlcb.oit.uci.edu/modules/).

Traitement des données GWAS dans le graphe LocusZoom

Dans la figure 1F, nous avons utilisé PLINK (13) pour calculer la valeur r-carré de populations spécifiques et pour extraire le taux de recombinaison des données Hapmap3 (14) pour des SNP spécifiés.

Feuilleteurs web supportés par NG-Circos

La vitesse d’exécution de NG-Circos dépend de la puissance de calcul des navigateurs et du matériel. NG-Circos a passé le débogage et l’examen dans tous les principaux navigateurs Internet, notamment Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari et Opera.

RESULTATS

Flux de travail de NG-Circos

NG-Circos a un flux de travail très convivial. Il comporte trois étapes principales pour dessiner un graphe Circos interactif : L’étape 1 comprend le dessin des chromosomes (ou d’autres segments) comme axes de coordonnées. L’étape 2 consiste à ajouter diverses pistes de données en utilisant les modules pertinents avec une grande flexibilité dans le choix des modules (21 modules sont actuellement implémentés, Tableau supplémentaire S1). Les données d’entrée de NG-Circos peuvent être soit générées par les scripts python, soit directement par les formats de données JSON bien documentés. Pour chaque module, nous fournissons un exemple qui comprend les fichiers de données d’entrée et toutes les étapes pour recréer cet exemple (https://wlcb.oit.uci.edu/modules/). Enfin, l’étape 3 intègre des animations interactives, des événements de souris (tableau supplémentaire S2) et la conception de boîtes à outils pour les éléments graphiques. NG-Circos est hautement personnalisable, permettant aux utilisateurs d’ajuster leurs paramètres personnels. Nous fournissons également un ensemble de paramètres par défaut soigneusement évalués pour chaque module et proposons de nombreuses démonstrations pour rendre NG-Circos facile à utiliser. En outre, la capacité de NG-Circos peut être simplement élargie en incluant des modules plus fonctionnels à l’étape 2.

NG-Circos fournit des choix de modules flexibles pour diverses parcelles Circos

La version actuelle de NG-Circos se compose de 21 modules (tableau supplémentaire S1). La combinaison des modules dans NG-Circos permet aux utilisateurs de construire divers types de parcelles de Circos. Par exemple, NG-Circos peut reproduire des diagrammes de Circos complexes publiés (15) en combinant les modules ARC, GENE, HEATMAP, LINK et WIG (Figure 1A). Non seulement NG-Circos peut reproduire des tracés Circos complexes publiés, mais il peut également offrir des fonctions supplémentaires telles que des démonstrations de tracés Circos interactifs populaires (par exemple, les tracés Lollipop, Wig et LocusZoom (16)) illustrés dans les figures 1B-F (15) (17) (18) (19), qui ne sont pas visibles dans d’autres outils. De plus, nous proposons davantage de démos sur le site web en ligne (https://wlcb.oit.uci.edu/NG-Circos) pour montrer la puissance de cet outil : les utilisateurs peuvent facilement remplacer les données de démonstration par leurs propres données pour produire leurs propres graphiques. Toutes les figures peuvent être téléchargées au format SVG et PNG, le format SVG donnant aux utilisateurs des images de haute qualité qui peuvent être utilisées par d’autres applications telles que Adobe Illustrator. Dans l’ensemble, NG-Circos offre aux utilisateurs une grande flexibilité dans les choix de modules et les types de tracés Circos.

Figure 1.

Démos de NG-Circos. (A) Graphiques Circos complexes publiés reproduits à l’aide de NG-Circos ; des descriptions détaillées peuvent être trouvées dans Akdemir et al. (15). (B) Démo montrant les structures des gènes à l’aide de NG-Circos ; les données proviennent d’Akdemir et al. (15). (C) Démo de Chord plot montrant les changements de gènes régulés par l’IL-6 dans différentes cellules (17). (D) Démo du graphique Lollipop conçu par NG-Circos ; les données proviennent de Schultheis et al. (18). (E) Démonstration du module COMPARE dans NG-Circos. Les mutations dans le promoteur PVT1 changent les gènes cibles de l’enhancer. Le graphique en forme de perruque montre les modifications H3K4me3 (bleu) et H3K9me3 (rouge) (19). (F) Démonstration du tracé LocusZoom conçu par NG-Circos. Les noms des modules des tracés dans (A-F) sont marqués par du texte rouge.

Figure 1.

Démos de NG-Circos. (A) Tracés complexes de Circos publiés reproduits à l’aide de NG-Circos ; des descriptions détaillées peuvent être trouvées dans Akdemir et al. (15). (B) Démo montrant les structures des gènes à l’aide de NG-Circos ; les données proviennent d’Akdemir et al. (15). (C) Démo de Chord plot montrant les changements de gènes régulés par l’IL-6 dans différentes cellules (17). (D) Démo du graphique Lollipop conçu par NG-Circos ; les données proviennent de Schultheis et al. (18). (E) Démonstration du module COMPARE dans NG-Circos. Les mutations dans le promoteur PVT1 changent les gènes cibles de l’enhancer. Le graphique en forme de perruque montre les modifications H3K4me3 (bleu) et H3K9me3 (rouge) (19). (F) Démonstration du tracé LocusZoom conçu par NG-Circos. Les noms de modules des tracés dans (A-F) sont marqués par du texte rouge.

Etude de cas pour l’exploration interactive des données à l’aide de NG-Circos

Nous présentons ici une étude de cas pour illustrer davantage la puissance de l’exploration interactive des données à l’aide de NG-Circos. Dans ce cas, les utilisateurs peuvent explorer de manière interactive les polymorphismes nucléotidiques simples (SNP) conducteurs, les fusions de gènes et leur impact sur la structure des protéines dans le cancer du poumon (Figure 2). Par exemple, les événements survolés par la souris montrent les fréquences des SNP dans le cancer du poumon à partir de la base de données COSMIC (Catalogue of Somatic Mutations in Cancer) (Figure 2B) (20) et la structure protéique tridimensionnelle (3D) d’une fusion de gènes EML4-ALK (Figure 2C) (21). De manière remarquable, NG-Circos peut également rediriger des éléments (tels que des SNP ou des fusions de gènes) vers des ressources externes. Par exemple, en cliquant sur un SNP, comme le variant T790M de l’EGFR, on ouvre une nouvelle page Web de la base de données de la Protein Data Bank (PDB), affichant la structure 3D de l’EGFR affectée par le variant T790M (figure 2D ; code PDB : 2JIT) (22). En résumé, NG-Circos sert d’outil formidable pour explorer les données génomiques de manière interactive, de sorte que les utilisateurs peuvent extraire des informations supplémentaires en survolant la souris et en cliquant sur les parcelles.

Figure 2.

Utilisation de NG-Circos pour la visualisation et l’interprétation intégratives des données. (A) Combinaison flexible de divers modules dans NG-Circos pour visualiser de multiples types de données biologiques. L’anneau extérieur représente les idéogrammes des chromosomes. En se déplaçant vers l’intérieur de l’anneau extérieur, les pistes de données représentent les CNV somatiques, la densité des variantes, les mutations somatiques et les fusions de gènes. À l’exception des données de densité de variants simulés, toutes les données présentées sont téléchargées de la base de données COSMIC. (B) Passez la souris pour afficher les détails de chaque SNP. (C) Passez la souris pour afficher les détails de chaque fusion génique et sa structure protéique 3D (dans ce cas, la fusion génique EML4-ALK). (D) Cliquez sur un SNP (dans ce cas, le variant T790M de l’EGFR) pour ouvrir une nouvelle page Web dans la base de données PDB affichant la structure 3D de l’EGFR affectée par le variant T790M (code PDB : 2JIT).

Figure 2.

Utilisation de NG-Circos pour la visualisation et l’interprétation intégratives des données. (A) Combinaison flexible de divers modules dans NG-Circos pour visualiser de multiples types de données biologiques. L’anneau extérieur représente les idéogrammes des chromosomes. En se déplaçant vers l’intérieur de l’anneau extérieur, les pistes de données représentent les CNV somatiques, la densité des variantes, les mutations somatiques et les fusions de gènes. À l’exception des données de densité de variants simulés, toutes les données présentées sont téléchargées de la base de données COSMIC. (B) Passez la souris pour afficher les détails de chaque SNP. (C) Passez la souris pour afficher les détails de chaque fusion génique et sa structure protéique 3D (dans ce cas, la fusion génique EML4-ALK). (D) Cliquez sur un SNP (dans ce cas, le variant T790M de l’EGFR) pour ouvrir une nouvelle page Web dans la base de données PDB affichant la structure 3D de l’EGFR affectée par le variant T790M (code PDB : 2JIT).

DISCUSSION

L’exploration interactive des données à travers divers types de données va certainement promouvoir la visualisation et l’interprétation des données de prochaine génération, avec quelques exemples réussis, tels que cBioPortal (23), observés dans la recherche sur le cancer. Les diagrammes Circos sont largement utilisés pour afficher les données génomiques volumineuses de la prochaine génération, mais les implémentations existantes de Circos ne génèrent pas de sorties interactives, ce qui entrave son utilisation. Pour résoudre ce problème, NG-Circos offre des choix de modules flexibles pour l’exploration interactive des données et divers types de diagrammes Circos. Au fur et à mesure que d’autres types de données génomiques seront générés à l’avenir, nous continuerons à mettre à jour des modules fonctionnels supplémentaires pour étendre la puissance de NG-Circos. Nous assurerons également une maintenance active de NG-Circos et répondrons aux demandes des utilisateurs. En supportant divers types de données génomiques dans une interface web interactive, NG-Circos, nous croyons, améliorera la recherche génomique dans le domaine biomédical à l’avenir.

DONNÉES SUPPLEMENTAIRES

Les données supplémentaires sont disponibles à NARGAB Online.

ACKNOWLEDGEMENTS

Nous remercions Tianyi Zang, Yadong Wang et les membres du laboratoire Li pour leurs discussions constructives et leur soutien.

FUNDING

Aucun financement externe.

Déclaration de conflit d’intérêts. Aucun déclaré.

Krzywinski
M.

,

Schein
J.

,

Birol
I.

,

Connors
J.

,

Gascoyne
R.

,

Horsman
D.

,

Jones
S.J.

,

Marra
M.A.
Circos : une esthétique de l’information pour la génomique comparative

.

Genome Res.
2009

;

19

:

1639

1645

.

Darzentas
N.
Circoletto : visualisation de la similarité de séquence avec les Circos

.

Bioinformatique

.

2010

;

26

:

2620

2621

.

Naquin
D.

,

d’Aubenton-Carafa
Y.

,

Thermes
C.

,

Silvain
M.
CIRCUS : un paquet pour l’affichage circos de variations structurelles du génome à partir de données de séquençage paired-end et mate-pair

.

BMC Bioinformatics

.

2014

;

15

:

198

.

An
J.

,

Lai
J.

,

Sajjanhar
A.

,

Batra
J.

,

Wang
C.

,

Nelson
C.C.
J-Circos : un traceur interactif de Circos

.

Bioinformatique

.

2015

;

31

:

1463

1465

.

Yu
Y.

,

Ouyang
Y.

,

Yao
W.
ShinyCircos : une application R/Shiny pour la création interactive de tracés Circos

.

Bioinformatique

.

2018

;

34

:

1229

1231

.

Zhang
H.

,

Meltzer
P.

,

Davis
S.
RCircos : un paquet R pour les tracés de pistes 2D Circos

.

BMC Bioinformatics

.

2013

;

14

:

244

.

Crabtree
J.

,

Agrawal
S.

,

Mahurkar
A.

,

Myers
G.S.

,

Rasko
D.A.

,

White
O.
Circleator : visualisation circulaire flexible de données associées à un génome avec BioPerl et SVG

.

Bioinformatique

.

2014

;

30

:

3125

3127

.

Hu
Y.

,

Yan
C.

,

Hsu
C.H.

,

Chen
Q.R.

,

Niu
K.

,

Komatsoulis
G.A.

,

Meerzaman
D.
Omiccircos : un package R simple à utiliser pour la visualisation circulaire de données Omics multidimensionnelles

.

Cancer Inform.
2014

;

13

:

13

20

.

Yin
T.

,

Cook
D.

,

Lawrence
M.
ggbio : un package R pour étendre la grammaire des graphiques pour les données génomiques

.

Genome Biol.
2012

;

13

:

R77

.

Cui
Y.

,

Chen
X.

,

Luo
H.

,

Fan
Z.

,

Luo
J.

,

He
S.

,

Yue
H.

,

Zhang
P.

,

Chen
R.
BioCircos.js : une bibliothèque JavaScript Circos interactive pour la visualisation de données biologiques sur des applications web

.

Bioinformatique

.

2016

;

32

:

1740

1742

.

Juanillas
V.

,

Dereeper
A.

,

Beaume
N.

,

Droc
G.

,

Dizon
J.

,

Mendoza
J.R.

,

Perdon
J.P.

,

Mansueto
L.

,

Triplett
L.

,

Lang
J.

et al…

La galaxie du riz : une ressource ouverte pour la science des plantes

.

Gigascience

.

2019

;

8

:

giz028

.

Nott
A.

,

Holtman
I.R.

,

Coufal
N.G.

,

Schlachetzki
J.C.M.

,

Yu
M.

,

Hu
R.

,

Han
C.Z.

,

Pena
M.

,

Xiao
J.

,

Wu
Y.

et al .

Cartes d’interactome enhancer-promoteur spécifiques au type de cellule cérébrale et association risque-maladie

.

Science

.

2019

;

366

:

1134

1139

.

Purcell
S.

,

Neale
B.

,

Todd-Brown
K.

,

Thomas
L.

,

Ferreira
M.A.R.

,

Bender
D.

,

Maller
J.

,

Sklar
P.

,

De Bakker
P.I.W.

,

Daly
M.J.

et al. .

PLINK : un ensemble d’outils pour l’association du génome entier et les analyses de liaison basées sur la population

.

Am. J. Hum. Genet.
2007

;

81

:

559

575

.

Belmont
J.W.

,

Hardenbol
P.

,

Willis
T.D.

,

Yu
F.

,

Yang
H.

,

Ch’Ang
L.Y.

,

Huang
W.

,

Liu
B.

,

Shen
Y.

,

Tam
P.K.H.

et al. .

Le projet international HapMap

.

Nature

.

2003

;

426

:

789

796

.

Akdemir
K.C.

,

Jain
A.K.

,

Allton
K.

,

Aronow
B.

,

Xu
X.

,

Cooney
A.J.

,

Li
W.

,

Barton
M.C.
Le profilage à l’échelle du génome révèle des fonctions de p53 spécifiques au stimulus pendant la différenciation et les dommages à l’ADN des cellules souches embryonnaires humaines

.

Nucleic Acids Res.
2014

;

42

:

205

223

.

Pruim
R.J.

,

Welch
R.P.

,

Sanna
S.

,

Teslovich
T.M.

,

Chines
P.S.

,

Gliedt
T.P.

,

Boehnke
M.

,

Abecasis
G.R.

,

Willer
C.J.

,

Frishman
D.
LocusZoom : visualisation régionale des résultats d’analyses d’associations pangénomiques

.

Bioinformatics

.

2011

;

26

:

2336

2337

.

Twohig
J.P.

,

Cardus Figueras
A.

,

Andrews
R.

,

Wiede
F.

,

Cossins
B.C.

,

Derrac Soria
A.

,

Lewis
M.J.

,

Townsend
M.J.

,

Millrine
D.

,

Li
J.

et al. .

L’activation des cellules CD4 + T naïves réajuste la signalisation STAT1 pour délivrer des réponses cytokines uniques dans les cellules CD4 + T de mémoire

.

Nat. Immunol.
2019

;

20

:

458

470

.

Schultheis
A.M.

,

Martelotto
L.G.

,

De Filippo
M.R.

,

Piscuglio
S.

,

Ng
C.K.Y.

,

Hussein
Y.R.

,

Reis-Filho
J.S.

,

Soslow
R.A.

,

Weigelt
B.
Spectre mutationnel TP53 dans les cancers endométrioïdes et séreux de l’endomètre

.

Int. J. Gynecol. Pathol.
2016

;

35

:

289

300

.

Cho
S.W.

,

Xu
J.

,

Sun
R.

,

Mumbach
M.R.

,

Carter
A.C.

,

Chen
Y.G.

,

Yost
K.E.

,

Kim
J.

,

He
J.

,

Nevins
S.A.

et al. .

Promoteur du gène lncRNA PVT1 est un élément limite de l’ADN suppresseur de tumeur

.

Cellule

.

2018

;

173

:

1398

1412

.

Forbes
S.A.

,

Beare
D.

,

Boutselakis
H.

,

Bamford
S.

,

Bindal
N.

,

Tate
J.

,

Cole
C.G.

,

Ward
S.

,

Dawson
E.

,

Ponting
L.

et al. .

COSMIC : génétique somatique du cancer à haute résolution

.

Nucleic Acids Res.
2017

;

45

:

D777

D783

.

Wang
D.

,

Li
D.

,

Qin
G.

,

Zhang
W.

,

Ouyang
J.

,

Zhang
M.

,

Xie
L.
La caractérisation structurelle des gènes et des protéines de fusion de tumeurs

.

Comput. Math. Methods Med.
2015

;

2015

:

doi:10.1155/2015/912742

.

Yun
C.H.

,

Mengwasser
K.E.

,

Toms
A. V.

,

Woo
M.S.

,

Greulich
H.

,

Wong
K.K.

,

Meyerson
M.

,

Eck
M.J.
La mutation T790M de l’EGFR kinase entraîne une résistance aux médicaments en augmentant l’affinité pour l’ATP

.

Proc. Natl. Acad. Sci. U.S.A.
2008

;

105

:

2070

2075

.

Gao
J.

,

Aksoy
B.A.

,

Dogrusoz
U.

,

Dresdner
G.

,

Gross
B.

,

Sumer
S.O.

,

Sun
Y.

,

Jacobsen
A.

,

Sinha
R.

,

Larsson
E.

et al. .

Analyse intégrative de la génomique complexe du cancer et des profils cliniques en utilisant le cBioPortal

.

Sci. Signal.
2013

;

6

:

pl1

.

Jiang
S.

,

Xie
Y.

,

He
Z.

,

Zhang
Y.

,

Zhao
Y.

,

Chen
L.

,

Zheng
Y.

,

Miao
Y.

,

Zuo
Z.

,

Ren
J.
m6ASNP : un outil pour annoter les variants génétiques par la fonction m6A

.

Gigascience

.

2018

;

7

:

giy035

.

Mateo
L.

,

Guitart-Pla
O.

,

Pons
C.

,

Duran-Frigola
M.

,

Mosca
R.

,

Aloy
P.
Une vue PanorOmique des génomes personnels du cancer

.

Nucleic Acids Res.
2017

;

45

:

W195

W200

.

Teng
X.

,

Chen
X.

,

Xue
H.

,

Tang
Y.

,

Zhang
P.

,

Kang
Q.

,

Hao
Y.

,

Chen
R.

,

Zhao
Y.

,

He
S.
NPInter v4.0 : une base de données intégrée des interactions entre ARNnc

.

Nucleic Acids Res.
2020

;

48

:

D160

D165

.

Notes des auteurs

Les auteurs souhaitent que l’on sache que, selon eux, les deux premiers auteurs doivent être considérés comme co-premiers auteurs.

© The Author(s) 2019. Publié par Oxford University Press au nom de NAR Genomics and Bioinformatics.
Il s’agit d’un article en accès libre distribué selon les termes de la licence Creative Commons Attribution Non-Commercial (http://creativecommons.org/licenses/by-nc/4.0/), qui permet la réutilisation, la distribution et la reproduction non commerciales sur tout support, à condition que l’œuvre originale soit correctement citée. Pour toute réutilisation commerciale, veuillez contacter [email protected]

.

Laisser un commentaire