NG-Circos: Circos di nuova generazione per la visualizzazione e l’interpretazione dei dati

Abstract

I tracciati Circos sono ampiamente utilizzati per visualizzare dati genomici multidimensionali di nuova generazione, ma le implementazioni esistenti di Circos non sono interattive e supportano in modo limitato i tipi di dati. Qui, abbiamo sviluppato Circos di nuova generazione (NG-Circos), uno strumento flessibile di visualizzazione del genoma circolare basato su JavaScript per la progettazione di trame Circos altamente interattive utilizzando 21 moduli funzionali con vari tipi di dati. A nostra conoscenza, NG-Circos è il software più potente per costruire grafici Circos interattivi. Supportando diversi tipi di dati in un’interfaccia browser dinamica, NG-Circos accelererà la visualizzazione e l’interpretazione dei dati di prossima generazione, promuovendo così la ricerca riproducibile nelle scienze biomediche e oltre. NG-Circos è disponibile a https://wlcb.oit.uci.edu/NG-Circos e https://github.com/YaCui/NG-Circos.

INTRODUZIONE

La visualizzazione di volumi crescenti di dati biologici di prossima generazione è fondamentale per l’interpretazione di tali dati. I grafici Circos sono rappresentazioni visive circolari bidimensionali che forniscono una soluzione completa per la presentazione e l’interpretazione dei dati genomici multidimensionali. Circos (1), lo strumento predominante per fare i grafici Circos, è stato usato selvaggiamente per la visualizzazione di dati biologici complessi in molti studi. Tuttavia, gli output di Circos non sono interattivi. Altri strumenti derivati da Circos, come Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) sono incapaci di produrre grafici Circos interattivi in un browser web o sono limitati a specifici tipi di dati. Il nostro precedente strumento sviluppato, BioCircos.js (10), sembra essere l’unico software pubblicato in grado di produrre grafici Circos interattivi ed è diventato lo strumento all’avanguardia nel campo (11-12). Tuttavia, BioCircos.js (10) implementa solo nove moduli funzionali, limitando la sua portata per eseguire ulteriori compiti analitici.

Per affrontare questa debolezza, qui abbiamo sviluppato Circos di nuova generazione (NG-Circos), uno strumento di visualizzazione del genoma circolare basato su JavaScript che si estende oltre la struttura di BioCircos.js (10) per integrare e interpretare i tipi di dati genomici attraverso trame Circos interattivo. NG-Circos contiene attualmente 21 moduli, che consentono varie funzioni che erano assenti in altri strumenti (compreso BioCircos.js (10)). Supportando diversi tipi di dati genomici in un’interfaccia browser interattiva, NG-Circos accelererà la visualizzazione e l’interpretazione dei dati di prossima generazione, promuovendo così la ricerca riproducibile nelle scienze biomediche e oltre.

MATERIALI E METODI

Implementazione di NG-Circos

NG-Circos è scritto in JavaScript e genera grafica interattiva con elemento SVG basato su D3.js (data-driven documents) e jQuery.js. Basato su JavaScript, NG-Circos può essere usato senza installare pacchetti aggiuntivi. Dopo aver scaricato NG-Circos, gli utenti possono riprodurre quasi tutti i grafici circolari disegnati da Circos con un browser web. Si noti che NG-Circos stesso non è un’applicazione web, ma è una libreria per costruire grafici interattivi di Circos in applicazioni web.

Implementazione della funzione image-download in NG-Circos

La funzione di download in NG-Circos è costruita utilizzando svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) del New York Times. NG-Circos ora supporta i formati SVG e PNG. Il formato immagine SVG permette agli utenti di estrarre immagini di alta qualità che possono essere ulteriormente utilizzate in Adobe Illustrator.

Elaborazione dei dati di input in NG-Circos

Forniamo uno script di elaborazione dei dati (scritto da python e shell) per elaborare i dati grezzi, permettendo agli utenti di trasformare facilmente i loro dati in formato JSON con parametri predefiniti per il modulo corrispondente. In particolare, i dati di input di NG-Circos possono essere generati dagli script python di supporto, o direttamente attraverso i formati di dati JSON ben documentati. Gli utenti possono integrare NG-Circos in un’applicazione web esistente basata su JavaScript che ha le sue strutture interne di dati JSON. Forniamo un esempio per ogni modulo per illustrare la struttura dei dati di input e tutti i passi necessari per ricreare quell’esempio (https://wlcb.oit.uci.edu/modules/).

Elaborazione dei dati GWAS in LocusZoom plot

Nella Figura 1F, abbiamo usato PLINK (13) per calcolare il valore r-square di popolazioni specifiche e per estrarre il tasso di ricombinazione dai dati Hapmap3 (14) per determinati SNPs.

Web browser supportati da NG-Circos

La velocità di esecuzione di NG-Circos dipende dalla potenza di calcolo dei browser e dall’hardware. NG-Circos ha superato il debugging e l’esame in tutti i principali browser internet tra cui Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari e Opera.

Risultati

Flusso di lavoro di NG-Circos

NG-Circos ha un flusso di lavoro altamente user-friendly. Ha tre passi principali per disegnare un grafico Circos interattivo: Il passo 1 include il disegno di cromosomi (o altri segmenti) come assi delle coordinate. La fase 2 prevede l’aggiunta di varie tracce di dati utilizzando i moduli pertinenti con un’alta flessibilità nelle scelte dei moduli (21 moduli sono attualmente implementati, Tabella supplementare S1). I dati di input di NG-Circos possono essere generati dagli script python di supporto, o direttamente attraverso i formati di dati JSON ben documentati. Per ogni modulo, forniamo un esempio che include i file dei dati di input e tutti i passi per ricreare quell’esempio (https://wlcb.oit.uci.edu/modules/). Infine, il passo 3 incorpora animazioni interattive, eventi del mouse (Tabella supplementare S2) e la progettazione di toolbox per elementi grafici. NG-Circos è altamente personalizzabile, permettendo agli utenti di regolare le impostazioni personali. Forniamo anche una serie di impostazioni predefinite attentamente valutate per ogni modulo e forniamo molte demo per rendere NG-Circos facile da usare. Inoltre, la capacità di NG-Circos può essere semplicemente ampliata includendo altri moduli funzionali nella fase 2.

NG-Circos fornisce scelte di moduli flessibili per diverse trame Circos

La versione attuale di NG-Circos consiste di 21 moduli (Tabella supplementare S1). La combinazione di moduli in NG-Circos permette agli utenti di costruire diversi tipi di trame Circos. Per esempio, NG-Circos può riprodurre complesse trame Circos pubblicate (15) combinando i moduli ARC, GENE, HEATMAP, LINK e WIG (Figura 1A). Non solo NG-Circos può riprodurre complesse trame Circos pubblicate, ma può anche rendere funzioni aggiuntive come la fornitura di popolari demo interattive delle trame Circos (ad esempio Lollipop, Wig e LocusZoom (16) trame) mostrate nella Figura 1B-F (15) (17) (18) (19), che non sono viste in altri strumenti. Inoltre, offriamo più demo nel sito web online (https://wlcb.oit.uci.edu/NG-Circos) per mostrare la potenza di questo strumento: gli utenti possono facilmente sostituire i dati demo con i loro dati per produrre i propri grafici. Tutte le figure possono essere scaricate in formato SVG e PNG, in cui il formato SVG rende agli utenti immagini di alta qualità che potrebbero essere ulteriormente utilizzate attraverso altre applicazioni come Adobe Illustrator. Nel complesso, NG-Circos offre agli utenti una grande flessibilità nelle scelte dei moduli e nei tipi di trama Circos.

Figura 1.

Demo di NG-Circos. (A) Complesso pubblicato Circos plot riprodotto usando NG-Circos; descrizioni dettagliate possono essere trovate in Akdemir et al. (15). (B) Demo che mostra le strutture dei geni utilizzando NG-Circos; i dati sono da Akdemir et al. (15). (C) Demo di Chord plot che mostra il gene IL-6-regolato cambiamenti in diverse cellule (17). (D) Demo di Lollipop plot progettato da NG-Circos; i dati sono da Schultheis et al. (18). (E) Dimostrazione del modulo COMPARE in NG-Circos. Mutazioni nel promotore PVT1 cambiare geni bersaglio enhancer. Parrucca trama mostra le modifiche H3K4me3 (blu) e H3K9me3 (rosso) (19). (F) Demo di LocusZoom trama progettato da NG-Circos. I nomi dei moduli delle tracce in (A-F) sono contrassegnati con testo rosso.

Figura 1.

Demo di NG-Circos. (A) Complessi tracciati pubblicati di Circos riprodotti usando NG-Circos; descrizioni dettagliate possono essere trovate in Akdemir et al. (15). (B) Demo che mostra le strutture dei geni utilizzando NG-Circos; i dati sono da Akdemir et al. (15). (C) Demo di Chord plot che mostra il gene IL-6-regolato cambiamenti in diverse cellule (17). (D) Demo di Lollipop plot progettato da NG-Circos; i dati sono da Schultheis et al. (18). (E) Dimostrazione del modulo COMPARE in NG-Circos. Mutazioni nel promotore PVT1 cambiare geni bersaglio enhancer. Parrucca trama mostra le modifiche H3K4me3 (blu) e H3K9me3 (rosso) (19). (F) Demo di LocusZoom trama progettato da NG-Circos. I nomi dei moduli dei tracciati in (A-F) sono marcati con testo rosso.

Caso di studio per l’esplorazione interattiva dei dati usando NG-Circos

Qui presentiamo un caso di studio per illustrare ulteriormente la potenza dell’esplorazione interattiva dei dati usando NG-Circos. In questo caso, gli utenti possono esplorare interattivamente i polimorfismi a singolo nucleotide (SNPs), le fusioni di geni e il loro impatto sulla struttura delle proteine nel cancro ai polmoni (Figura 2). Per esempio, gli eventi mouse over mostrano le frequenze SNP nel cancro del polmone dal Catalogue of Somatic Mutations in Cancer (COSMIC) database (Figura 2B) (20) e la struttura proteica tridimensionale (3D) di una fusione del gene EML4-ALK (Figura 2C) (21). Notevolmente, NG-Circos può anche reindirizzare elementi (come SNPs o fusioni di geni) a risorse esterne. Per esempio, cliccando su uno SNP, come la variante T790M di EGFR, si apre una nuova pagina web del database della Protein Data Bank (PDB), che mostra la struttura 3D di EGFR influenzata dalla variante T790M (Figura 2D; codice PDB: 2JIT) (22). Per riassumere, NG-Circos serve come un grande strumento per esplorare i dati genomici in modo interattivo in modo che gli utenti possono estrarre ulteriori informazioni passando il mouse e cliccando sulle trame.

Figura 2.

Usando NG-Circos per la visualizzazione integrativa dei dati e l’interpretazione. (A) Combinazione flessibile di vari moduli in NG-Circos per visualizzare più tipi di dati biologici. L’anello esterno rappresenta gli ideogrammi dei cromosomi. Spostandosi verso l’interno dall’anello esterno, le tracce dei dati rappresentano CNV somatiche, densità di varianti, mutazioni somatiche e fusioni di geni. Ad eccezione dei dati simulati di densità delle varianti, tutti i dati mostrati sono scaricati dal database COSMIC. (B) Passare il mouse per mostrare i dettagli di ogni SNP. (C) Passare il mouse sopra per mostrare i dettagli di ogni fusione genica e la sua struttura proteica 3D (in questo caso, la fusione del gene EML4-ALK). (D) Fare clic su uno SNP (in questo caso, la variante EGFR T790M) per aprire una nuova pagina web nel database PDB che visualizza la variante T790M-affetto struttura 3D di EGFR (codice PDB: 2JIT).

Figura 2.

Usando NG-Circos per la visualizzazione integrativa dei dati e interpretazione. (A) Combinazione flessibile di vari moduli in NG-Circos per visualizzare più tipi di dati biologici. L’anello esterno rappresenta gli ideogrammi dei cromosomi. Spostandosi verso l’interno dall’anello esterno, le tracce dei dati rappresentano CNV somatiche, densità di varianti, mutazioni somatiche e fusioni di geni. Ad eccezione dei dati simulati di densità delle varianti, tutti i dati mostrati sono scaricati dal database COSMIC. (B) Passare il mouse per mostrare i dettagli di ogni SNP. (C) Passare il mouse sopra per mostrare i dettagli di ogni fusione genica e la sua struttura proteica 3D (in questo caso, la fusione del gene EML4-ALK). (D) Fare clic su uno SNP (in questo caso, la variante EGFR T790M) per aprire una nuova pagina web nel database PDB che visualizza la struttura 3D della variante T790M di EGFR (codice PDB: 2JIT).

DISCUSSIONE

L’esplorazione interattiva dei dati attraverso diversi tipi di dati promuoverà certamente la visualizzazione e l’interpretazione dei dati di prossima generazione, con alcuni esempi di successo, come cBioPortal (23), visti nella ricerca sul cancro. I grafici Circos sono ampiamente utilizzati per visualizzare voluminosi dati genomici di nuova generazione, ma le implementazioni esistenti di Circos non generano output interattivi, il che ostacola la sua usabilità. Per affrontare questo problema, NG-Circos fornisce scelte di moduli flessibili per l’esplorazione interattiva dei dati e diversi tipi di trame Circos. Poiché ulteriori tipi di dati genomici sono generati in futuro, continueremo ad aggiornare ulteriori moduli funzionali per estendere la potenza di NG-Circos. Inoltre manterremo attivamente NG-Circos e risponderemo alle richieste degli utenti. Supportando diversi tipi di dati genomici in un’interfaccia web interattiva, NG-Circos, crediamo, migliorerà la ricerca genomica nel campo biomedico in futuro.

DATI SUPPLEMENTARI

I dati supplementari sono disponibili su NARGAB Online.

Riconoscimenti

Riconosciamo Tianyi Zang, Yadong Wang e i membri del laboratorio Li per le discussioni costruttive e il supporto.

FINANZIAMENTI

Nessun finanziamento esterno.

Dichiarazione di conflitto di interessi. Nessuno dichiarato.

Krzywinski
M.

,

Schein
J.

,

Birol
I.

,

Connors
J.

,

Gascoyne
R.

,

Horsman
D.

,

Jones
S.J.

,

Marra
M.A.
Circos: an information aesthetic for comparative genomics

.

Genome Res.
2009

;

19

:

1639

1645

.

Darzentas
N.
Circoletto: visualizzazione della similarità di sequenza con Circos

.

Bioinformatica

.

2010

;

26

:

2620

2621

.

Naquin
D.

,

d’Aubenton-Carafa
Y.

,

Thermes
C.

,

Silvain
M.
CIRCUS: un pacchetto per la visualizzazione Circos di variazioni strutturali del genoma da dati di sequenziamento paired-end e mate-pair

.

BMC Bioinformatica

.

2014

;

15

:

198

.

An
J.

,

Lai
J.

,

Sajjanhar
A.

,

Batra
J.

,

Wang
C.

,

Nelson
C.C.
J-Circos: an interactive Circos plotter

.

Bioinformatica

.

2015

;

31

:

1463

1465

.

Yu
Y.

,

Ouyang
Y.

,

Yao
W.
ShinyCircos: an R/Shiny application for interactive creation of Circos plot

.

Bioinformatica

.

2018

;

34

:

1229

1231

.

Zhang
H.

,

Meltzer
P.

,

Davis
S.
RCircos: an R package for Circos 2D track plots

.

BMC Bioinformatica

.

2013

;

14

:

244

.

Crabtree
J.

,

Agrawal
S.

,

Mahurkar
A.

,

Myers
G.S.

,

Rasko
D.A.

,

White
O.
Circleator: visualizzazione circolare flessibile di dati associati al genoma con BioPerl e SVG

.

Bioinformatica

.

2014

;

30

:

3125

3127

.

Hu
Y.

,

Yan
C.

,

Hsu
C.H.

,

Chen
Q.R.

,

Niu
K.

,

Komatsoulis
G.A.

,

Meerzaman
D.
Omiccircos: un pacchetto R semplice da usare per la visualizzazione circolare di dati multidimensionali Omics

.

Cancer Inform.
2014

;

13

:

13

20

.

Yin
T.

,

Cook
D.

,

Lawrence
M.
ggbio: an R package for extending the grammar of graphics for genomic data

.

Genome Biol.
2012

;

13

:

R77

.

Cui
Y.

,

Chen
X.

,

Luo
H.

,

Fan
Z.

,

Luo
J.

,

He
S.

,

Yue
H.

,

Zhang
P.

,

Chen
R.
BioCircos.js: una libreria interattiva Circos JavaScript per la visualizzazione di dati biologici su applicazioni web

.

Bioinformatica

.

2016

;

32

:

1740

1742

.

Juanillas
V.

,

Dereeper
A.

,

Beaume
N.

,

Droc
G.

,

Dizon
J.

,

Mendoza
J.R.

,

Perdon
J.P.

,

Mansueto
L.

,

Triplett
L.

,

Lang
J.

et al. .

Galassia del riso: una risorsa aperta per la scienza delle piante

.

Gigascience

.

2019

;

8

:

giz028

.

Nott
A.

,

Holtman
I.R.

,

Coufal
N.G.

,

Schlachetzki
J.C.M.

,

Yu
M.

,

Hu
R.

,

Han
C.Z.

,

Pena
M.

,

Xiao
J.

,

Wu
Y.

et al. .

Cellule cerebrali tipo specifico enhancer-promoter mappe interactome e associazione malattia-rischio

.

Scienza

.

2019

;

366

:

1134

1139

.

Purcell
S.

,

Neale
B.

,

Todd-Brown
K.

,

Thomas
L.

,

Ferreira
M.A.R.

,

Bender
D.

,

Maller
J.

,

Sklar
P.

,

De Bakker
P.I.W.

,

Daly
M.J.

et al. .

PLINK: un set di strumenti per l’associazione whole-genome e le analisi di linkage basate sulla popolazione

.

Am. J. Hum. Genet.
2007

;

81

:

559

575

.

Belmont
J.W.

,

Hardenbol
P.

,

Willis
T.D.

,

Yu
F.

,

Yang
H.

,

Ch’Ang
L.Y.

,

Huang
W.

,

Liu
B.

,

Shen
Y.

,

Tam
P.K.H.

e altri.

Il progetto internazionale HapMap

.

Natura

.

2003

;

426

:

789

796

.

Akdemir
K.C.

,

Jain
A.K.

,

Allton
K.

,

Aronow
B.

,

Xu
X.

,

Cooney
A.J.

,

Li
W.

,

Barton
M.C.
Genome-wide profiling reveals stimulus-specific functions of p53 during differentiation and DNA damage of human embryonic stem cells

.

Nucleic Acids Res.
2014

;

42

:

205

223

.

Pruim
R.J.

,

Welch
R.P.

,

Sanna
S.

,

Teslovich
T.M.

,

Chines
P.S.

,

Gliedt
T.P.

,

Boehnke
M.

,

Abecasis
G.R.

,

Willer
C.J.

,

Frishman
D.
LocusZoom: visualizzazione regionale dei risultati della scansione di associazione genome-wide

.

Bioinformatica

.

2011

;

26

:

2336

2337

.

Twohig
J.P.

,

Cardus Figueras
A.

,

Andrews
R.

,

Wiede
F.

,

Cossins
B.C.

,

Derrac Soria
A.

,

Lewis
M.J.

,

Townsend
M.J.

,

Millrine
D.

,

Li
J.

et al. .

L’attivazione delle cellule CD4 + T naïve sintonizza la segnalazione STAT1 per fornire risposte uniche alle citochine nelle cellule CD4 + T di memoria

.

Nat. Immunol.
2019

;

20

:

458

470

.

Schultheis
A.M.

,

Martelotto
L.G.

,

De Filippo
M.R.

,

Piscuglio
S.

,

Ng
C.K.Y.

,

Hussein
Y.R.

,

Reis-Filho
J.S.

,

Soslow
R.A.

,

Weigelt
B.
Spettro mutazionaleTP53 nei tumori endometrioidi e sierosi dell’endometrio

.

Int. J. Gynecol. Pathol.
2016

;

35

:

289

300

.

Cho
S.W.

,

Xu
J.

,

Sun
R.

,

Mumbach
M.R.

,

Carter
A.C.

,

Chen
Y.G.

,

Yost
K.E.

,

Kim
J.

,

He
J.

,

Nevins
S.A.

et al. .

Promoter del gene lncRNA PVT1 è un elemento di confine del DNA soppressore di tumori

.

Cell

.

2018

;

173

:

1398

1412

.

Forbes
S.A.

,

Beare
D.

,

Boutselakis
H.

,

Bamford
S.

,

Bindal
N.

,

Tate
J.

,

Cole
C.G.

,

Ward
S.

,

Dawson
E.

,

Ponting
L.

et al. .

COSMIC: genetica somatica del cancro ad alta risoluzione

.

Nucleic Acids Res.
2017

;

45

:

D777

D783

.

Wang
D.

,

Li
D.

,

Qin
G.

,

Zhang
W.

,

Ouyang
J.

,

Zhang
M.

,

Xie
L.
La caratterizzazione strutturale di geni e proteine di fusione tumorale

.

Comput. Math. Methods Med.
2015

;

2015

:

doi:10.1155/2015/912742

.

Yun
C.H.

,

Mengwasser
K.E.

,

Toms
A. V.

,

Woo
M.S.

,

Greulich
H.

,

Wong
K.K.

,

Meyerson
M.

,

Eck
M.J.
La mutazione T790M nella chinasi EGFR causa resistenza ai farmaci aumentando l’affinità per ATP

.

Proc. Natl. Acad. Sci. U.S.A.
2008

;

105

:

2070

2075

.

Gao
J.

,

Aksoy
B.A.

,

Dogrusoz
U.

,

Dresdner
G.

,

Gross
B.

,

Sumer
S.O.

,

Sun
Y.

,

Jacobsen
A.

,

Sinha
R.

,

Larsson
E.

et al. .

Analisi integrata della genomica complessa del cancro e dei profili clinici utilizzando il cBioPortal

.

Sci. Signal.
2013

;

6

:

pl1

.

Jiang
S.

,

Xie
Y.

,

He
Z.

,

Zhang
Y.

,

Zhao
Y.

,

Chen
L.

,

Zheng
Y.

,

Miao
Y.

,

Zuo
Z.

,

Ren
J.
m6ASNP: uno strumento per annotare le varianti genetiche per funzione m6A

.

Gigascience

.

2018

;

7

:

giy035

.

Mateo
L.

,

Guitart-Pla
O.

,

Pons
C.

,

Duran-Frigola
M.

,

Mosca
R.

,

Aloy
P.
Una visione panoramica dei genomi personali di cancro

.

Nucleic Acids Res.
2017

;

45

:

W195

W200

.

Teng
X.

,

Chen
X.

,

Xue
H.

,

Tang
Y.

,

Zhang
P.

,

Kang
Q.

,

Hao
Y.

,

Chen
R.

,

Zhao
Y.

,

He
S.
NPInter v4.0: un database integrato di interazioni ncRNA

.

Nucleic Acids Res.
2020

;

48

:

D160

D165

.

Note dell’autore

Gli autori desiderano che si sappia che, a loro avviso, i primi due autori devono essere considerati Joint First Authors.

© The Author(s) 2019. Published by Oxford University Press on behalf of NAR Genomics and Bioinformatics.
Questo è un articolo ad accesso aperto distribuito secondo i termini della Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/), che consente il riutilizzo non commerciale, la distribuzione e la riproduzione su qualsiasi supporto, a condizione che l’opera originale sia adeguatamente citata. Per il riutilizzo commerciale, si prega di contattare [email protected]

.

Lascia un commento