Abstract
I tracciati Circos sono ampiamente utilizzati per visualizzare dati genomici multidimensionali di nuova generazione, ma le implementazioni esistenti di Circos non sono interattive e supportano in modo limitato i tipi di dati. Qui, abbiamo sviluppato Circos di nuova generazione (NG-Circos), uno strumento flessibile di visualizzazione del genoma circolare basato su JavaScript per la progettazione di trame Circos altamente interattive utilizzando 21 moduli funzionali con vari tipi di dati. A nostra conoscenza, NG-Circos è il software più potente per costruire grafici Circos interattivi. Supportando diversi tipi di dati in un’interfaccia browser dinamica, NG-Circos accelererà la visualizzazione e l’interpretazione dei dati di prossima generazione, promuovendo così la ricerca riproducibile nelle scienze biomediche e oltre. NG-Circos è disponibile a https://wlcb.oit.uci.edu/NG-Circos e https://github.com/YaCui/NG-Circos.
INTRODUZIONE
La visualizzazione di volumi crescenti di dati biologici di prossima generazione è fondamentale per l’interpretazione di tali dati. I grafici Circos sono rappresentazioni visive circolari bidimensionali che forniscono una soluzione completa per la presentazione e l’interpretazione dei dati genomici multidimensionali. Circos (1), lo strumento predominante per fare i grafici Circos, è stato usato selvaggiamente per la visualizzazione di dati biologici complessi in molti studi. Tuttavia, gli output di Circos non sono interattivi. Altri strumenti derivati da Circos, come Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) sono incapaci di produrre grafici Circos interattivi in un browser web o sono limitati a specifici tipi di dati. Il nostro precedente strumento sviluppato, BioCircos.js (10), sembra essere l’unico software pubblicato in grado di produrre grafici Circos interattivi ed è diventato lo strumento all’avanguardia nel campo (11-12). Tuttavia, BioCircos.js (10) implementa solo nove moduli funzionali, limitando la sua portata per eseguire ulteriori compiti analitici.
Per affrontare questa debolezza, qui abbiamo sviluppato Circos di nuova generazione (NG-Circos), uno strumento di visualizzazione del genoma circolare basato su JavaScript che si estende oltre la struttura di BioCircos.js (10) per integrare e interpretare i tipi di dati genomici attraverso trame Circos interattivo. NG-Circos contiene attualmente 21 moduli, che consentono varie funzioni che erano assenti in altri strumenti (compreso BioCircos.js (10)). Supportando diversi tipi di dati genomici in un’interfaccia browser interattiva, NG-Circos accelererà la visualizzazione e l’interpretazione dei dati di prossima generazione, promuovendo così la ricerca riproducibile nelle scienze biomediche e oltre.
MATERIALI E METODI
Implementazione di NG-Circos
NG-Circos è scritto in JavaScript e genera grafica interattiva con elemento SVG basato su D3.js (data-driven documents) e jQuery.js. Basato su JavaScript, NG-Circos può essere usato senza installare pacchetti aggiuntivi. Dopo aver scaricato NG-Circos, gli utenti possono riprodurre quasi tutti i grafici circolari disegnati da Circos con un browser web. Si noti che NG-Circos stesso non è un’applicazione web, ma è una libreria per costruire grafici interattivi di Circos in applicazioni web.
Implementazione della funzione image-download in NG-Circos
La funzione di download in NG-Circos è costruita utilizzando svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) del New York Times. NG-Circos ora supporta i formati SVG e PNG. Il formato immagine SVG permette agli utenti di estrarre immagini di alta qualità che possono essere ulteriormente utilizzate in Adobe Illustrator.
Elaborazione dei dati di input in NG-Circos
Forniamo uno script di elaborazione dei dati (scritto da python e shell) per elaborare i dati grezzi, permettendo agli utenti di trasformare facilmente i loro dati in formato JSON con parametri predefiniti per il modulo corrispondente. In particolare, i dati di input di NG-Circos possono essere generati dagli script python di supporto, o direttamente attraverso i formati di dati JSON ben documentati. Gli utenti possono integrare NG-Circos in un’applicazione web esistente basata su JavaScript che ha le sue strutture interne di dati JSON. Forniamo un esempio per ogni modulo per illustrare la struttura dei dati di input e tutti i passi necessari per ricreare quell’esempio (https://wlcb.oit.uci.edu/modules/).
Elaborazione dei dati GWAS in LocusZoom plot
Nella Figura 1F, abbiamo usato PLINK (13) per calcolare il valore r-square di popolazioni specifiche e per estrarre il tasso di ricombinazione dai dati Hapmap3 (14) per determinati SNPs.
Web browser supportati da NG-Circos
La velocità di esecuzione di NG-Circos dipende dalla potenza di calcolo dei browser e dall’hardware. NG-Circos ha superato il debugging e l’esame in tutti i principali browser internet tra cui Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari e Opera.
Risultati
Flusso di lavoro di NG-Circos
NG-Circos ha un flusso di lavoro altamente user-friendly. Ha tre passi principali per disegnare un grafico Circos interattivo: Il passo 1 include il disegno di cromosomi (o altri segmenti) come assi delle coordinate. La fase 2 prevede l’aggiunta di varie tracce di dati utilizzando i moduli pertinenti con un’alta flessibilità nelle scelte dei moduli (21 moduli sono attualmente implementati, Tabella supplementare S1). I dati di input di NG-Circos possono essere generati dagli script python di supporto, o direttamente attraverso i formati di dati JSON ben documentati. Per ogni modulo, forniamo un esempio che include i file dei dati di input e tutti i passi per ricreare quell’esempio (https://wlcb.oit.uci.edu/modules/). Infine, il passo 3 incorpora animazioni interattive, eventi del mouse (Tabella supplementare S2) e la progettazione di toolbox per elementi grafici. NG-Circos è altamente personalizzabile, permettendo agli utenti di regolare le impostazioni personali. Forniamo anche una serie di impostazioni predefinite attentamente valutate per ogni modulo e forniamo molte demo per rendere NG-Circos facile da usare. Inoltre, la capacità di NG-Circos può essere semplicemente ampliata includendo altri moduli funzionali nella fase 2.
NG-Circos fornisce scelte di moduli flessibili per diverse trame Circos
La versione attuale di NG-Circos consiste di 21 moduli (Tabella supplementare S1). La combinazione di moduli in NG-Circos permette agli utenti di costruire diversi tipi di trame Circos. Per esempio, NG-Circos può riprodurre complesse trame Circos pubblicate (15) combinando i moduli ARC, GENE, HEATMAP, LINK e WIG (Figura 1A). Non solo NG-Circos può riprodurre complesse trame Circos pubblicate, ma può anche rendere funzioni aggiuntive come la fornitura di popolari demo interattive delle trame Circos (ad esempio Lollipop, Wig e LocusZoom (16) trame) mostrate nella Figura 1B-F (15) (17) (18) (19), che non sono viste in altri strumenti. Inoltre, offriamo più demo nel sito web online (https://wlcb.oit.uci.edu/NG-Circos) per mostrare la potenza di questo strumento: gli utenti possono facilmente sostituire i dati demo con i loro dati per produrre i propri grafici. Tutte le figure possono essere scaricate in formato SVG e PNG, in cui il formato SVG rende agli utenti immagini di alta qualità che potrebbero essere ulteriormente utilizzate attraverso altre applicazioni come Adobe Illustrator. Nel complesso, NG-Circos offre agli utenti una grande flessibilità nelle scelte dei moduli e nei tipi di trama Circos.
Demo di NG-Circos. (A) Complesso pubblicato Circos plot riprodotto usando NG-Circos; descrizioni dettagliate possono essere trovate in Akdemir et al. (15). (B) Demo che mostra le strutture dei geni utilizzando NG-Circos; i dati sono da Akdemir et al. (15). (C) Demo di Chord plot che mostra il gene IL-6-regolato cambiamenti in diverse cellule (17). (D) Demo di Lollipop plot progettato da NG-Circos; i dati sono da Schultheis et al. (18). (E) Dimostrazione del modulo COMPARE in NG-Circos. Mutazioni nel promotore PVT1 cambiare geni bersaglio enhancer. Parrucca trama mostra le modifiche H3K4me3 (blu) e H3K9me3 (rosso) (19). (F) Demo di LocusZoom trama progettato da NG-Circos. I nomi dei moduli delle tracce in (A-F) sono contrassegnati con testo rosso.
Demo di NG-Circos. (A) Complessi tracciati pubblicati di Circos riprodotti usando NG-Circos; descrizioni dettagliate possono essere trovate in Akdemir et al. (15). (B) Demo che mostra le strutture dei geni utilizzando NG-Circos; i dati sono da Akdemir et al. (15). (C) Demo di Chord plot che mostra il gene IL-6-regolato cambiamenti in diverse cellule (17). (D) Demo di Lollipop plot progettato da NG-Circos; i dati sono da Schultheis et al. (18). (E) Dimostrazione del modulo COMPARE in NG-Circos. Mutazioni nel promotore PVT1 cambiare geni bersaglio enhancer. Parrucca trama mostra le modifiche H3K4me3 (blu) e H3K9me3 (rosso) (19). (F) Demo di LocusZoom trama progettato da NG-Circos. I nomi dei moduli dei tracciati in (A-F) sono marcati con testo rosso.
Caso di studio per l’esplorazione interattiva dei dati usando NG-Circos
Qui presentiamo un caso di studio per illustrare ulteriormente la potenza dell’esplorazione interattiva dei dati usando NG-Circos. In questo caso, gli utenti possono esplorare interattivamente i polimorfismi a singolo nucleotide (SNPs), le fusioni di geni e il loro impatto sulla struttura delle proteine nel cancro ai polmoni (Figura 2). Per esempio, gli eventi mouse over mostrano le frequenze SNP nel cancro del polmone dal Catalogue of Somatic Mutations in Cancer (COSMIC) database (Figura 2B) (20) e la struttura proteica tridimensionale (3D) di una fusione del gene EML4-ALK (Figura 2C) (21). Notevolmente, NG-Circos può anche reindirizzare elementi (come SNPs o fusioni di geni) a risorse esterne. Per esempio, cliccando su uno SNP, come la variante T790M di EGFR, si apre una nuova pagina web del database della Protein Data Bank (PDB), che mostra la struttura 3D di EGFR influenzata dalla variante T790M (Figura 2D; codice PDB: 2JIT) (22). Per riassumere, NG-Circos serve come un grande strumento per esplorare i dati genomici in modo interattivo in modo che gli utenti possono estrarre ulteriori informazioni passando il mouse e cliccando sulle trame.
Usando NG-Circos per la visualizzazione integrativa dei dati e l’interpretazione. (A) Combinazione flessibile di vari moduli in NG-Circos per visualizzare più tipi di dati biologici. L’anello esterno rappresenta gli ideogrammi dei cromosomi. Spostandosi verso l’interno dall’anello esterno, le tracce dei dati rappresentano CNV somatiche, densità di varianti, mutazioni somatiche e fusioni di geni. Ad eccezione dei dati simulati di densità delle varianti, tutti i dati mostrati sono scaricati dal database COSMIC. (B) Passare il mouse per mostrare i dettagli di ogni SNP. (C) Passare il mouse sopra per mostrare i dettagli di ogni fusione genica e la sua struttura proteica 3D (in questo caso, la fusione del gene EML4-ALK). (D) Fare clic su uno SNP (in questo caso, la variante EGFR T790M) per aprire una nuova pagina web nel database PDB che visualizza la variante T790M-affetto struttura 3D di EGFR (codice PDB: 2JIT).
Usando NG-Circos per la visualizzazione integrativa dei dati e interpretazione. (A) Combinazione flessibile di vari moduli in NG-Circos per visualizzare più tipi di dati biologici. L’anello esterno rappresenta gli ideogrammi dei cromosomi. Spostandosi verso l’interno dall’anello esterno, le tracce dei dati rappresentano CNV somatiche, densità di varianti, mutazioni somatiche e fusioni di geni. Ad eccezione dei dati simulati di densità delle varianti, tutti i dati mostrati sono scaricati dal database COSMIC. (B) Passare il mouse per mostrare i dettagli di ogni SNP. (C) Passare il mouse sopra per mostrare i dettagli di ogni fusione genica e la sua struttura proteica 3D (in questo caso, la fusione del gene EML4-ALK). (D) Fare clic su uno SNP (in questo caso, la variante EGFR T790M) per aprire una nuova pagina web nel database PDB che visualizza la struttura 3D della variante T790M di EGFR (codice PDB: 2JIT).
DISCUSSIONE
L’esplorazione interattiva dei dati attraverso diversi tipi di dati promuoverà certamente la visualizzazione e l’interpretazione dei dati di prossima generazione, con alcuni esempi di successo, come cBioPortal (23), visti nella ricerca sul cancro. I grafici Circos sono ampiamente utilizzati per visualizzare voluminosi dati genomici di nuova generazione, ma le implementazioni esistenti di Circos non generano output interattivi, il che ostacola la sua usabilità. Per affrontare questo problema, NG-Circos fornisce scelte di moduli flessibili per l’esplorazione interattiva dei dati e diversi tipi di trame Circos. Poiché ulteriori tipi di dati genomici sono generati in futuro, continueremo ad aggiornare ulteriori moduli funzionali per estendere la potenza di NG-Circos. Inoltre manterremo attivamente NG-Circos e risponderemo alle richieste degli utenti. Supportando diversi tipi di dati genomici in un’interfaccia web interattiva, NG-Circos, crediamo, migliorerà la ricerca genomica nel campo biomedico in futuro.
DATI SUPPLEMENTARI
I dati supplementari sono disponibili su NARGAB Online.
Riconoscimenti
Riconosciamo Tianyi Zang, Yadong Wang e i membri del laboratorio Li per le discussioni costruttive e il supporto.
FINANZIAMENTI
Nessun finanziamento esterno.
Dichiarazione di conflitto di interessi. Nessuno dichiarato.
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
.
;
:
–
.
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
,
,
,
e altri.
.
.
;
:
–
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
Note dell’autore
Gli autori desiderano che si sappia che, a loro avviso, i primi due autori devono essere considerati Joint First Authors.
.