NG-Circos: Circos de nouă generație pentru vizualizarea și interpretarea datelor

Abstract

Ploturile Circos sunt utilizate pe scară largă pentru a afișa date genomice multidimensionale de nouă generație, dar implementările existente ale Circos nu sunt interactive și au un suport limitat al tipurilor de date. Aici, am dezvoltat Circos next-generation Circos (NG-Circos), un instrument flexibil de vizualizare a genomului circular bazat pe JavaScript pentru proiectarea de diagrame Circos foarte interactive, folosind 21 de module funcționale cu diferite tipuri de date. După cunoștințele noastre, NG-Circos este cel mai puternic software pentru a construi diagrame Circos interactive. Prin susținerea diverselor tipuri de date într-o interfață dinamică de browser, NG-Circos va accelera vizualizarea și interpretarea datelor de generație următoare, promovând astfel cercetarea reproductibilă în științele biomedicale și nu numai. NG-Circos este disponibil la https://wlcb.oit.uci.edu/NG-Circos și https://github.com/YaCui/NG-Circos.

INTRODUCERE

Vizualizarea volumelor din ce în ce mai mari de date biologice de generație următoare este esențială pentru interpretarea acestor date. Circos plots sunt reprezentări vizuale circulare bidimensionale care oferă o soluție cuprinzătoare pentru prezentarea și interpretarea datelor genomice multidimensionale. Circos (1), instrumentul predominant pentru realizarea de diagrame Circos, a fost utilizat în mod sălbatic pentru vizualizarea datelor biologice complexe în numeroase studii. Cu toate acestea, rezultatele lui Circos nu sunt interactive. Alte instrumente derivate din Circos, cum ar fi Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) sunt fie incapabile să producă diagrame Circos interactive într-un browser web, fie sunt limitate la anumite tipuri de date. Instrumentul dezvoltat anterior de noi, BioCircos.js (10), pare a fi singurul software publicat capabil să producă diagrame Circos interactive și a devenit instrumentul de ultimă generație în domeniu (11-12). Cu toate acestea, BioCircos.js (10) implementează doar nouă module funcționale, ceea ce îi limitează domeniul de aplicare pentru a efectua sarcini analitice suplimentare.

Pentru a aborda acest punct slab, am dezvoltat aici următoarea generație Circos (NG-Circos), un instrument de vizualizare a genomului circular bazat pe JavaScript care se extinde dincolo de cadrul BioCircos.js (10) pentru a integra și interpreta tipurile de date genomice prin intermediul graficelor Circos interactive. NG-Circos conține în prezent 21 de module, care permit diverse funcții care erau absente în alte instrumente (inclusiv BioCircos.js (10)). Prin susținerea diverselor tipuri de tipuri de date genomice într-o interfață interactivă de browser, NG-Circos va accelera vizualizarea și interpretarea datelor de generație următoare, promovând astfel cercetarea reproductibilă în științele biomedicale și nu numai.

MATERIALE ȘI METODE

Implementarea NG-Circos

NG-Circos este scris în JavaScript și generează grafice interactive cu element SVG pe baza D3.js (documente bazate pe date) și jQuery.js. Bazat pe JavaScript, NG-Circos poate fi utilizat fără a instala pachete suplimentare. După descărcarea NG-Circos, utilizatorii pot reproduce aproape toate graficele circulare desenate de Circos cu ajutorul unui browser web. Rețineți că NG-Circos în sine nu este o aplicație web, ci este o bibliotecă pentru a construi diagrame interactive Circos în aplicații web.

Implementarea funcției de descărcare a imaginilor în NG-Circos

Funcția de descărcare din NG-Circos este construită folosind svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) de la The New York Times. NG-Circos suportă acum formatele SVG și PNG. Formatul de imagine SVG permite utilizatorilor să extragă imagini de înaltă calitate care pot fi utilizate ulterior în Adobe Illustrator.

Procesarea datelor de intrare în NG-Circos

Furnizăm un script de procesare a datelor (scris de python și shell) pentru procesarea datelor brute, permițând utilizatorilor să își transforme cu ușurință datele în format JSON cu parametri impliciți pentru modulul corespunzător. În special, datele de intrare din NG-Circos pot fi generate fie de scripturile python de sprijin, fie direct prin intermediul formatelor de date JSON bine documentate. Utilizatorii pot integra NG-Circos într-o aplicație web existentă bazată pe JavaScript care are propriile structuri interne de date JSON. Furnizăm un exemplu pentru fiecare modul pentru a ilustra structura datelor de intrare și toți pașii necesari pentru a recrea exemplul respectiv (https://wlcb.oit.uci.edu/modules/).

Procesarea datelor GWAS în graficul LocusZoom

În Figura 1F, am utilizat PLINK (13) pentru a calcula valoarea r-pătrat a populațiilor specifice și pentru a extrage rata de recombinare din datele Hapmap3 (14) pentru SNP-urile specificate.

Browser-ele web suportate de NG-Circos

Viteza de rulare a NG-Circos depinde de puterea de calcul a browserelor și de hardware. NG-Circos a trecut de depanarea și examinarea în toate browserele de internet majore, inclusiv Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari și Opera.

REZULTATE

Fluxul de lucru al NG-Circos

NG-Circos are un flux de lucru foarte ușor de utilizat. Acesta are trei etape principale pentru a desena un grafic Circos interactiv: Pasul 1 include desenarea cromozomilor (sau a altor segmente) ca axe de coordonate. Pasul 2 implică adăugarea diferitelor piste de date utilizând modulele relevante, cu o flexibilitate ridicată în alegerea modulelor (21 de module sunt implementate în prezent, tabelul suplimentar S1). Datele de intrare ale NG-Circos pot fi generate fie de scripturile python de suport, fie direct prin intermediul formatelor de date JSON bine documentate. Pentru fiecare modul, furnizăm un exemplu care include fișierele de date de intrare și toți pașii pentru recrearea exemplului respectiv (https://wlcb.oit.uci.edu/modules/). În cele din urmă, etapa 3 încorporează animații interactive, evenimente de mouse (tabelul suplimentar S2) și proiectarea de cutii de instrumente pentru elemente grafice. NG-Circos este foarte ușor de personalizat, permițând utilizatorilor să ajusteze setările personale. De asemenea, punem la dispoziție un set de setări implicite atent evaluate pentru fiecare modul și furnizăm numeroase demonstrații pentru a face NG-Circos ușor de utilizat. În plus, capacitatea NG-Circos poate fi pur și simplu extinsă prin includerea mai multor module funcționale în etapa 2.

NG-Circos oferă opțiuni flexibile de module pentru diverse parcele Circos

Versiunea actuală a NG-Circos constă în 21 de module (tabelul suplimentar S1). Combinația de module din NG-Circos permite utilizatorilor să construiască diverse tipuri de diagrame Circos. De exemplu, NG-Circos poate reproduce diagrame Circos complexe publicate (15) prin combinarea modulelor ARC, GENE, HEATMAP, LINK și WIG (Figura 1A). NG-Circos nu numai că poate reproduce diagrame Circos complexe publicate, dar poate, de asemenea, să redea funcții suplimentare, cum ar fi furnizarea de demonstrații populare de diagrame Circos interactive (de exemplu, diagramele Lollipop, Wig și LocusZoom (16)), prezentate în Figura 1B-F (15) (17) (18) (19), care nu sunt văzute în alte instrumente. Mai mult, oferim mai multe demonstrații pe site-ul online (https://wlcb.oit.uci.edu/NG-Circos) pentru a arăta puterea acestui instrument: utilizatorii pot înlocui cu ușurință datele demonstrative cu datele lor pentru a produce propriile diagrame. Toate figurile pot fi descărcate în format SVG și PNG, în care formatul SVG redă utilizatorilor imagini de înaltă calitate care ar putea fi utilizate în continuare prin intermediul altor aplicații, cum ar fi Adobe Illustrator. În general, NG-Circos oferă utilizatorilor o mare flexibilitate în ceea ce privește alegerea modulelor și a tipurilor de diagrame Circos.

Figura 1.

Demo de NG-Circos. (A) Parcele Circos complexe publicate, reproduse folosind NG-Circos; descrieri detaliate pot fi găsite în Akdemir et al. (15). (B) Demonstrație care arată structurile genelor folosind NG-Circos; datele sunt din Akdemir et al. (15). (C) Demonstrație a graficului Chord care arată modificările genelor reglementate de IL-6 în diferite celule (17). (D) Demonstrație a graficului Lollipop conceput cu ajutorul NG-Circos; datele provin de la Schultheis et al. (18). (E) Demonstrație a modulului COMPARE din NG-Circos. Mutațiile în promotorul PVT1 schimbă genele țintă ale enhancerului. Graficul cu peruci arată modificările H3K4me3 (albastru) și H3K9me3 (roșu) (19). (F) Demonstrație a graficului LocusZoom conceput de NG-Circos. Denumirile modulelor de trasee din (A-F) sunt marcate cu text roșu.

Figura 1.

Demostrații ale NG-Circos. (A) Diagrame Circos complexe publicate, reproduse folosind NG-Circos; descrieri detaliate pot fi găsite în Akdemir et al. (15). (B) Demonstrație care arată structurile genelor folosind NG-Circos; datele sunt din Akdemir et al. (15). (C) Demonstrație a graficului Chord care arată modificările genelor reglementate de IL-6 în diferite celule (17). (D) Demonstrație a graficului Lollipop conceput cu ajutorul NG-Circos; datele provin de la Schultheis et al. (18). (E) Demonstrație a modulului COMPARE din NG-Circos. Mutațiile în promotorul PVT1 schimbă genele țintă ale enhancerului. Graficul cu peruci arată modificările H3K4me3 (albastru) și H3K9me3 (roșu) (19). (F) Demonstrație a graficului LocusZoom conceput de NG-Circos. Numele modulelor din pistele din (A-F) sunt marcate cu text roșu.

Studiu de caz pentru explorarea interactivă a datelor cu ajutorul NG-Circos

Aici prezentăm un studiu de caz pentru a ilustra în continuare puterea de explorare interactivă a datelor cu ajutorul NG-Circos. În acest caz, utilizatorii pot explora interactiv polimorfismele de un singur nucleotid (SNP) ale șoferilor, fuziunile de gene și impactul acestora asupra structurii proteice în cancerul pulmonar (Figura 2). De exemplu, evenimentele mouse over arată frecvențele SNP în cancerul pulmonar din baza de date Catalogue of Somatic Mutations in Cancer (COSMIC) (Figura 2B) (20) și structura proteică tridimensională (3D) a unei fuziuni genetice EML4-ALK (Figura 2C) (21). În mod remarcabil, NG-Circos poate, de asemenea, redirecționa elemente (cum ar fi SNP-urile sau fuziunile de gene) către resurse externe. De exemplu, făcând clic pe un SNP, cum ar fi varianta EGFR T790M, se deschide o nouă pagină web a bazei de date Protein Data Bank (PDB), care afișează structura 3D a EGFR afectată de varianta T790M (Figura 2D; cod PDB: 2JIT) (22). În concluzie, NG-Circos servește ca un instrument excelent pentru a explora datele genomice în mod interactiv, astfel încât utilizatorii pot extrage informații suplimentare prin trecerea mouse-ului și prin clic pe diagrame.

Figura 2.

Utilizarea NG-Circos pentru vizualizarea și interpretarea integrativă a datelor. (A) Combinarea flexibilă a diferitelor module din NG-Circos pentru a vizualiza mai multe tipuri de date biologice. Inelul exterior reprezintă ideograme de cromozomi. Plecând spre interior de la inelul exterior, pistele de date reprezintă CNV somatice, densitatea variantelor, mutațiile somatice și fuziunile de gene. Cu excepția datelor simulate privind densitatea variantelor, toate datele prezentate sunt descărcate din baza de date COSMIC. (B) Treceți mouse-ul peste pentru a afișa detaliile fiecărui SNP. (C) Treceți mouse-ul peste pentru a afișa detaliile fiecărei fuziuni genetice și structura proteică 3D a acesteia (în acest caz, fuziunea genetică EML4-ALK). (D) Faceți clic pe un SNP (în acest caz, varianta EGFR T790M) pentru a deschide o nouă pagină web în baza de date PDB care afișează structura 3D a EGFR afectată de varianta T790M (cod PDB: 2JIT).

Figura 2.

Utilizarea NG-Circos pentru vizualizarea și interpretarea integrativă a datelor. (A) Combinarea flexibilă a diferitelor module din NG-Circos pentru a vizualiza mai multe tipuri de date biologice. Inelul exterior reprezintă ideograme de cromozomi. Plecând spre interior de la inelul exterior, pistele de date reprezintă CNV somatice, densitatea variantelor, mutațiile somatice și fuziunile de gene. Cu excepția datelor simulate privind densitatea variantelor, toate datele prezentate sunt descărcate din baza de date COSMIC. (B) Treceți mouse-ul peste pentru a afișa detaliile fiecărui SNP. (C) Treceți mouse-ul peste pentru a afișa detaliile fiecărei fuziuni genetice și structura proteică 3D a acesteia (în acest caz, fuziunea genetică EML4-ALK). (D) Faceți clic pe un SNP (în acest caz, varianta EGFR T790M) pentru a deschide o nouă pagină web în baza de date PDB care afișează structura 3D a EGFR afectată de varianta T790M (cod PDB: 2JIT).

DISCUȚII

Explorarea interactivă a datelor în diverse tipuri de date va promova cu siguranță vizualizarea și interpretarea datelor de generație următoare, cu unele exemple de succes, cum ar fi cBioPortal (23), observate în cercetarea în domeniul cancerului. Diagramele Circos sunt utilizate pe scară largă pentru a afișa voluminoasele date genomice de generație următoare, dar implementările existente ale Circos nu generează ieșiri interactive, ceea ce îngreunează capacitatea sa de utilizare. Pentru a aborda această problemă, NG-Circos oferă opțiuni flexibile de module pentru explorarea interactivă a datelor și diverse tipuri de diagrame Circos. Pe măsură ce în viitor vor fi generate tipuri suplimentare de date genomice, vom continua să actualizăm module funcționale suplimentare pentru a extinde puterea NG-Circos. De asemenea, vom întreține în mod activ NG-Circos și vom răspunde la solicitările utilizatorilor. Prin susținerea diverselor tipuri de date genomice într-o interfață web interactivă, NG-Circos, credem, va îmbunătăți în viitor cercetarea genomică în domeniul biomedical.

Date suplimentare

Datele suplimentare sunt disponibile la NARGAB Online.

RECUNOȘTINȚE

Recunoaștem recunoștința lui Tianyi Zang, Yadong Wang și membrilor laboratorului Li pentru discuții constructive și sprijin.

FONDUCERE

Nici o finanțare externă.

Declarație privind conflictul de interese. Niciunul declarat.

Krzywinski
M.

,

Schein
J.

,

Birol
I.

,

Connors
J.

,

Gascoyne
R.

,

Horsman
D.

,

Jones
S.J.

,

Marra
M.A.
Circos: an information aesthetic for comparative genomics

.

Genome Res.
2009

;

19

:

1639

1645

.

Darzentas
N.
Circoletto: vizualizarea similarității de secvență cu Circos

.

Bioinformatică

.

2010

;

26

:

2620

2621

.

Naquin
D.

,

d’Aubenton-Carafa
Y.

,

Thermes
C.

,

Silvain
M.
CIRCUS: a package for Circos display of structural genome variations from paired-end and mate-pair sequencing data

.

BMC Bioinformatics

.

2014

;

15

:

198

.

An
J.

,

Lai
J.

,

Sajjanhar
A.

,

Batra
J.

,

Wang
C.

,

Nelson
C.C.
J-Circos: un plotter interactiv Circos

.

Bioinformatică

.

2015

;

31

:

1463

1465

.

Yu
Y.

,

Ouyang
Y.

,

Yao
W.
ShinyCircos: an R/Shiny application for interactive creation of Circos plot

.

Bioinformatică

.

2018

;

34

:

1229

1231

.

Zhang
H.

,

Meltzer
P.

,

Davis
S.
RCircos: an R package for Circos 2D track plots

.

BMC Bioinformatics

.

2013

;

14

:

244

.

Crabtree
J.

,

Agrawal
S.

,

Mahurkar
A.

,

Myers
G.S.

,

Rasko
D.A.

,

Rasko
D.A.

,

White
O.
Circleator: vizualizare circulară flexibilă a datelor asociate genomului cu BioPerl și SVG

.

Bioinformatică

.

2014

;

30

:

3125

3127

.

Hu
Y.

,

Yan
C.

,

Hsu
C.H.

,

Chen
Q.R.

,

Niu
K.

,

Komatsoulis
G.A.

,

Meerzaman
D.
Omiccircos: a simple-to-use R package for the circular visualization of multidimensional Omics data

.

Cancer Inform.
2014

;

13

:

13

20

.

Yin
T.

,

Cook
D.

,

Lawrence
M.
ggbio: an R package for extending the grammar of graphics for genomic data

.

Genome Biol.
2012

;

13

:

R77

.

Cui
Y.

,

Chen
X.

,

Luo
H.

,

Fan
Z.

,

Luo
J.

,

He
S.

,

Yue
H.

,

Zhang
P.

,

Chen
R.
BioCircos.js: o bibliotecă interactivă Circos JavaScript pentru vizualizarea datelor biologice în aplicațiile web

.

Bioinformatică

.

2016

;

32

:

1740

1742

.

Juanillas
V.

,

Dereeper
A.

,

Beaume
N.

,

Droc
G.

,

Dizon
J.

,

Dizon
J.

,

Mendoza
J.R.

,

Perdon
J.P.

,

Mansueto
L.

,

Triplett
L.

,

Lang
J.

et al.

Rice galaxy: an open resource for plant science

.

Gigascience

.

2019

;

8

:

giz028

.

Nott
A.

,

Holtman
I.R.

,

Coufal
N.G.

,

Schlachetzki
J.C.M.

,

Yu
M.

,

Hu
R.

,

Han
C.Z.

,

Pena
M.

,

Xiao
J.

,

Wu
Y.

et al.

Hărți ale interactomului enhancer-promoter specific tipului de celule cerebrale și asocierea boală-risc

.

Science

.

2019

;

366

:

1134

1139

.

Purcell
S.

,

Neale
B.

,

Todd-Brown
K.

,

Thomas
L.

,

Ferreira
M.A.R.

,

Bender
D.

,

Maller
J.

,

Sklar
P.

,

De Bakker
P.I.W.

,

Daly
M.J.

et alii .

PLINK: un set de instrumente pentru analize de asociere a întregului genom și analize de linkage bazate pe populație

.

Am. J. Hum. Genet.
2007

;

81

:

559

575

.

Belmont
J.W.

,

Hardenbol
P.

,

Willis
T.D.

,

Yu
F.

,

Yang
H.

,

Ch’Ang
L.Y.

,

Huang
W.

,

Huang
W.

,

Liu
B.

,

Shen
Y.

,

Tam
P.K.H.

et al.

Proiectul internațional HapMap

.

Nature

.

2003

;

426

:

789

796

.

Akdemir
K.C.

,

Jain
A.K.

,

Allton
K.

,

Aronow
B.

,

Xu
X.

,

Cooney
A.

,

A.J.

,

Li
W.

,

Barton
M.C.
Genome-wide profiling reveals stimulus-specific functions of p53 during differentiation and DNA damage of human embryonic stem cells

.

Nucleic Acids Res.
2014

;

42

:

205

223

.

Pruim
R.J.

,

Welch
R.P.

,

Sanna
S.

,

Teslovici
T.M.

,

Chines
P.S.

,

Gliedt
T.P.

,

Boehnke
M.

,

Abecasis
G.R.

,

Willer
C.J.

,

Frishman
D.
LocusZoom: vizualizarea regională a rezultatelor scanării asociațiilor la nivel de genom

.

Bioinformatică

.

2011

;

26

:

2336

2337

.

Twohig
J.P.

,

Cardus Figueras
A.

,

Andrews
R.

,

Wiede
F.

,

Cossins
B.C.

,

Derrac Soria
A.

,

Lewis
M.J.

,

Townsend
M.J.

,

Millrine
D.

,

Li
J.

et alii .

Activarea celulelor CD4 + T naive reordonează semnalizarea STAT1 pentru a furniza răspunsuri unice de citokine în celulele CD4 + T de memorie

.

Nat. Immunol.
2019

;

20

:

458

470

.

Schultheis
A.M.

,

Martelotto
L.G.

,

De Filippo
M.R.

,

Piscuglio
S.

,

Ng
C.K.Y.

,

Ng
C.K.Y.

,

Hussein
Y.R.

,

Reis-Filho
J.S.

,

Soslow
R.A.

,

Weigelt
B.
Spectrul mutaționalTP53 în cancerele endometriale endometrioide și seroase

.

Int. J. Gynecol. Pathol.
2016

;

35

:

289

300

.

Cho
S.W.

,

Xu
J.

,

Sun
R.

,

Mumbach
M.R.

,

Carter
A.C.

,

Chen
Y.G.

,

Yost
K.E.

,

Kim
J.

,

He
J.

,

Nevins
S.A.

et al.

Promoterul genei lncRNA PVT1 este un element de delimitare a ADN-ului supresor de tumori

.

Celula

.

2018

;

173

:

1398

1412

.

Forbes
S.A.

,

Beare
D.

,

Boutselakis
H.

,

Bamford
S.

,

Bindal
N.

,

Tate
J.

,

Cole
C.G.

,

Cole
C.G.

.

,

Ward
S.

,

Dawson
E.

,

Ponting
L.

et alii .

COSMIC: genetica somatică a cancerului la înaltă rezoluție

.

Nucleic Acids Res.
2017

;

45

:

D777

D783

.

Wang
D.

,

Li
D.

,

Qin
G.

,

Zhang
W.

,

Ouyang
J.

,

Zhang
M.

,

Xie
L.
Caracterizarea structurală a genelor și proteinelor de fuziune tumorală

.

Comput. Math. Methods Med.
2015

;

2015

:

doi:10.1155/2015/912742

.

Yun
C.H.

,

Mengwasser
K.E.

,

Toms
A. V.

,

Woo
M.S.

,

Greulich
H.

,

Wong
K.K.

,

Meyerson
M.

,

Eck
M.J.
Mutația T790M în EGFR kinaza determină rezistența la medicamente prin creșterea afinității pentru ATP

.

Proc. Natl. Acad. Sci. U.S.A.
2008

;

105

:

2070

2075

.

Gao
J.

,

Aksoy
B.A.

,

Dogrusoz
U.

,

Dresdner
G.

,

Gross
B.

,

Gross
B.

,

Sumer
S.O.

,

Sun
Y.

,

Jacobsen
A.

,

Sinha
R.

,

Larsson
E.

și alții .

Analiza integrată a genomicii complexe a cancerului și a profilurilor clinice folosind cBioPortal

.

Sci. Signal.
2013

;

6

:

pl1

.

Jiang
S.

,

Xie
Y.

,

He
Z.

,

Zhang
Y.

,

Zhao
Y.

,

Chen
L.

,

Zheng
Y.

,

Miao
Y.

,

Zuo
Z.

,

Ren
J.
m6ASNP: un instrument pentru adnotarea variantelor genetice în funcție de funcția m6A

.

Gigascience

.

2018

;

7

:

giy035

.

Mateo
L.

,

Ghiță-Pla
O.

,

Pons
C.

,

Duran-Frigola
M.

,

Mosca
R.

,

Aloy
P.
O vedere PanorOmică a genomurilor personale ale cancerului

.

Nucleic Acids Res.
2017

;

45

:

W195

W200

.

Teng
X.

,

Chen
X.

,

Xue
H.

,

Tang
Y.

,

Zhang
P.

,

Kang
Q.

,

Kang
Q.

,

Hao
Y.

,

Chen
R.

,

Zhao
Y.

,

He
S.
NPInter v4.0: an integrated database of ncRNA interactions

.

Nucleic Acids Res.
2020

;

48

:

D160

D165

.

Notele autorului

Autorii doresc să se știe că, în opinia lor, primii doi autori ar trebui să fie considerați primii doi autori în comun.

© The Author(s) 2019. Publicat de Oxford University Press în numele NAR Genomics and Bioinformatics.
Acest articol este un articol cu acces liber distribuit în conformitate cu termenii Licenței Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/), care permite reutilizarea, distribuirea și reproducerea necomercială pe orice suport, cu condiția ca lucrarea originală să fie citată în mod corespunzător. Pentru reutilizare comercială, vă rugăm să contactați [email protected]

.

Lasă un comentariu