Abstract
Ploturile Circos sunt utilizate pe scară largă pentru a afișa date genomice multidimensionale de nouă generație, dar implementările existente ale Circos nu sunt interactive și au un suport limitat al tipurilor de date. Aici, am dezvoltat Circos next-generation Circos (NG-Circos), un instrument flexibil de vizualizare a genomului circular bazat pe JavaScript pentru proiectarea de diagrame Circos foarte interactive, folosind 21 de module funcționale cu diferite tipuri de date. După cunoștințele noastre, NG-Circos este cel mai puternic software pentru a construi diagrame Circos interactive. Prin susținerea diverselor tipuri de date într-o interfață dinamică de browser, NG-Circos va accelera vizualizarea și interpretarea datelor de generație următoare, promovând astfel cercetarea reproductibilă în științele biomedicale și nu numai. NG-Circos este disponibil la https://wlcb.oit.uci.edu/NG-Circos și https://github.com/YaCui/NG-Circos.
INTRODUCERE
Vizualizarea volumelor din ce în ce mai mari de date biologice de generație următoare este esențială pentru interpretarea acestor date. Circos plots sunt reprezentări vizuale circulare bidimensionale care oferă o soluție cuprinzătoare pentru prezentarea și interpretarea datelor genomice multidimensionale. Circos (1), instrumentul predominant pentru realizarea de diagrame Circos, a fost utilizat în mod sălbatic pentru vizualizarea datelor biologice complexe în numeroase studii. Cu toate acestea, rezultatele lui Circos nu sunt interactive. Alte instrumente derivate din Circos, cum ar fi Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) sunt fie incapabile să producă diagrame Circos interactive într-un browser web, fie sunt limitate la anumite tipuri de date. Instrumentul dezvoltat anterior de noi, BioCircos.js (10), pare a fi singurul software publicat capabil să producă diagrame Circos interactive și a devenit instrumentul de ultimă generație în domeniu (11-12). Cu toate acestea, BioCircos.js (10) implementează doar nouă module funcționale, ceea ce îi limitează domeniul de aplicare pentru a efectua sarcini analitice suplimentare.
Pentru a aborda acest punct slab, am dezvoltat aici următoarea generație Circos (NG-Circos), un instrument de vizualizare a genomului circular bazat pe JavaScript care se extinde dincolo de cadrul BioCircos.js (10) pentru a integra și interpreta tipurile de date genomice prin intermediul graficelor Circos interactive. NG-Circos conține în prezent 21 de module, care permit diverse funcții care erau absente în alte instrumente (inclusiv BioCircos.js (10)). Prin susținerea diverselor tipuri de tipuri de date genomice într-o interfață interactivă de browser, NG-Circos va accelera vizualizarea și interpretarea datelor de generație următoare, promovând astfel cercetarea reproductibilă în științele biomedicale și nu numai.
MATERIALE ȘI METODE
Implementarea NG-Circos
NG-Circos este scris în JavaScript și generează grafice interactive cu element SVG pe baza D3.js (documente bazate pe date) și jQuery.js. Bazat pe JavaScript, NG-Circos poate fi utilizat fără a instala pachete suplimentare. După descărcarea NG-Circos, utilizatorii pot reproduce aproape toate graficele circulare desenate de Circos cu ajutorul unui browser web. Rețineți că NG-Circos în sine nu este o aplicație web, ci este o bibliotecă pentru a construi diagrame interactive Circos în aplicații web.
Implementarea funcției de descărcare a imaginilor în NG-Circos
Funcția de descărcare din NG-Circos este construită folosind svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) de la The New York Times. NG-Circos suportă acum formatele SVG și PNG. Formatul de imagine SVG permite utilizatorilor să extragă imagini de înaltă calitate care pot fi utilizate ulterior în Adobe Illustrator.
Procesarea datelor de intrare în NG-Circos
Furnizăm un script de procesare a datelor (scris de python și shell) pentru procesarea datelor brute, permițând utilizatorilor să își transforme cu ușurință datele în format JSON cu parametri impliciți pentru modulul corespunzător. În special, datele de intrare din NG-Circos pot fi generate fie de scripturile python de sprijin, fie direct prin intermediul formatelor de date JSON bine documentate. Utilizatorii pot integra NG-Circos într-o aplicație web existentă bazată pe JavaScript care are propriile structuri interne de date JSON. Furnizăm un exemplu pentru fiecare modul pentru a ilustra structura datelor de intrare și toți pașii necesari pentru a recrea exemplul respectiv (https://wlcb.oit.uci.edu/modules/).
Procesarea datelor GWAS în graficul LocusZoom
În Figura 1F, am utilizat PLINK (13) pentru a calcula valoarea r-pătrat a populațiilor specifice și pentru a extrage rata de recombinare din datele Hapmap3 (14) pentru SNP-urile specificate.
Browser-ele web suportate de NG-Circos
Viteza de rulare a NG-Circos depinde de puterea de calcul a browserelor și de hardware. NG-Circos a trecut de depanarea și examinarea în toate browserele de internet majore, inclusiv Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari și Opera.
REZULTATE
Fluxul de lucru al NG-Circos
NG-Circos are un flux de lucru foarte ușor de utilizat. Acesta are trei etape principale pentru a desena un grafic Circos interactiv: Pasul 1 include desenarea cromozomilor (sau a altor segmente) ca axe de coordonate. Pasul 2 implică adăugarea diferitelor piste de date utilizând modulele relevante, cu o flexibilitate ridicată în alegerea modulelor (21 de module sunt implementate în prezent, tabelul suplimentar S1). Datele de intrare ale NG-Circos pot fi generate fie de scripturile python de suport, fie direct prin intermediul formatelor de date JSON bine documentate. Pentru fiecare modul, furnizăm un exemplu care include fișierele de date de intrare și toți pașii pentru recrearea exemplului respectiv (https://wlcb.oit.uci.edu/modules/). În cele din urmă, etapa 3 încorporează animații interactive, evenimente de mouse (tabelul suplimentar S2) și proiectarea de cutii de instrumente pentru elemente grafice. NG-Circos este foarte ușor de personalizat, permițând utilizatorilor să ajusteze setările personale. De asemenea, punem la dispoziție un set de setări implicite atent evaluate pentru fiecare modul și furnizăm numeroase demonstrații pentru a face NG-Circos ușor de utilizat. În plus, capacitatea NG-Circos poate fi pur și simplu extinsă prin includerea mai multor module funcționale în etapa 2.
NG-Circos oferă opțiuni flexibile de module pentru diverse parcele Circos
Versiunea actuală a NG-Circos constă în 21 de module (tabelul suplimentar S1). Combinația de module din NG-Circos permite utilizatorilor să construiască diverse tipuri de diagrame Circos. De exemplu, NG-Circos poate reproduce diagrame Circos complexe publicate (15) prin combinarea modulelor ARC, GENE, HEATMAP, LINK și WIG (Figura 1A). NG-Circos nu numai că poate reproduce diagrame Circos complexe publicate, dar poate, de asemenea, să redea funcții suplimentare, cum ar fi furnizarea de demonstrații populare de diagrame Circos interactive (de exemplu, diagramele Lollipop, Wig și LocusZoom (16)), prezentate în Figura 1B-F (15) (17) (18) (19), care nu sunt văzute în alte instrumente. Mai mult, oferim mai multe demonstrații pe site-ul online (https://wlcb.oit.uci.edu/NG-Circos) pentru a arăta puterea acestui instrument: utilizatorii pot înlocui cu ușurință datele demonstrative cu datele lor pentru a produce propriile diagrame. Toate figurile pot fi descărcate în format SVG și PNG, în care formatul SVG redă utilizatorilor imagini de înaltă calitate care ar putea fi utilizate în continuare prin intermediul altor aplicații, cum ar fi Adobe Illustrator. În general, NG-Circos oferă utilizatorilor o mare flexibilitate în ceea ce privește alegerea modulelor și a tipurilor de diagrame Circos.
Demo de NG-Circos. (A) Parcele Circos complexe publicate, reproduse folosind NG-Circos; descrieri detaliate pot fi găsite în Akdemir et al. (15). (B) Demonstrație care arată structurile genelor folosind NG-Circos; datele sunt din Akdemir et al. (15). (C) Demonstrație a graficului Chord care arată modificările genelor reglementate de IL-6 în diferite celule (17). (D) Demonstrație a graficului Lollipop conceput cu ajutorul NG-Circos; datele provin de la Schultheis et al. (18). (E) Demonstrație a modulului COMPARE din NG-Circos. Mutațiile în promotorul PVT1 schimbă genele țintă ale enhancerului. Graficul cu peruci arată modificările H3K4me3 (albastru) și H3K9me3 (roșu) (19). (F) Demonstrație a graficului LocusZoom conceput de NG-Circos. Denumirile modulelor de trasee din (A-F) sunt marcate cu text roșu.
Demostrații ale NG-Circos. (A) Diagrame Circos complexe publicate, reproduse folosind NG-Circos; descrieri detaliate pot fi găsite în Akdemir et al. (15). (B) Demonstrație care arată structurile genelor folosind NG-Circos; datele sunt din Akdemir et al. (15). (C) Demonstrație a graficului Chord care arată modificările genelor reglementate de IL-6 în diferite celule (17). (D) Demonstrație a graficului Lollipop conceput cu ajutorul NG-Circos; datele provin de la Schultheis et al. (18). (E) Demonstrație a modulului COMPARE din NG-Circos. Mutațiile în promotorul PVT1 schimbă genele țintă ale enhancerului. Graficul cu peruci arată modificările H3K4me3 (albastru) și H3K9me3 (roșu) (19). (F) Demonstrație a graficului LocusZoom conceput de NG-Circos. Numele modulelor din pistele din (A-F) sunt marcate cu text roșu.
Studiu de caz pentru explorarea interactivă a datelor cu ajutorul NG-Circos
Aici prezentăm un studiu de caz pentru a ilustra în continuare puterea de explorare interactivă a datelor cu ajutorul NG-Circos. În acest caz, utilizatorii pot explora interactiv polimorfismele de un singur nucleotid (SNP) ale șoferilor, fuziunile de gene și impactul acestora asupra structurii proteice în cancerul pulmonar (Figura 2). De exemplu, evenimentele mouse over arată frecvențele SNP în cancerul pulmonar din baza de date Catalogue of Somatic Mutations in Cancer (COSMIC) (Figura 2B) (20) și structura proteică tridimensională (3D) a unei fuziuni genetice EML4-ALK (Figura 2C) (21). În mod remarcabil, NG-Circos poate, de asemenea, redirecționa elemente (cum ar fi SNP-urile sau fuziunile de gene) către resurse externe. De exemplu, făcând clic pe un SNP, cum ar fi varianta EGFR T790M, se deschide o nouă pagină web a bazei de date Protein Data Bank (PDB), care afișează structura 3D a EGFR afectată de varianta T790M (Figura 2D; cod PDB: 2JIT) (22). În concluzie, NG-Circos servește ca un instrument excelent pentru a explora datele genomice în mod interactiv, astfel încât utilizatorii pot extrage informații suplimentare prin trecerea mouse-ului și prin clic pe diagrame.
Utilizarea NG-Circos pentru vizualizarea și interpretarea integrativă a datelor. (A) Combinarea flexibilă a diferitelor module din NG-Circos pentru a vizualiza mai multe tipuri de date biologice. Inelul exterior reprezintă ideograme de cromozomi. Plecând spre interior de la inelul exterior, pistele de date reprezintă CNV somatice, densitatea variantelor, mutațiile somatice și fuziunile de gene. Cu excepția datelor simulate privind densitatea variantelor, toate datele prezentate sunt descărcate din baza de date COSMIC. (B) Treceți mouse-ul peste pentru a afișa detaliile fiecărui SNP. (C) Treceți mouse-ul peste pentru a afișa detaliile fiecărei fuziuni genetice și structura proteică 3D a acesteia (în acest caz, fuziunea genetică EML4-ALK). (D) Faceți clic pe un SNP (în acest caz, varianta EGFR T790M) pentru a deschide o nouă pagină web în baza de date PDB care afișează structura 3D a EGFR afectată de varianta T790M (cod PDB: 2JIT).
Utilizarea NG-Circos pentru vizualizarea și interpretarea integrativă a datelor. (A) Combinarea flexibilă a diferitelor module din NG-Circos pentru a vizualiza mai multe tipuri de date biologice. Inelul exterior reprezintă ideograme de cromozomi. Plecând spre interior de la inelul exterior, pistele de date reprezintă CNV somatice, densitatea variantelor, mutațiile somatice și fuziunile de gene. Cu excepția datelor simulate privind densitatea variantelor, toate datele prezentate sunt descărcate din baza de date COSMIC. (B) Treceți mouse-ul peste pentru a afișa detaliile fiecărui SNP. (C) Treceți mouse-ul peste pentru a afișa detaliile fiecărei fuziuni genetice și structura proteică 3D a acesteia (în acest caz, fuziunea genetică EML4-ALK). (D) Faceți clic pe un SNP (în acest caz, varianta EGFR T790M) pentru a deschide o nouă pagină web în baza de date PDB care afișează structura 3D a EGFR afectată de varianta T790M (cod PDB: 2JIT).
DISCUȚII
Explorarea interactivă a datelor în diverse tipuri de date va promova cu siguranță vizualizarea și interpretarea datelor de generație următoare, cu unele exemple de succes, cum ar fi cBioPortal (23), observate în cercetarea în domeniul cancerului. Diagramele Circos sunt utilizate pe scară largă pentru a afișa voluminoasele date genomice de generație următoare, dar implementările existente ale Circos nu generează ieșiri interactive, ceea ce îngreunează capacitatea sa de utilizare. Pentru a aborda această problemă, NG-Circos oferă opțiuni flexibile de module pentru explorarea interactivă a datelor și diverse tipuri de diagrame Circos. Pe măsură ce în viitor vor fi generate tipuri suplimentare de date genomice, vom continua să actualizăm module funcționale suplimentare pentru a extinde puterea NG-Circos. De asemenea, vom întreține în mod activ NG-Circos și vom răspunde la solicitările utilizatorilor. Prin susținerea diverselor tipuri de date genomice într-o interfață web interactivă, NG-Circos, credem, va îmbunătăți în viitor cercetarea genomică în domeniul biomedical.
Date suplimentare
Datele suplimentare sunt disponibile la NARGAB Online.
RECUNOȘTINȚE
Recunoaștem recunoștința lui Tianyi Zang, Yadong Wang și membrilor laboratorului Li pentru discuții constructive și sprijin.
FONDUCERE
Nici o finanțare externă.
Declarație privind conflictul de interese. Niciunul declarat.
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
.
;
:
–
.
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
,
et al.
.
.
;
:
.
,
,
,
,
,
,
,
,
,
et al.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et alii .
.
;
:
–
.
,
,
,
,
,
,
,
,
,
,
et al.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et alii .
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al.
.
.
;
:
–
.
,
,
,
,
,
,
,
.
,
,
,
et alii .
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
,
și alții .
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
,
.
;
:
–
.
Notele autorului
Autorii doresc să se știe că, în opinia lor, primii doi autori ar trebui să fie considerați primii doi autori în comun.
.