Abstract
Circos-plots bruges i vid udstrækning til at vise flerdimensionelle næste generations genomiske data, men de eksisterende implementeringer af Circos er ikke interaktive og understøtter kun et begrænset antal datatyper. Her udviklede vi næste generations Circos (NG-Circos), et fleksibelt JavaScript-baseret cirkulært genomvisualiseringsværktøj til at designe meget interaktive Circos-plots ved hjælp af 21 funktionelle moduler med forskellige datatyper. Så vidt vi ved, er NG-Circos den mest kraftfulde software til at konstruere interaktive Circos-plots. Ved at understøtte forskellige datatyper i en dynamisk browsergrænseflade vil NG-Circos fremskynde næste generations datavisualisering og -fortolkning og dermed fremme reproducerbar forskning inden for biomedicinsk videnskab og videre frem. NG-Circos er tilgængelig på https://wlcb.oit.uci.edu/NG-Circos og https://github.com/YaCui/NG-Circos.
INDLEDNING
Visualisering af stigende mængder af næste generations biologiske data er afgørende for fortolkningen af sådanne data. Circos-plots er cirkulære to-dimensionelle visuelle repræsentationer, der giver en omfattende løsning til præsentation og fortolkning af flerdimensionelle genomiske data. Circos (1), det fremherskende værktøj til fremstilling af Circos-plots, er blevet brugt i stor stil til visualisering af komplekse biologiske data i mange undersøgelser. Circos’ output er imidlertid ikke interaktivt. Andre Circos-afledte værktøjer, såsom Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) er enten ikke i stand til at producere interaktive Circos-plots i en webbrowser eller er begrænset til bestemte datatyper. Vores tidligere udviklede værktøj, BioCircos.js (10), synes at være den eneste offentliggjorte software, der er i stand til at producere interaktive Circos-plots, og er blevet det mest avancerede værktøj på området (11-12). Ikke desto mindre implementerer BioCircos.js (10) kun ni funktionelle moduler, hvilket begrænser dets omfang til at udføre yderligere analytiske opgaver.
For at afhjælpe denne svaghed har vi her udviklet næste generations Circos (NG-Circos), et JavaScript-baseret cirkulært genomvisualiseringsværktøj, der rækker ud over rammerne i BioCircos.js (10) for at integrere og fortolke genomiske datatyper gennem interaktive Circos-plots. NG-Circos indeholder i øjeblikket 21 moduler, der muliggør forskellige funktioner, som ikke fandtes i andre værktøjer (herunder BioCircos.js (10)). Ved at understøtte forskellige typer genomiske datatyper i en interaktiv browsergrænseflade vil NG-Circos fremskynde næste generation af datavisualisering og -fortolkning og dermed fremme reproducerbar forskning inden for biomedicinsk videnskab og videre frem.
MATERIALER OG METODER
Implementering af NG-Circos
NG-Circos er skrevet i JavaScript og genererer interaktiv grafik med SVG-element baseret på D3.js (datadrevne dokumenter) og jQuery.js. NG-Circos er baseret på JavaScript og kan anvendes uden installation af yderligere pakker. Efter at have downloadet NG-Circos kan brugerne reproducere næsten alle cirkulære plot, der er tegnet af Circos, med en webbrowser. Bemærk, at NG-Circos i sig selv ikke er et webprogram, men er et bibliotek til at opbygge interaktive Circos-plots i webprogrammer.
Implementering af billed-downloadfunktion i NG-Circos
Downloadfunktionen i NG-Circos er opbygget ved hjælp af svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) fra The New York Times. NG-Circos understøtter nu SVG- og PNG-formatet. SVG-billedformatet giver brugerne mulighed for at udtrække billeder af høj kvalitet, der kan udnyttes yderligere i Adobe Illustrator.
Input databehandling i NG-Circos
Vi leverer et databehandlingsskript (skrevet af python og shell) til behandling af rå data, så brugerne nemt kan omdanne deres data til JSON-format med standardparametre for det tilsvarende modul. Navnlig kan NG-Circos’ inputdata enten genereres af de understøttende python-scripts eller direkte gennem de veldokumenterede JSON-dataformater. Brugerne kan integrere NG-Circos i en eksisterende JavaScript-baseret webapplikation, som har sine egne interne JSON-datastrukturer. Vi giver et eksempel for hvert modul for at illustrere inputdatastrukturen og alle de trin, der er nødvendige for at genskabe dette eksempel (https://wlcb.oit.uci.edu/modules/).
Behandling af GWAS-data i LocusZoom-plot
I figur 1F brugte vi PLINK (13) til at beregne r-square-værdien for specifikke populationer og til at udtrække rekombinationsraten fra Hapmap3-dataene (14) for specificerede SNP’er.
Webbrowsere, der understøttes af NG-Circos
Kørehastigheden af NG-Circos afhænger af browserens og hardwarens regnekraft. NG-Circos har bestået fejlfinding og undersøgelse i alle større internetbrowsere, herunder Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari og Opera.
RESULTATER
Arbejdsgangen i NG-Circos
NG-Circos har en meget brugervenlig arbejdsgang. Den har tre hovedtrin til at tegne et interaktivt Circos-plot: Trin 1 omfatter tegning af kromosomer (eller andre segmenter) som koordinatakser. Trin 2 omfatter tilføjelse af forskellige dataspor ved hjælp af de relevante moduler med stor fleksibilitet i valg af moduler (21 moduler er i øjeblikket implementeret, supplerende tabel S1). Inputdataene i NG-Circos kan enten genereres af de understøttende python-scripts eller direkte gennem de veldokumenterede JSON-dataformater. For hvert modul giver vi et eksempel, som omfatter inputdatafiler og alle trin til at genskabe dette eksempel (https://wlcb.oit.uci.edu/modules/). Endelig indeholder trin 3 interaktive animationer, musebegivenheder (Supplerende tabel S2) og udformning af værktøjskasser til grafiske elementer. NG-Circos kan i høj grad tilpasses, hvilket giver brugerne mulighed for at justere personlige indstillinger. Vi leverer også et sæt omhyggeligt evaluerede standardindstillinger for hvert modul og leverer mange demoer for at gøre NG-Circos let at bruge. Desuden kan NG-Circos’ kapacitet ganske enkelt udvides ved at inkludere flere funktionelle moduler i trin 2.
NG-Circos giver fleksible modulvalg til diverse Circos-plots
Den nuværende version af NG-Circos består af 21 moduler (Supplerende tabel S1). Kombinationen af modulerne i NG-Circos giver brugerne mulighed for at konstruere forskellige typer Circos-plots. NG-Circos kan f.eks. reproducere komplekse offentliggjorte Circos-plots (15) ved at kombinere ARC-, GENE-, HEATMAP-, LINK- og WIG-moduler (figur 1A). NG-Circos kan ikke blot reproducere komplekse offentliggjorte Circos-plots, men kan også levere yderligere funktioner som f.eks. populære interaktive Circos-plotdemoer (f.eks. Lollipop-, Wig- og LocusZoom-plots (16)), der er vist i figur 1B-F (15) (17) (18) (19), som ikke ses i andre værktøjer. Desuden tilbyder vi flere demoer på onlinewebstedet (https://wlcb.oit.uci.edu/NG-Circos) for at vise værktøjets styrke: brugerne kan nemt erstatte demodataene med deres egne data for at fremstille deres egne plot. Alle figurer kan downloades i SVG- og PNG-format, hvor SVG-formatet giver brugerne billeder af høj kvalitet, som kan udnyttes yderligere gennem andre programmer som f.eks. Adobe Illustrator. Alt i alt giver NG-Circos brugerne stor fleksibilitet i valg af moduler og Circos-plottyper.
Demoer af NG-Circos. (A) Komplekse offentliggjorte Circos-plots gengivet ved hjælp af NG-Circos; detaljerede beskrivelser kan findes i Akdemir et al. (15). (B) Demo, der viser genstrukturer ved hjælp af NG-Circos; data er fra Akdemir et al. (15). (C) Demo af Chord-plot, der viser de IL-6-regulerede genændringer i forskellige celler (17). (D) Demonstration af Lollipop-plot designet ved hjælp af NG-Circos; data er fra Schultheis et al. (18). (E) Demonstration af COMPARE-modulet i NG-Circos. Mutationer i PVT1-promotoren ændrer enhancer-målgenerne. Parykplot viser H3K4me3- (blå) og H3K9me3- (rød) modifikationer (19). (F) Demo af LocusZoom-plot designet af NG-Circos. Modulnavne for sporene i (A-F) er markeret med rød tekst.
Demoer af NG-Circos. (A) Komplekse offentliggjorte Circos-plots gengivet ved hjælp af NG-Circos; detaljerede beskrivelser kan findes i Akdemir et al. (15). (B) Demo, der viser genstrukturer ved hjælp af NG-Circos; data er fra Akdemir et al. (15). (C) Demo af Chord-plot, der viser de IL-6-regulerede genændringer i forskellige celler (17). (D) Demonstration af Lollipop-plot designet ved hjælp af NG-Circos; data er fra Schultheis et al. (18). (E) Demonstration af COMPARE-modulet i NG-Circos. Mutationer i PVT1-promotoren ændrer enhancer-målgenerne. Parykplot viser H3K4me3- (blå) og H3K9me3- (rød) modifikationer (19). (F) Demo af LocusZoom-plot designet af NG-Circos. Modulnavnene på sporene i (A-F) er markeret med rød tekst.
Casestudie af interaktiv dataudforskning ved hjælp af NG-Circos
Her præsenterer vi en casestudie for yderligere at illustrere styrken af interaktiv dataudforskning ved hjælp af NG-Circos. I dette tilfælde kan brugerne interaktivt udforske driver single nucleotide polymorphisms (SNP’er), genfusioner og deres indvirkning på proteinstrukturen i lungekræft (figur 2). For eksempel viser mouse-over-hændelser SNP-frekvenserne i lungekræft fra databasen Catalogue of Somatic Mutations in Cancer (COSMIC) (Figur 2B) (20) og den tredimensionelle (3D) proteinstruktur af en EML4-ALK-genfusion (Figur 2C) (21) (Figur 2C). Bemærkelsesværdigt nok kan NG-Circos også omdirigere elementer (f.eks. SNP’er eller genfusioner) til eksterne ressourcer. Hvis man f.eks. klikker på en SNP, f.eks. EGFR T790M-varianten, åbnes en ny webside i databasen Protein Data Bank (PDB), som viser den 3D-struktur af EGFR, der er påvirket af T790M-varianten (Figur 2D; PDB-kode: 2JIT) (22). Sammenfattende tjener NG-Circos som et fantastisk værktøj til at udforske genomiske data interaktivt, således at brugerne kan udtrække yderligere oplysninger ved at holde musen over og klikke på plottet.
Anvendelse af NG-Circos til integrativ datavisualisering og fortolkning. (A) Fleksibel kombination af forskellige moduler i NG-Circos for at visualisere flere biologiske datatyper. Den ydre ring repræsenterer kromosomideogrammer. Hvis man bevæger sig indad fra den ydre ring, repræsenterer datasporene somatiske CNV’er, variantetæthed, somatiske mutationer og genfusioner. Bortset fra simulerede data om varianttæthed er alle de viste data hentet fra COSMIC-databasen. (B) Gå med musen over for at vise detaljerne for hver SNP. (C) Gå med musen over for at få vist detaljer om hver genfusion og dens 3D-proteinstruktur (i dette tilfælde EML4-ALK-genfusionen). (D) Klik på en SNP (i dette tilfælde EGFR T790M-varianten) for at åbne en ny webside i PDB-databasen, der viser den af T790M-varianten påvirkede 3D-struktur af EGFR (PDB-kode: 2JIT).
Anvendelse af NG-Circos til integrativ datavisualisering og -fortolkning. (A) Fleksibel kombination af forskellige moduler i NG-Circos for at visualisere flere biologiske datatyper. Den ydre ring repræsenterer kromosomideogrammer. Hvis man bevæger sig indad fra den ydre ring, repræsenterer datasporene somatiske CNV’er, variantetæthed, somatiske mutationer og genfusioner. Bortset fra simulerede data om varianttæthed er alle de viste data hentet fra COSMIC-databasen. (B) Gå med musen over for at vise detaljerne for hver SNP. (C) Gå med musen over for at få vist detaljer om hver genfusion og dens 3D-proteinstruktur (i dette tilfælde EML4-ALK-genfusionen). (D) Klik på en SNP (i dette tilfælde EGFR T790M-varianten) for at åbne en ny webside i PDB-databasen, der viser 3D-strukturen af EGFR med T790M-varianten (PDB-kode: 2JIT).
DISCUSSION
Interaktiv dataudforskning på tværs af forskellige datatyper vil helt sikkert fremme næste generations datavisualisering og -fortolkning, med nogle vellykkede eksempler, såsom cBioPortal (23), der er set inden for kræftforskning. Circos-plots anvendes i vid udstrækning til at vise omfangsrige næste generations genomiske data, men de eksisterende implementeringer af Circos genererer ikke interaktive output, hvilket hæmmer deres anvendelighed. For at løse dette problem tilbyder NG-Circos fleksible valg af moduler til interaktiv dataudforskning og forskellige typer Circos-plots. Efterhånden som der genereres yderligere typer genomiske data i fremtiden, vil vi løbende opdatere yderligere funktionelle moduler for at udvide NG-Circos’ muligheder. Vi vil også aktivt vedligeholde NG-Circos og svare på henvendelser fra brugerne. Ved at understøtte forskellige typer genomiske data i en interaktiv webgrænseflade mener vi, at NG-Circos i fremtiden vil forbedre genomisk forskning på det biomedicinske område.
SUPPLEMENTARY DATA
Supplementary Data are available at NARGAB Online.
NAKUNSKABER
Vi takker Tianyi Zang, Yadong Wang og medlemmer af Li-laboratoriet for konstruktive diskussioner og støtte.
FINANSIERING
Ingen ekstern finansiering.
Interessekonflikt erklæring. Ingen erklæret.
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
.
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
.
;
:
–
.
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
Author notes
Forfatterne ønsker at få oplyst, at de to første forfattere efter deres mening skal betragtes som fælles førsteforfattere.