NG-Circos: næste generations Circos til visualisering og fortolkning af data

Abstract

Circos-plots bruges i vid udstrækning til at vise flerdimensionelle næste generations genomiske data, men de eksisterende implementeringer af Circos er ikke interaktive og understøtter kun et begrænset antal datatyper. Her udviklede vi næste generations Circos (NG-Circos), et fleksibelt JavaScript-baseret cirkulært genomvisualiseringsværktøj til at designe meget interaktive Circos-plots ved hjælp af 21 funktionelle moduler med forskellige datatyper. Så vidt vi ved, er NG-Circos den mest kraftfulde software til at konstruere interaktive Circos-plots. Ved at understøtte forskellige datatyper i en dynamisk browsergrænseflade vil NG-Circos fremskynde næste generations datavisualisering og -fortolkning og dermed fremme reproducerbar forskning inden for biomedicinsk videnskab og videre frem. NG-Circos er tilgængelig på https://wlcb.oit.uci.edu/NG-Circos og https://github.com/YaCui/NG-Circos.

INDLEDNING

Visualisering af stigende mængder af næste generations biologiske data er afgørende for fortolkningen af sådanne data. Circos-plots er cirkulære to-dimensionelle visuelle repræsentationer, der giver en omfattende løsning til præsentation og fortolkning af flerdimensionelle genomiske data. Circos (1), det fremherskende værktøj til fremstilling af Circos-plots, er blevet brugt i stor stil til visualisering af komplekse biologiske data i mange undersøgelser. Circos’ output er imidlertid ikke interaktivt. Andre Circos-afledte værktøjer, såsom Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) er enten ikke i stand til at producere interaktive Circos-plots i en webbrowser eller er begrænset til bestemte datatyper. Vores tidligere udviklede værktøj, BioCircos.js (10), synes at være den eneste offentliggjorte software, der er i stand til at producere interaktive Circos-plots, og er blevet det mest avancerede værktøj på området (11-12). Ikke desto mindre implementerer BioCircos.js (10) kun ni funktionelle moduler, hvilket begrænser dets omfang til at udføre yderligere analytiske opgaver.

For at afhjælpe denne svaghed har vi her udviklet næste generations Circos (NG-Circos), et JavaScript-baseret cirkulært genomvisualiseringsværktøj, der rækker ud over rammerne i BioCircos.js (10) for at integrere og fortolke genomiske datatyper gennem interaktive Circos-plots. NG-Circos indeholder i øjeblikket 21 moduler, der muliggør forskellige funktioner, som ikke fandtes i andre værktøjer (herunder BioCircos.js (10)). Ved at understøtte forskellige typer genomiske datatyper i en interaktiv browsergrænseflade vil NG-Circos fremskynde næste generation af datavisualisering og -fortolkning og dermed fremme reproducerbar forskning inden for biomedicinsk videnskab og videre frem.

MATERIALER OG METODER

Implementering af NG-Circos

NG-Circos er skrevet i JavaScript og genererer interaktiv grafik med SVG-element baseret på D3.js (datadrevne dokumenter) og jQuery.js. NG-Circos er baseret på JavaScript og kan anvendes uden installation af yderligere pakker. Efter at have downloadet NG-Circos kan brugerne reproducere næsten alle cirkulære plot, der er tegnet af Circos, med en webbrowser. Bemærk, at NG-Circos i sig selv ikke er et webprogram, men er et bibliotek til at opbygge interaktive Circos-plots i webprogrammer.

Implementering af billed-downloadfunktion i NG-Circos

Downloadfunktionen i NG-Circos er opbygget ved hjælp af svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) fra The New York Times. NG-Circos understøtter nu SVG- og PNG-formatet. SVG-billedformatet giver brugerne mulighed for at udtrække billeder af høj kvalitet, der kan udnyttes yderligere i Adobe Illustrator.

Input databehandling i NG-Circos

Vi leverer et databehandlingsskript (skrevet af python og shell) til behandling af rå data, så brugerne nemt kan omdanne deres data til JSON-format med standardparametre for det tilsvarende modul. Navnlig kan NG-Circos’ inputdata enten genereres af de understøttende python-scripts eller direkte gennem de veldokumenterede JSON-dataformater. Brugerne kan integrere NG-Circos i en eksisterende JavaScript-baseret webapplikation, som har sine egne interne JSON-datastrukturer. Vi giver et eksempel for hvert modul for at illustrere inputdatastrukturen og alle de trin, der er nødvendige for at genskabe dette eksempel (https://wlcb.oit.uci.edu/modules/).

Behandling af GWAS-data i LocusZoom-plot

I figur 1F brugte vi PLINK (13) til at beregne r-square-værdien for specifikke populationer og til at udtrække rekombinationsraten fra Hapmap3-dataene (14) for specificerede SNP’er.

Webbrowsere, der understøttes af NG-Circos

Kørehastigheden af NG-Circos afhænger af browserens og hardwarens regnekraft. NG-Circos har bestået fejlfinding og undersøgelse i alle større internetbrowsere, herunder Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari og Opera.

RESULTATER

Arbejdsgangen i NG-Circos

NG-Circos har en meget brugervenlig arbejdsgang. Den har tre hovedtrin til at tegne et interaktivt Circos-plot: Trin 1 omfatter tegning af kromosomer (eller andre segmenter) som koordinatakser. Trin 2 omfatter tilføjelse af forskellige dataspor ved hjælp af de relevante moduler med stor fleksibilitet i valg af moduler (21 moduler er i øjeblikket implementeret, supplerende tabel S1). Inputdataene i NG-Circos kan enten genereres af de understøttende python-scripts eller direkte gennem de veldokumenterede JSON-dataformater. For hvert modul giver vi et eksempel, som omfatter inputdatafiler og alle trin til at genskabe dette eksempel (https://wlcb.oit.uci.edu/modules/). Endelig indeholder trin 3 interaktive animationer, musebegivenheder (Supplerende tabel S2) og udformning af værktøjskasser til grafiske elementer. NG-Circos kan i høj grad tilpasses, hvilket giver brugerne mulighed for at justere personlige indstillinger. Vi leverer også et sæt omhyggeligt evaluerede standardindstillinger for hvert modul og leverer mange demoer for at gøre NG-Circos let at bruge. Desuden kan NG-Circos’ kapacitet ganske enkelt udvides ved at inkludere flere funktionelle moduler i trin 2.

NG-Circos giver fleksible modulvalg til diverse Circos-plots

Den nuværende version af NG-Circos består af 21 moduler (Supplerende tabel S1). Kombinationen af modulerne i NG-Circos giver brugerne mulighed for at konstruere forskellige typer Circos-plots. NG-Circos kan f.eks. reproducere komplekse offentliggjorte Circos-plots (15) ved at kombinere ARC-, GENE-, HEATMAP-, LINK- og WIG-moduler (figur 1A). NG-Circos kan ikke blot reproducere komplekse offentliggjorte Circos-plots, men kan også levere yderligere funktioner som f.eks. populære interaktive Circos-plotdemoer (f.eks. Lollipop-, Wig- og LocusZoom-plots (16)), der er vist i figur 1B-F (15) (17) (18) (19), som ikke ses i andre værktøjer. Desuden tilbyder vi flere demoer på onlinewebstedet (https://wlcb.oit.uci.edu/NG-Circos) for at vise værktøjets styrke: brugerne kan nemt erstatte demodataene med deres egne data for at fremstille deres egne plot. Alle figurer kan downloades i SVG- og PNG-format, hvor SVG-formatet giver brugerne billeder af høj kvalitet, som kan udnyttes yderligere gennem andre programmer som f.eks. Adobe Illustrator. Alt i alt giver NG-Circos brugerne stor fleksibilitet i valg af moduler og Circos-plottyper.

Figur 1.

Demoer af NG-Circos. (A) Komplekse offentliggjorte Circos-plots gengivet ved hjælp af NG-Circos; detaljerede beskrivelser kan findes i Akdemir et al. (15). (B) Demo, der viser genstrukturer ved hjælp af NG-Circos; data er fra Akdemir et al. (15). (C) Demo af Chord-plot, der viser de IL-6-regulerede genændringer i forskellige celler (17). (D) Demonstration af Lollipop-plot designet ved hjælp af NG-Circos; data er fra Schultheis et al. (18). (E) Demonstration af COMPARE-modulet i NG-Circos. Mutationer i PVT1-promotoren ændrer enhancer-målgenerne. Parykplot viser H3K4me3- (blå) og H3K9me3- (rød) modifikationer (19). (F) Demo af LocusZoom-plot designet af NG-Circos. Modulnavne for sporene i (A-F) er markeret med rød tekst.

Figur 1.

Demoer af NG-Circos. (A) Komplekse offentliggjorte Circos-plots gengivet ved hjælp af NG-Circos; detaljerede beskrivelser kan findes i Akdemir et al. (15). (B) Demo, der viser genstrukturer ved hjælp af NG-Circos; data er fra Akdemir et al. (15). (C) Demo af Chord-plot, der viser de IL-6-regulerede genændringer i forskellige celler (17). (D) Demonstration af Lollipop-plot designet ved hjælp af NG-Circos; data er fra Schultheis et al. (18). (E) Demonstration af COMPARE-modulet i NG-Circos. Mutationer i PVT1-promotoren ændrer enhancer-målgenerne. Parykplot viser H3K4me3- (blå) og H3K9me3- (rød) modifikationer (19). (F) Demo af LocusZoom-plot designet af NG-Circos. Modulnavnene på sporene i (A-F) er markeret med rød tekst.

Casestudie af interaktiv dataudforskning ved hjælp af NG-Circos

Her præsenterer vi en casestudie for yderligere at illustrere styrken af interaktiv dataudforskning ved hjælp af NG-Circos. I dette tilfælde kan brugerne interaktivt udforske driver single nucleotide polymorphisms (SNP’er), genfusioner og deres indvirkning på proteinstrukturen i lungekræft (figur 2). For eksempel viser mouse-over-hændelser SNP-frekvenserne i lungekræft fra databasen Catalogue of Somatic Mutations in Cancer (COSMIC) (Figur 2B) (20) og den tredimensionelle (3D) proteinstruktur af en EML4-ALK-genfusion (Figur 2C) (21) (Figur 2C). Bemærkelsesværdigt nok kan NG-Circos også omdirigere elementer (f.eks. SNP’er eller genfusioner) til eksterne ressourcer. Hvis man f.eks. klikker på en SNP, f.eks. EGFR T790M-varianten, åbnes en ny webside i databasen Protein Data Bank (PDB), som viser den 3D-struktur af EGFR, der er påvirket af T790M-varianten (Figur 2D; PDB-kode: 2JIT) (22). Sammenfattende tjener NG-Circos som et fantastisk værktøj til at udforske genomiske data interaktivt, således at brugerne kan udtrække yderligere oplysninger ved at holde musen over og klikke på plottet.

Figur 2.

Anvendelse af NG-Circos til integrativ datavisualisering og fortolkning. (A) Fleksibel kombination af forskellige moduler i NG-Circos for at visualisere flere biologiske datatyper. Den ydre ring repræsenterer kromosomideogrammer. Hvis man bevæger sig indad fra den ydre ring, repræsenterer datasporene somatiske CNV’er, variantetæthed, somatiske mutationer og genfusioner. Bortset fra simulerede data om varianttæthed er alle de viste data hentet fra COSMIC-databasen. (B) Gå med musen over for at vise detaljerne for hver SNP. (C) Gå med musen over for at få vist detaljer om hver genfusion og dens 3D-proteinstruktur (i dette tilfælde EML4-ALK-genfusionen). (D) Klik på en SNP (i dette tilfælde EGFR T790M-varianten) for at åbne en ny webside i PDB-databasen, der viser den af T790M-varianten påvirkede 3D-struktur af EGFR (PDB-kode: 2JIT).

Figur 2.

Anvendelse af NG-Circos til integrativ datavisualisering og -fortolkning. (A) Fleksibel kombination af forskellige moduler i NG-Circos for at visualisere flere biologiske datatyper. Den ydre ring repræsenterer kromosomideogrammer. Hvis man bevæger sig indad fra den ydre ring, repræsenterer datasporene somatiske CNV’er, variantetæthed, somatiske mutationer og genfusioner. Bortset fra simulerede data om varianttæthed er alle de viste data hentet fra COSMIC-databasen. (B) Gå med musen over for at vise detaljerne for hver SNP. (C) Gå med musen over for at få vist detaljer om hver genfusion og dens 3D-proteinstruktur (i dette tilfælde EML4-ALK-genfusionen). (D) Klik på en SNP (i dette tilfælde EGFR T790M-varianten) for at åbne en ny webside i PDB-databasen, der viser 3D-strukturen af EGFR med T790M-varianten (PDB-kode: 2JIT).

DISCUSSION

Interaktiv dataudforskning på tværs af forskellige datatyper vil helt sikkert fremme næste generations datavisualisering og -fortolkning, med nogle vellykkede eksempler, såsom cBioPortal (23), der er set inden for kræftforskning. Circos-plots anvendes i vid udstrækning til at vise omfangsrige næste generations genomiske data, men de eksisterende implementeringer af Circos genererer ikke interaktive output, hvilket hæmmer deres anvendelighed. For at løse dette problem tilbyder NG-Circos fleksible valg af moduler til interaktiv dataudforskning og forskellige typer Circos-plots. Efterhånden som der genereres yderligere typer genomiske data i fremtiden, vil vi løbende opdatere yderligere funktionelle moduler for at udvide NG-Circos’ muligheder. Vi vil også aktivt vedligeholde NG-Circos og svare på henvendelser fra brugerne. Ved at understøtte forskellige typer genomiske data i en interaktiv webgrænseflade mener vi, at NG-Circos i fremtiden vil forbedre genomisk forskning på det biomedicinske område.

SUPPLEMENTARY DATA

Supplementary Data are available at NARGAB Online.

NAKUNSKABER

Vi takker Tianyi Zang, Yadong Wang og medlemmer af Li-laboratoriet for konstruktive diskussioner og støtte.

FINANSIERING

Ingen ekstern finansiering.

Interessekonflikt erklæring. Ingen erklæret.

Krzywinski
M.

,

Schein
J.

,

Birol
I.

,

Connors
J.

,

Gascoyne
R.

,

Horsman
D.

,

Jones
S.J.

,

Marra
M.A.
Circos: an information aesthetic for comparative genomics

.

Genome Res.
2009

;

19

:

1639

1645

.

Darzentas
N.
Circoletto: visualisering af sekvenslighed med Circos

.

Bioinformatik

.

2010

;

26

:

2620

2621

.

Naquin
D.

,

d’Aubenton-Carafa
Y.

,

Thermes
C.

.

,

Silvain
M.
CIRCUS: a package for Circos display of structural genome variations from paired-end and mate-pair sequencing data

.

BMC Bioinformatics

.

2014

;

15

:

198

.

An
J.

,

Lai
J.

,

Sajjanhar
A.

,

Batra
J.

,

Wang
C.

,

Nelson
C.C.
J-Circos: an interactive Circos plotter

.

Bioinformatik

.

2015

;

31

:

1463

1465

.

Yu
Y.

,

Ouyang
Y.

,

Yao
W.
ShinyCircos: en R/Shiny-applikation til interaktiv oprettelse af Circos-plot

.

Bioinformatik

.

2018

;

34

:

1229

1231

.

Zhang
H.

,

Meltzer
P.

,

Davis
S.
RCircos: an R package for Circos 2D track plots

.

BMC Bioinformatics

.

2013

;

14

:

244

.

Crabtree
J.

,

Agrawal
S.

,

Mahurkar
A.

,

Myers
G.S.

,

Rasko
D.A.

,

White
O.
Circleator: fleksibel cirkulær visualisering af genom-associerede data med BioPerl og SVG

.

Bioinformatik

.

2014

;

30

:

3125

3127

.

Hu
Y.

,

Yan
C.

,

Hsu
C.H.

,

Chen
Q.R.

,

Niu
K.

,

Komatsoulis
G.A.

,

Meerzaman
D.
Omiccircos: a simple-to-use R package for the circular visualization of multidimensional Omics data

.

Cancer Inform.
2014

;

13

:

13

20

.

Yin
T.

,

Cook
D.

,

Lawrence
M.
ggbio: an R package for extending the grammar of graphics for genomic data

.

Genome Biol.
2012

;

13

:

R77

.

Cui
Y.

,

Chen
X.

,

Luo
H.

,

Fan
Z.

,

Luo
J.

,

He
S.

,

Yue
H.

,

Zhang
P.

,

Chen
R.
BioCircos.js: et interaktivt Circos JavaScript-bibliotek til visualisering af biologiske data på webapplikationer

.

Bioinformatik

.

2016

;

32

:

1740

1742

.

Juanillas
V.

,

Dereeper
A.

,

Beaume
N.

,

Droc
G.

,

Dizon
J.

,

Mendoza
J.R.

,

Perdon
J.P.

,

Mansueto
L.

,

Triplett
L.

,

Lang
J.

et al. .

Rice galaxy: en åben ressource for plantevidenskab

.

Gigascience

.

2019

;

8

:

giz028

.

Nott
A.

,

Holtman
I.R.

,

Coufal
N.G.

,

Schlachetzki
J.C.M.

,

Yu
M.

,

Hu
R.

,

Han
C.Z.

,

Pena
M.

,

Xiao
J.

,

Wu
Y.

et al. .

Hjernecelletype-specifikke enhancer-promotor-interaktomkort og sygdomsrisikoforbindelse

.

Science

.

2019

;

366

:

1134

1139

.

Purcell
S.

,

Neale
B.

,

Todd-Brown
K.

,

Thomas
L.

,

Ferreira
M.A.R.

,

Bender
D.

,

Maller
J.

,

Sklar
P.

,

De Bakker
P.I.W.

,

Daly
M.J.

et al. .

PLINK: et værktøjssæt til helgenomassocierings- og befolkningsbaserede linkageanalyser

.

Am. J. Hum. Genet.
2007

;

81

:

559

575

.

Belmont
J.W.

,

Hardenbol
P.

,

Willis
T.D.

,

Yu
F.

,

Yang
H.

,

Ch’Ang
L.Y.

,

Huang
W.

,

Liu
B.

,

Shen
Y.

,

Tam
P.K.H.

et al. .

Det internationale HapMap-projekt

.

Nature

.

2003

;

426

:

789

796

.

Akdemir
K.C.

,

Jain
A.K.

,

Allton
K.

,

Aronow
B.

,

Xu
X.

,

Cooney
A.J.

,

Li
W.

,

Barton
M.C.
Genome-wide profiling afslører stimulus-specifikke funktioner af p53 under differentiering og DNA-skader i humane embryonale stamceller

.

Nucleic Acids Res.
2014

;

42

:

205

223

.

Pruim
R.J.

,

Welch
R.P.

,

Sanna
S.

,

Teslovich
T.M.

,

Chines
P.S.

,

Gliedt
T.P.

,

Boehnke
M.

,

Abecasis
G.R.

,

Willer
C.J.

,

Frishman
D.
LocusZoom: regional visualisering af resultater af genomdækkende associationsscanning

.

Bioinformatik

.

2011

;

26

:

2336

2337

.

Twohig
J.P.

,

Cardus Figueras
A.

,

Andrews
R.

,

Wiede
F.

,

Cossins
B.

,

Cossins
B.C.

,

Derrac Soria
A.

,

Lewis
M.J.

,

Townsend
M.J.

,

Millrine
D.

,

Li
J.

et al. .

Aktivering af naive CD4 + T-celler omjusterer STAT1-signalering for at levere unikke cytokinresponser i hukommelses-CD4 + T-celler

.

Nat. Immunol.
2019

;

20

:

458

470

.

Schultheis
A.M.

,

Martelotto
L.G.

,

De Filippo
M.R.

,

Piscuglio
S.

,

Ng
C.K.Y.

,

Hussein
Y.R.

,

Reis-Filho
J.S.

,

Soslow
R.A.

,

Weigelt
B.
TP53-mutationsspektrum i endometrioid og serøs endometriecancer

.

Int. J. Gynecol. Pathol.
2016

;

35

:

289

300

.

Cho
S.W.

,

Xu
J.

,

Sun
R.

,

Mumbach
M.R.

,

Carter
A.C.

,

Chen
Chen
Y.G.

,

Yost
K.E.

,

Kim
J.

,

He
J.

,

Nevins
S.A.

et al. .

Promoter af lncRNA-genet PVT1 er et tumor-suppressor-DNA-grænseelement

.

Celle

.

2018

;

173

:

1398

1412

.

Forbes
S.A.

,

Beare
D.

,

Boutselakis
H.

,

Bamford
S.

,

Bindal
N.

,

Tate
J.

,

Cole
C.G.

,

Ward
S.

,

Dawson
E.

,

Ponting
L.

et al. .

COSMIC: somatisk kræftgenetik med høj opløsning

.

Nucleic Acids Res.
2017

;

45

:

D777

D783

.

Wang
D.

,

Li
D.

,

Qin
G.

,

Zhang
W.

,

Ouyang
J.

,

Zhang
M.

,

Xie
L.
Den strukturelle karakterisering af tumorfusionsgener og proteiner

.

Comput. Math. Methods Med.
2015

;

2015

:

doi:10.1155/2015/912742

.

Yun
C.H.

,

Mengwasser
K.E.

,

Toms
A. V.

,

Woo
M.S.

,

Greulich
H.

,

Wong
K.K.

,

Meyerson
M.

,

Eck
M.J.
T790M-mutationen i EGFR-kinase forårsager lægemiddelresistens ved at øge affiniteten for ATP

.

Proc. Natl. Acad. Sci. U.S.A.
2008

;

105

:

2070

2075

.

Gao
J.

,

Aksoy
B.A.

,

Dogrusoz
U.

,

Dresdner
G.

,

Gross
B.

,

Gross
B.

,

Sumer
S.O.

,

Sun
Y.

,

Jacobsen
A.

,

Sinha
R.

,

Larsson
E.

et al. .

Integrativ analyse af kompleks kræftgenomik og kliniske profiler ved hjælp af cBioPortal

.

Sci. Signal.
2013

;

6

:

pl1

.

Jiang
S.

,

Xie
Y.

,

He
Z.

,

Zhang
Y.

,

Zhao
Y.

,

Chen
L.

,

Zheng
Y.

,

Miao
Y.

,

Zuo
Z.

,

Ren
J.
m6ASNP: et værktøj til annotering af genetiske varianter efter m6A-funktion

.

Gigascience

.

2018

;

7

:

giy035

.

Mateo
L.

,

Guitart-Pla
O.

,

Pons
C.

,

Duran-Frigola
M.

,

Mosca
R.

,

Aloy
P.
A PanorOmic view of personal cancer genomes

.

Nucleic Acids Res.
2017

;

45

:

W195

W200

.

Teng
X.

,

Chen
X.

,

Xue
H.

,

Tang
Y.

,

Zhang
P.

,

Kang
Q.

,

Hao
Y.

,

Chen
R.

,

Zhao
Y.

,

He
S.
NPInter v4.0: an integrated database of ncRNA interactions

.

Nucleic Acids Res.
202020

;

48

:

D160

D165

.

Author notes

Forfatterne ønsker at få oplyst, at de to første forfattere efter deres mening skal betragtes som fælles førsteforfattere.

© The Author(s) 2019. Udgivet af Oxford University Press på vegne af NAR Genomics and Bioinformatics.
Dette er en Open Access-artikel, der distribueres i henhold til vilkårene i Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/), som tillader ikke-kommerciel genbrug, distribution og reproduktion i ethvert medie, forudsat at det originale værk er korrekt citeret. For kommerciel videreanvendelse bedes du kontakte [email protected]

Skriv en kommentar