NG-Circos: Circos de próxima generación para la visualización e interpretación de datos

Abstract

Los gráficos Circos son ampliamente utilizados para mostrar datos genómicos multidimensionales de próxima generación, pero las implementaciones existentes de Circos no son interactivas con soporte limitado de tipos de datos. Aquí, desarrollamos Circos de próxima generación (NG-Circos), una herramienta flexible de visualización del genoma circular basada en JavaScript para diseñar gráficos Circos altamente interactivos utilizando 21 módulos funcionales con varios tipos de datos. Hasta donde sabemos, NG-Circos es el software más potente para construir gráficos Circos interactivos. Al soportar diversos tipos de datos en una interfaz de navegador dinámica, NG-Circos acelerará la visualización e interpretación de datos de próxima generación, promoviendo así la investigación reproducible en las ciencias biomédicas y más allá. NG-Circos está disponible en https://wlcb.oit.uci.edu/NG-Circos y https://github.com/YaCui/NG-Circos.

INTRODUCCIÓN

La visualización de los crecientes volúmenes de datos biológicos de nueva generación es fundamental para la interpretación de dichos datos. Los gráficos Circos son representaciones visuales circulares bidimensionales que proporcionan una solución integral para la presentación e interpretación de datos genómicos multidimensionales. Circos (1), la herramienta predominante para hacer gráficos Circos, se ha utilizado ampliamente para la visualización de datos biológicos complejos en muchos estudios. Sin embargo, los resultados de Circos no son interactivos. Otras herramientas derivadas de Circos, como Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) son incapaces de producir gráficos Circos interactivos en un navegador web o están limitados a tipos de datos específicos. Nuestra herramienta anterior, BioCircos.js (10), parece ser el único software publicado capaz de producir gráficos Circos interactivos y se ha convertido en la herramienta más avanzada en este campo (11-12). Sin embargo, BioCircos.js (10) sólo implementa nueve módulos funcionales, lo que limita su alcance para realizar tareas analíticas adicionales.

Para abordar esta debilidad, aquí desarrollamos Circos de próxima generación (NG-Circos), una herramienta de visualización del genoma circular basada en JavaScript que se extiende más allá del marco de BioCircos.js (10) para integrar e interpretar tipos de datos genómicos a través de gráficos Circos interactivos. NG-Circos contiene actualmente 21 módulos, permitiendo varias funciones que estaban ausentes en otras herramientas (incluyendo BioCircos.js (10)). Al soportar diversos tipos de datos genómicos en una interfaz de navegador interactiva, NG-Circos acelerará la visualización e interpretación de datos de próxima generación, promoviendo así la investigación reproducible en las ciencias biomédicas y más allá.

MATERIALES Y MÉTODOS

Implementación de NG-Circos

NG-Circos está escrito en JavaScript y genera gráficos interactivos con elementos SVG basados en D3.js (documentos basados en datos) y jQuery.js. Basado en JavaScript, NG-Circos puede utilizarse sin necesidad de instalar paquetes adicionales. Después de descargar NG-Circos, los usuarios pueden reproducir casi todos los gráficos circulares dibujados por Circos con un navegador web. Tenga en cuenta que NG-Circos en sí no es una aplicación web, sino una biblioteca para construir gráficos interactivos de Circos en aplicaciones web.

Implementación de la función de descarga de imágenes en NG-Circos

La función de descarga en NG-Circos se construye utilizando el svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) de The New York Times. NG-Circos soporta ahora los formatos SVG y PNG. El formato de imagen SVG permite a los usuarios extraer imágenes de alta calidad que pueden ser utilizadas posteriormente en Adobe Illustrator.

Procesamiento de datos de entrada en NG-Circos

Proporcionamos un script de procesamiento de datos (escrito por python y shell) para procesar los datos en bruto, permitiendo a los usuarios transformar fácilmente sus datos en formato JSON con parámetros por defecto para el módulo correspondiente. En particular, los datos de entrada de NG-Circos pueden ser generados por los scripts de python de apoyo, o directamente a través de los formatos de datos JSON bien documentados. Los usuarios pueden integrar NG-Circos en una aplicación web existente basada en JavaScript que tenga sus propias estructuras de datos JSON internas. Proporcionamos un ejemplo para cada módulo con el fin de ilustrar la estructura de datos de entrada y todos los pasos necesarios para recrear ese ejemplo (https://wlcb.oit.uci.edu/modules/).

Procesamiento de datos GWAS en LocusZoom plot

En la Figura 1F, utilizamos PLINK (13) para calcular el valor r-cuadrado de poblaciones específicas y para extraer la tasa de recombinación de los datos de Hapmap3 (14) para SNPs especificados.

Navegadores web compatibles con NG-Circos

La velocidad de ejecución de NG-Circos depende de la potencia de cálculo de los navegadores y del hardware. NG-Circos ha superado la depuración y el examen en los principales navegadores de Internet, incluidos Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari y Opera.

RESULTADOS

Flujo de trabajo de NG-Circos

NG-Circos tiene un flujo de trabajo muy fácil de usar. Tiene tres pasos principales para dibujar un gráfico Circos interactivo: El paso 1 incluye el dibujo de los cromosomas (u otros segmentos) como ejes de coordenadas. El paso 2 implica la adición de varias pistas de datos utilizando los módulos pertinentes con una gran flexibilidad en la elección de los módulos (actualmente hay 21 módulos implementados, Tabla Suplementaria S1). Los datos de entrada de NG-Circos pueden ser generados por los scripts python de apoyo, o directamente a través de los formatos de datos JSON bien documentados. Para cada módulo, proporcionamos un ejemplo que incluye los archivos de datos de entrada y todos los pasos para recrear ese ejemplo (https://wlcb.oit.uci.edu/modules/). Finalmente, el paso 3 incorpora animaciones interactivas, eventos de ratón (Tabla Suplementaria S2) y diseño de cajas de herramientas para elementos gráficos. NG-Circos es altamente personalizable, lo que permite a los usuarios ajustar la configuración personal. También proporcionamos un conjunto de configuraciones por defecto cuidadosamente evaluadas para cada módulo y proporcionamos muchas demos para que NG-Circos sea fácil de usar. Además, la capacidad de NG-Circos puede ampliarse de forma sencilla incluyendo más módulos funcionales en el paso 2.

NG-Circos proporciona opciones de módulos flexibles para diversas parcelas Circos

La versión actual de NG-Circos consta de 21 módulos (Tabla Suplementaria S1). La combinación de módulos en NG-Circos permite a los usuarios construir diversos tipos de gráficos Circos. Por ejemplo, NG-Circos puede reproducir complejos gráficos Circos publicados (15) combinando los módulos ARC, GENE, HEATMAP, LINK y WIG (Figura 1A). NG-Circos no sólo puede reproducir complejos gráficos Circos publicados, sino que también puede ofrecer funciones adicionales como proporcionar populares demostraciones de gráficos Circos interactivos (por ejemplo, gráficos Lollipop, Wig y LocusZoom (16)) mostrados en la Figura 1B-F (15) (17) (18) (19), que no se ven en otras herramientas. Además, ofrecemos más demos en el sitio web (https://wlcb.oit.uci.edu/NG-Circos) para mostrar la potencia de esta herramienta: los usuarios pueden sustituir fácilmente los datos de la demo por sus datos para producir sus propios gráficos. Todas las figuras pueden descargarse en formato SVG y PNG, en el que el formato SVG ofrece a los usuarios imágenes de alta calidad que pueden utilizarse en otras aplicaciones como Adobe Illustrator. En general, NG-Circos ofrece a los usuarios una gran flexibilidad en la elección de módulos y tipos de gráficos Circos.

Figura 1.

Demos de NG-Circos. (A) Parcelas Circos complejas publicadas reproducidas usando NG-Circos; se pueden encontrar descripciones detalladas en Akdemir et al. (15). (B) Demo que muestra las estructuras de los genes usando NG-Circos; los datos son de Akdemir et al. (15). (C) Demo de Chord plot mostrando los cambios de genes regulados por IL-6 en diferentes células (17). (D) Demostración del gráfico Lollipop diseñado por NG-Circos; los datos son de Schultheis et al. (18). (E) Demostración del módulo COMPARE en NG-Circos. Las mutaciones en el promotor PVT1 cambian los genes objetivo del potenciador. El gráfico de la peluca muestra las modificaciones H3K4me3 (azul) y H3K9me3 (rojo) (19). (F) Demostración de la trama LocusZoom diseñada por NG-Circos. Los nombres de los módulos de las pistas en (A-F) están marcados con texto rojo.

Figura 1.

Demos de NG-Circos. (A) Parcelas Circos complejas publicadas reproducidas usando NG-Circos; las descripciones detalladas se pueden encontrar en Akdemir et al. (15). (B) Demo que muestra las estructuras de los genes usando NG-Circos; los datos son de Akdemir et al. (15). (C) Demo de Chord plot mostrando los cambios de genes regulados por IL-6 en diferentes células (17). (D) Demostración del gráfico Lollipop diseñado por NG-Circos; los datos son de Schultheis et al. (18). (E) Demostración del módulo COMPARE en NG-Circos. Las mutaciones en el promotor PVT1 cambian los genes objetivo del potenciador. El gráfico de la peluca muestra las modificaciones H3K4me3 (azul) y H3K9me3 (rojo) (19). (F) Demostración de la trama LocusZoom diseñada por NG-Circos. Los nombres de los módulos de los trazados en (A-F) están marcados con texto rojo.

Estudio de caso para la exploración interactiva de datos utilizando NG-Circos

Aquí presentamos un estudio de caso para ilustrar aún más el poder de la exploración interactiva de datos utilizando NG-Circos. En este caso, los usuarios pueden explorar de forma interactiva los polimorfismos de nucleótido único (SNP), las fusiones de genes y su impacto en la estructura de las proteínas en el cáncer de pulmón (Figura 2). Por ejemplo, los eventos del ratón muestran las frecuencias de SNP en el cáncer de pulmón de la base de datos del Catálogo de Mutaciones Somáticas en el Cáncer (COSMIC) (Figura 2B) (20) y la estructura proteica tridimensional (3D) de una fusión de genes EML4-ALK (Figura 2C) (21). Sorprendentemente, NG-Circos también puede redirigir elementos (como SNPs o fusiones de genes) a recursos externos. Por ejemplo, al hacer clic en un SNP, como la variante T790M del EGFR, se abre una nueva página web de la base de datos del Banco de Datos de Proteínas (PDB), que muestra la estructura 3D del EGFR afectada por la variante T790M (Figura 2D; código PDB: 2JIT) (22). En resumen, NG-Circos sirve como una gran herramienta para explorar los datos genómicos de forma interactiva, de manera que los usuarios pueden extraer información adicional pasando el ratón por encima y haciendo clic en los gráficos.

Figura 2.

Uso de NG-Circos para la visualización e interpretación integradora de datos. (A) Combinación flexible de varios módulos en NG-Circos para visualizar múltiples tipos de datos biológicos. El anillo exterior representa los ideogramas de los cromosomas. Moviéndose hacia el interior del anillo exterior, las pistas de datos representan CNVs somáticas, densidad de variantes, mutaciones somáticas y fusiones de genes. Excepto los datos simulados de densidad de variantes, todos los datos mostrados se han descargado de la base de datos COSMIC. (B) Pase el ratón por encima para mostrar los detalles de cada SNP. (C) Pase el ratón por encima para mostrar los detalles de cada fusión génica y su estructura proteica en 3D (en este caso, la fusión génica EML4-ALK). (D) Haga clic en un SNP (en este caso, la variante T790M del EGFR) para abrir una nueva página web en la base de datos PDB que muestra la estructura 3D del EGFR afectada por la variante T790M (código PDB: 2JIT).

Figura 2.

Uso de NG-Circos para la visualización e interpretación integradora de datos. (A) Combinación flexible de varios módulos en NG-Circos para visualizar múltiples tipos de datos biológicos. El anillo exterior representa los ideogramas de los cromosomas. Moviéndose hacia el interior del anillo exterior, las pistas de datos representan CNVs somáticas, densidad de variantes, mutaciones somáticas y fusiones de genes. Excepto los datos simulados de densidad de variantes, todos los datos mostrados se han descargado de la base de datos COSMIC. (B) Pase el ratón por encima para mostrar los detalles de cada SNP. (C) Pase el ratón por encima para mostrar los detalles de cada fusión génica y su estructura proteica en 3D (en este caso, la fusión génica EML4-ALK). (D) Haga clic en un SNP (en este caso, la variante T790M del EGFR) para abrir una nueva página web en la base de datos PDB que muestra la estructura 3D del EGFR afectada por la variante T790M (código PDB: 2JIT).

DISCUSIÓN

La exploración interactiva de datos a través de diversos tipos de datos sin duda promoverá la visualización e interpretación de datos de próxima generación, con algunos ejemplos exitosos, como cBioPortal (23), visto en la investigación del cáncer. Los gráficos Circos se utilizan ampliamente para mostrar voluminosos datos genómicos de nueva generación, pero las implementaciones existentes de Circos no generan resultados interactivos, lo que dificulta su uso. Para solucionar este problema, NG-Circos ofrece opciones de módulos flexibles para la exploración de datos interactivos y diversos tipos de gráficos Circos. A medida que se generen tipos adicionales de datos genómicos en el futuro, seguiremos actualizando módulos funcionales adicionales para ampliar la potencia de NG-Circos. También mantendremos activamente NG-Circos y responderemos a las consultas de los usuarios. Al soportar diversos tipos de datos genómicos en una interfaz web interactiva, NG-Circos, creemos, mejorará la investigación genómica en el campo biomédico en el futuro.

DATOS SUPLEMENTARIOS

Los datos suplementarios están disponibles en NARGAB Online.

Agradecimientos

Reconocemos a Tianyi Zang, Yadong Wang y a los miembros del laboratorio Li por sus discusiones constructivas y su apoyo.

Financiación

Sin financiación externa.

Declaración de conflicto de intereses. Ninguno declarado.

Krzywinski
M.

,

Schein
J.

,

Birol
I.

,

Connors
J.

,

Gascoyne
R.

,

Horsman
D.

,

Jones
S.J.

,

Marra
M.A.
Circos: una estética de la información para la genómica comparativa

.

Genome Res.
2009

;

19

:

1639

1645

.

Darzentas
N.
Circoletto: visualización de la similitud de secuencias con Circos

.

Bioinformática

.

2010

;

26

:

2620

2621

.

Naquin
D.

,

d’Aubenton-Carafa
Y.

,

Thermes
C.

,

Silvain
M.
CIRCUS: a package for Circos display of structural genome variations from paired-end and mate-pair sequencing data

.

BMC Bioinformatics

.

2014

;

15

:

198

.

An
J.

,

Lai
J.

,

Sajjanhar
A.

,

Batra
J.

,

Wang
C.

,

Nelson
C.C.
J-Circos: an interactive Circos plotter

.

Bioinformática

.

2015

;

31

:

1463

1465

.

Yu
Y.

,

Ouyang
Y.

,

Yao
W.
ShinyCircos: an R/Shiny application for interactive creation of Circos plot

.

Bioinformática

.

2018

;

34

:

1229

1231

.

Zhang
H.

,

Meltzer
P.

,

Davis
S.
RCircos: an R package for Circos 2D track plots

.

BMC Bioinformatics

.

2013

;

14

:

244

.

Crabtree
J.

,

Agrawal
S.

,

Mahurkar
A.

,

Myers
G.S.

,

Rasko
D.A.

,

White
O.
Circleator: visualización circular flexible de datos asociados al genoma con BioPerl y SVG

.

Bioinformática

.

2014

;

30

:

3125

3127

.

Hu
Y.

,

Yan
C.

,

Hsu
C.H.

,

Chen
Q.R.

,

Niu
K.

,

Komatsoulis
G.A.

,

Meerzaman
D.
Omiccircos: un paquete de R fácil de usar para la visualización circular de datos Omics multidimensionales

.

Cancer Inform.
2014

;

13

:

13

20

.

Yin
T.

,

Cook
D.

,

Lawrence
M.
ggbio: an R package for extending the grammar of graphics for genomic data

.

Genome Biol.
2012

;

13

:

R77

.

Cui
Y.

,

Chen
X.

,

Luo
H.

,

Fan
Z.

,

Luo
J.

,

He
S.

,

Yue
H.

,

Zhang
P.

,

Chen
R.
BioCircos.js: una biblioteca interactiva Circos JavaScript para la visualización de datos biológicos en aplicaciones web

.

Bioinformática

.

2016

;

32

:

1740

1742

.

Juanillas
V.

,

Dereeper
A.

,

Beaume
N.

,

Droc
G.

,

Dizon
J.

,

Mendoza
J.R.

,

Perdon
J.P.

,

Mansueto
L.

,

Triplett
L.

,

Lang
J.

et al. .

Galaxia del arroz: un recurso abierto para la ciencia de las plantas

.

Gigascience

.

2019

;

8

:

giz028

.

Nott
A.

,

Holtman
I.R.

,

Coufal
N.G.

,

Schlachetzki
J.C.M.

,

Yu
M.

,

Hu
R.

,

Han
C.Z.

,

Pena
M.

,

Xiao
J.

,

Wu
Y.

et al. .

Mapas del interactoma potenciador-promotor específicos del tipo de célula cerebral y asociación de riesgo de enfermedad

.

Ciencia

.

2019

;

366

:

1134

1139

.

Purcell
S.

,

Neale
B.

,

Todd-Brown
K.

,

Thomas
L.

,

Ferreira
M.A.R.

,

Bender
D.

,

Maller
J.

,

Sklar
P.

,

De Bakker
P.I.W.

,

Daly
M.J.

et al. .

PLINK: a tool set for whole-genome association and population-based linkage analyses

.

Am. J. Hum. Genet.
2007

;

81

:

559

575

.

Belmont
J.W.

,

Hardenbol
P.

,

Willis
T.D.

,

Yu
F.

,

Yang
H.

,

Ch’Ang
L.Y.

,

Huang
W.

,

Liu
B.

,

Shen
Y.

,

Tam
P.K.H.

et al. .

El proyecto internacional HapMap

.

Nature

.

2003

;

426

:

789

796

.

Akdemir
K.C.

,

Jain
A.K.

,

Allton
K.

,

Aronow
B.

,

Xu
X.

,

Cooney
A.J.

,

Li
W.

,

Barton
M.C.
La elaboración de perfiles genómicos revela funciones de p53 específicas para cada estímulo durante la diferenciación y el daño del ADN de las células madre embrionarias humanas

.

Nucleic Acids Res.
2014

;

42

:

205

223

.

Pruim
R.J.

,

Welch
R.P.

,

Sanna
S.

,

Teslovich
T.M.

,

Chines
P.S.

,

Gliedt
T.P.

,

Boehnke
M.

,

Abecasis
G.R.

,

Willer
C.J.

,

Frishman
D.
LocusZoom: visualización regional de los resultados del escaneo de asociación del genoma completo

.

Bioinformática

.

2011

;

26

:

2336

2337

.

Twohig
J.P.

,

Cardus Figueras
A.

,

Andrews
R.

,

Wiede
F.

,

Cossins
B.C.

,

Derrac Soria
A.

,

Lewis
M.J.

,

Townsend
M.J.

,

Millrine
D.

,

Li
J.

et al. .

La activación de las células T CD4 + ingenuas reajusta la señalización de STAT1 para ofrecer respuestas de citoquinas únicas en las células T CD4 + de memoria

.

Nat. Immunol.
2019

;

20

:

458

470

.

Schultheis
A.M.

,

Martelotto
L.G.

,

De Filippo
M.R.

,

Piscuglio
S.

,

Ng
C.K.Y.

,

Hussein
Y.R.

,

Reis-Filho
J.S.

,

Soslow
R.A.

,

Weigelt
B.
Espectro mutacional de PT53 en cánceres endometrioides y serosos de endometrio

.

Int. J. Gynecol. Pathol.
2016

;

35

:

289

300

.

Cho
S.W.

,

Xu
J.

,

Sun
R.

,

Mumbach
M.R.

,

Carter
A.C.

,

Chen
Y.G.

,

Yost
K.E.

,

Kim
J.

,

He
J.

,

Nevins
S.A.

et al.

El promotor del gen lncRNA PVT1 es un elemento límite del ADN supresor de tumores

.

Célula

.

2018

;

173

:

1398

1412

.

Forbes
S.A.

,

Beare
D.

,

Boutselakis
H.

,

Bamford
S.

,

Bindal
N.

,

Tate
J.

,

Cole
C.G.

,

Ward
S.

,

Dawson
E.

,

Ponting
L.

et al. .

COSMIC: genética somática del cáncer en alta resolución

.

Nucleic Acids Res.
2017

;

45

:

D777

D783

.

Wang
D.

,

Li
D.

,

Qin
G.

,

Zhang
W.

,

Ouyang
J.

,

Zhang
M.

,

Xie
L.
La caracterización estructural de genes y proteínas de fusión tumorales

.

Comput. Math. Methods Med.
2015

;

2015

:

doi:10.1155/2015/912742

.

Yun
C.H.

,

Mengwasser
K.E.

,

Toms
A. V.

,

Woo
M.S.

,

Greulich
H.

,

Wong
K.K.

,

Meyerson
M.

,

Eck
M.J.
La mutación T790M en la quinasa del EGFR causa resistencia a los fármacos al aumentar la afinidad por el ATP

.

Proc. Natl. Acad. Sci. U.S.A.
2008

;

105

:

2070

2075

.

Gao
J.

,

Aksoy
B.A.

,

Dogrusoz
U.

,

Dresdner
G.

,

Gross
B.

,

Sumer
S.O.

,

Sun
Y.

,

Jacobsen
A.

,

Sinha
R.

,

Larsson
E.

et al. .

Análisis integrativo de la genómica compleja del cáncer y de los perfiles clínicos utilizando el cBioPortal

.

Sci. Signal.
2013

;

6

:

pl1

.

Jiang
S.

,

Xie
Y.

,

He
Z.

,

Zhang
Y.

,

Zhao
Y.

,

Chen
L.

,

Zheng
Y.

,

Miao
Y.

,

Zuo
Z.

,

Ren
J.
m6ASNP: una herramienta para la anotación de variantes genéticas por función m6A

.

Gigascience

.

2018

;

7

:

giy035

.

Mateo
L.

,

Guitart-Pla
O.

,

Pons
C.

,

Duran-Frigola
M.

,

Mosca
R.

,

Aloy
P.
Una visión panorámica de los genomas personales del cáncer

.

Nucleic Acids Res.
2017

;

45

:

W195

W200

.

Teng
X.

,

Chen
X.

,

Xue
H.

,

Tang
Y.

,

Zhang
P.

,

Kang
Q.

,

Hao
Y.

,

Chen
R.

,

Zhao
Y.

,

He
S.
NPInter v4.0: una base de datos integrada de interacciones de ncRNA

.

Nucleic Acids Res.
2020

;

48

:

D160

D165

.

Notas de los autores

Los autores desean que se sepa que, en su opinión, los dos primeros autores deben ser considerados como Primeros Autores Conjuntos.

© The Author(s) 2019. Publicado por Oxford University Press en nombre de NAR Genomics and Bioinformatics.
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/), que permite la reutilización, distribución y reproducción no comercial en cualquier medio, siempre que se cite adecuadamente la obra original. Para la reutilización comercial, póngase en contacto con [email protected]

Deja un comentario