Abstract
Los gráficos Circos son ampliamente utilizados para mostrar datos genómicos multidimensionales de próxima generación, pero las implementaciones existentes de Circos no son interactivas con soporte limitado de tipos de datos. Aquí, desarrollamos Circos de próxima generación (NG-Circos), una herramienta flexible de visualización del genoma circular basada en JavaScript para diseñar gráficos Circos altamente interactivos utilizando 21 módulos funcionales con varios tipos de datos. Hasta donde sabemos, NG-Circos es el software más potente para construir gráficos Circos interactivos. Al soportar diversos tipos de datos en una interfaz de navegador dinámica, NG-Circos acelerará la visualización e interpretación de datos de próxima generación, promoviendo así la investigación reproducible en las ciencias biomédicas y más allá. NG-Circos está disponible en https://wlcb.oit.uci.edu/NG-Circos y https://github.com/YaCui/NG-Circos.
INTRODUCCIÓN
La visualización de los crecientes volúmenes de datos biológicos de nueva generación es fundamental para la interpretación de dichos datos. Los gráficos Circos son representaciones visuales circulares bidimensionales que proporcionan una solución integral para la presentación e interpretación de datos genómicos multidimensionales. Circos (1), la herramienta predominante para hacer gráficos Circos, se ha utilizado ampliamente para la visualización de datos biológicos complejos en muchos estudios. Sin embargo, los resultados de Circos no son interactivos. Otras herramientas derivadas de Circos, como Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) son incapaces de producir gráficos Circos interactivos en un navegador web o están limitados a tipos de datos específicos. Nuestra herramienta anterior, BioCircos.js (10), parece ser el único software publicado capaz de producir gráficos Circos interactivos y se ha convertido en la herramienta más avanzada en este campo (11-12). Sin embargo, BioCircos.js (10) sólo implementa nueve módulos funcionales, lo que limita su alcance para realizar tareas analíticas adicionales.
Para abordar esta debilidad, aquí desarrollamos Circos de próxima generación (NG-Circos), una herramienta de visualización del genoma circular basada en JavaScript que se extiende más allá del marco de BioCircos.js (10) para integrar e interpretar tipos de datos genómicos a través de gráficos Circos interactivos. NG-Circos contiene actualmente 21 módulos, permitiendo varias funciones que estaban ausentes en otras herramientas (incluyendo BioCircos.js (10)). Al soportar diversos tipos de datos genómicos en una interfaz de navegador interactiva, NG-Circos acelerará la visualización e interpretación de datos de próxima generación, promoviendo así la investigación reproducible en las ciencias biomédicas y más allá.
MATERIALES Y MÉTODOS
Implementación de NG-Circos
NG-Circos está escrito en JavaScript y genera gráficos interactivos con elementos SVG basados en D3.js (documentos basados en datos) y jQuery.js. Basado en JavaScript, NG-Circos puede utilizarse sin necesidad de instalar paquetes adicionales. Después de descargar NG-Circos, los usuarios pueden reproducir casi todos los gráficos circulares dibujados por Circos con un navegador web. Tenga en cuenta que NG-Circos en sí no es una aplicación web, sino una biblioteca para construir gráficos interactivos de Circos en aplicaciones web.
Implementación de la función de descarga de imágenes en NG-Circos
La función de descarga en NG-Circos se construye utilizando el svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) de The New York Times. NG-Circos soporta ahora los formatos SVG y PNG. El formato de imagen SVG permite a los usuarios extraer imágenes de alta calidad que pueden ser utilizadas posteriormente en Adobe Illustrator.
Procesamiento de datos de entrada en NG-Circos
Proporcionamos un script de procesamiento de datos (escrito por python y shell) para procesar los datos en bruto, permitiendo a los usuarios transformar fácilmente sus datos en formato JSON con parámetros por defecto para el módulo correspondiente. En particular, los datos de entrada de NG-Circos pueden ser generados por los scripts de python de apoyo, o directamente a través de los formatos de datos JSON bien documentados. Los usuarios pueden integrar NG-Circos en una aplicación web existente basada en JavaScript que tenga sus propias estructuras de datos JSON internas. Proporcionamos un ejemplo para cada módulo con el fin de ilustrar la estructura de datos de entrada y todos los pasos necesarios para recrear ese ejemplo (https://wlcb.oit.uci.edu/modules/).
Procesamiento de datos GWAS en LocusZoom plot
En la Figura 1F, utilizamos PLINK (13) para calcular el valor r-cuadrado de poblaciones específicas y para extraer la tasa de recombinación de los datos de Hapmap3 (14) para SNPs especificados.
Navegadores web compatibles con NG-Circos
La velocidad de ejecución de NG-Circos depende de la potencia de cálculo de los navegadores y del hardware. NG-Circos ha superado la depuración y el examen en los principales navegadores de Internet, incluidos Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari y Opera.
RESULTADOS
Flujo de trabajo de NG-Circos
NG-Circos tiene un flujo de trabajo muy fácil de usar. Tiene tres pasos principales para dibujar un gráfico Circos interactivo: El paso 1 incluye el dibujo de los cromosomas (u otros segmentos) como ejes de coordenadas. El paso 2 implica la adición de varias pistas de datos utilizando los módulos pertinentes con una gran flexibilidad en la elección de los módulos (actualmente hay 21 módulos implementados, Tabla Suplementaria S1). Los datos de entrada de NG-Circos pueden ser generados por los scripts python de apoyo, o directamente a través de los formatos de datos JSON bien documentados. Para cada módulo, proporcionamos un ejemplo que incluye los archivos de datos de entrada y todos los pasos para recrear ese ejemplo (https://wlcb.oit.uci.edu/modules/). Finalmente, el paso 3 incorpora animaciones interactivas, eventos de ratón (Tabla Suplementaria S2) y diseño de cajas de herramientas para elementos gráficos. NG-Circos es altamente personalizable, lo que permite a los usuarios ajustar la configuración personal. También proporcionamos un conjunto de configuraciones por defecto cuidadosamente evaluadas para cada módulo y proporcionamos muchas demos para que NG-Circos sea fácil de usar. Además, la capacidad de NG-Circos puede ampliarse de forma sencilla incluyendo más módulos funcionales en el paso 2.
NG-Circos proporciona opciones de módulos flexibles para diversas parcelas Circos
La versión actual de NG-Circos consta de 21 módulos (Tabla Suplementaria S1). La combinación de módulos en NG-Circos permite a los usuarios construir diversos tipos de gráficos Circos. Por ejemplo, NG-Circos puede reproducir complejos gráficos Circos publicados (15) combinando los módulos ARC, GENE, HEATMAP, LINK y WIG (Figura 1A). NG-Circos no sólo puede reproducir complejos gráficos Circos publicados, sino que también puede ofrecer funciones adicionales como proporcionar populares demostraciones de gráficos Circos interactivos (por ejemplo, gráficos Lollipop, Wig y LocusZoom (16)) mostrados en la Figura 1B-F (15) (17) (18) (19), que no se ven en otras herramientas. Además, ofrecemos más demos en el sitio web (https://wlcb.oit.uci.edu/NG-Circos) para mostrar la potencia de esta herramienta: los usuarios pueden sustituir fácilmente los datos de la demo por sus datos para producir sus propios gráficos. Todas las figuras pueden descargarse en formato SVG y PNG, en el que el formato SVG ofrece a los usuarios imágenes de alta calidad que pueden utilizarse en otras aplicaciones como Adobe Illustrator. En general, NG-Circos ofrece a los usuarios una gran flexibilidad en la elección de módulos y tipos de gráficos Circos.
Demos de NG-Circos. (A) Parcelas Circos complejas publicadas reproducidas usando NG-Circos; se pueden encontrar descripciones detalladas en Akdemir et al. (15). (B) Demo que muestra las estructuras de los genes usando NG-Circos; los datos son de Akdemir et al. (15). (C) Demo de Chord plot mostrando los cambios de genes regulados por IL-6 en diferentes células (17). (D) Demostración del gráfico Lollipop diseñado por NG-Circos; los datos son de Schultheis et al. (18). (E) Demostración del módulo COMPARE en NG-Circos. Las mutaciones en el promotor PVT1 cambian los genes objetivo del potenciador. El gráfico de la peluca muestra las modificaciones H3K4me3 (azul) y H3K9me3 (rojo) (19). (F) Demostración de la trama LocusZoom diseñada por NG-Circos. Los nombres de los módulos de las pistas en (A-F) están marcados con texto rojo.
Demos de NG-Circos. (A) Parcelas Circos complejas publicadas reproducidas usando NG-Circos; las descripciones detalladas se pueden encontrar en Akdemir et al. (15). (B) Demo que muestra las estructuras de los genes usando NG-Circos; los datos son de Akdemir et al. (15). (C) Demo de Chord plot mostrando los cambios de genes regulados por IL-6 en diferentes células (17). (D) Demostración del gráfico Lollipop diseñado por NG-Circos; los datos son de Schultheis et al. (18). (E) Demostración del módulo COMPARE en NG-Circos. Las mutaciones en el promotor PVT1 cambian los genes objetivo del potenciador. El gráfico de la peluca muestra las modificaciones H3K4me3 (azul) y H3K9me3 (rojo) (19). (F) Demostración de la trama LocusZoom diseñada por NG-Circos. Los nombres de los módulos de los trazados en (A-F) están marcados con texto rojo.
Estudio de caso para la exploración interactiva de datos utilizando NG-Circos
Aquí presentamos un estudio de caso para ilustrar aún más el poder de la exploración interactiva de datos utilizando NG-Circos. En este caso, los usuarios pueden explorar de forma interactiva los polimorfismos de nucleótido único (SNP), las fusiones de genes y su impacto en la estructura de las proteínas en el cáncer de pulmón (Figura 2). Por ejemplo, los eventos del ratón muestran las frecuencias de SNP en el cáncer de pulmón de la base de datos del Catálogo de Mutaciones Somáticas en el Cáncer (COSMIC) (Figura 2B) (20) y la estructura proteica tridimensional (3D) de una fusión de genes EML4-ALK (Figura 2C) (21). Sorprendentemente, NG-Circos también puede redirigir elementos (como SNPs o fusiones de genes) a recursos externos. Por ejemplo, al hacer clic en un SNP, como la variante T790M del EGFR, se abre una nueva página web de la base de datos del Banco de Datos de Proteínas (PDB), que muestra la estructura 3D del EGFR afectada por la variante T790M (Figura 2D; código PDB: 2JIT) (22). En resumen, NG-Circos sirve como una gran herramienta para explorar los datos genómicos de forma interactiva, de manera que los usuarios pueden extraer información adicional pasando el ratón por encima y haciendo clic en los gráficos.
Uso de NG-Circos para la visualización e interpretación integradora de datos. (A) Combinación flexible de varios módulos en NG-Circos para visualizar múltiples tipos de datos biológicos. El anillo exterior representa los ideogramas de los cromosomas. Moviéndose hacia el interior del anillo exterior, las pistas de datos representan CNVs somáticas, densidad de variantes, mutaciones somáticas y fusiones de genes. Excepto los datos simulados de densidad de variantes, todos los datos mostrados se han descargado de la base de datos COSMIC. (B) Pase el ratón por encima para mostrar los detalles de cada SNP. (C) Pase el ratón por encima para mostrar los detalles de cada fusión génica y su estructura proteica en 3D (en este caso, la fusión génica EML4-ALK). (D) Haga clic en un SNP (en este caso, la variante T790M del EGFR) para abrir una nueva página web en la base de datos PDB que muestra la estructura 3D del EGFR afectada por la variante T790M (código PDB: 2JIT).
Uso de NG-Circos para la visualización e interpretación integradora de datos. (A) Combinación flexible de varios módulos en NG-Circos para visualizar múltiples tipos de datos biológicos. El anillo exterior representa los ideogramas de los cromosomas. Moviéndose hacia el interior del anillo exterior, las pistas de datos representan CNVs somáticas, densidad de variantes, mutaciones somáticas y fusiones de genes. Excepto los datos simulados de densidad de variantes, todos los datos mostrados se han descargado de la base de datos COSMIC. (B) Pase el ratón por encima para mostrar los detalles de cada SNP. (C) Pase el ratón por encima para mostrar los detalles de cada fusión génica y su estructura proteica en 3D (en este caso, la fusión génica EML4-ALK). (D) Haga clic en un SNP (en este caso, la variante T790M del EGFR) para abrir una nueva página web en la base de datos PDB que muestra la estructura 3D del EGFR afectada por la variante T790M (código PDB: 2JIT).
DISCUSIÓN
La exploración interactiva de datos a través de diversos tipos de datos sin duda promoverá la visualización e interpretación de datos de próxima generación, con algunos ejemplos exitosos, como cBioPortal (23), visto en la investigación del cáncer. Los gráficos Circos se utilizan ampliamente para mostrar voluminosos datos genómicos de nueva generación, pero las implementaciones existentes de Circos no generan resultados interactivos, lo que dificulta su uso. Para solucionar este problema, NG-Circos ofrece opciones de módulos flexibles para la exploración de datos interactivos y diversos tipos de gráficos Circos. A medida que se generen tipos adicionales de datos genómicos en el futuro, seguiremos actualizando módulos funcionales adicionales para ampliar la potencia de NG-Circos. También mantendremos activamente NG-Circos y responderemos a las consultas de los usuarios. Al soportar diversos tipos de datos genómicos en una interfaz web interactiva, NG-Circos, creemos, mejorará la investigación genómica en el campo biomédico en el futuro.
DATOS SUPLEMENTARIOS
Los datos suplementarios están disponibles en NARGAB Online.
Agradecimientos
Reconocemos a Tianyi Zang, Yadong Wang y a los miembros del laboratorio Li por sus discusiones constructivas y su apoyo.
Financiación
Sin financiación externa.
Declaración de conflicto de intereses. Ninguno declarado.
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
.
;
:
–
.
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
Notas de los autores
Los autores desean que se sepa que, en su opinión, los dos primeros autores deben ser considerados como Primeros Autores Conjuntos.