NG-Circos: Circos de próxima geração para visualização e interpretação de dados

Abstract

Circos são amplamente utilizados para exibir dados genômicos multidimensionais de próxima geração, mas implementações existentes de Circos não são interativas com suporte limitado de tipos de dados. Aqui, desenvolvemos a próxima geração de Circos (NG-Circos), uma ferramenta flexível de visualização do genoma circular baseada em JavaScript para projetar gráficos Circos altamente interativos, usando 21 módulos funcionais com vários tipos de dados. Para nosso conhecimento, o NG-Circos é o software mais poderoso para construir gráficos circulares interativos. Ao suportar diversos tipos de dados em uma interface dinâmica de navegador, o NG-Circos irá acelerar a próxima geração de visualização e interpretação de dados, promovendo assim a pesquisa reprodutível em ciências biomédicas e além. O NG-Circos está disponível em https://wlcb.oit.uci.edu/NG-Circos e https://github.com/YaCui/NG-Circos.

INTRODUÇÃO

Visualizar volumes crescentes de dados biológicos de próxima geração é fundamental para a interpretação de tais dados. Os gráficos circulares são representações visuais bidimensionais circulares que fornecem uma solução abrangente para a apresentação e interpretação de dados genómicos multidimensionais. Circos (1), a ferramenta predominante para a realização de gráficos circulares, tem sido amplamente utilizada para a visualização de dados biológicos complexos em muitos estudos. Entretanto, as saídas do Circos não são interativas. Outras ferramentas derivadas do Circos, tais como Circoletto (2), CIRCUS (3), J-Circos (4), ShinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) são incapazes de produzir gráficos Circos interativos em um navegador web ou estão limitados a tipos de dados específicos. Nossa ferramenta desenvolvida anteriormente, BioCircos.js (10), parece ser o único software publicado capaz de produzir gráficos Circos interativos e se tornou a ferramenta de última geração no campo (11-12). No entanto, BioCircos.js (10) implementa apenas nove módulos funcionais, limitando seu escopo para realizar tarefas analíticas adicionais.

Para resolver esta fraqueza, aqui desenvolvemos o Circos de próxima geração (NG-Circos), uma ferramenta de visualização de genoma circular baseada em JavaScript que se estende além da estrutura do BioCircos.js (10) para integrar e interpretar tipos de dados genômicos através de gráficos Circos interativos. O NG-Circos contém atualmente 21 módulos, permitindo várias funções que estavam ausentes em outras ferramentas (incluindo BioCircos.js (10)). Ao suportar diversos tipos de dados genômicos em uma interface interativa de navegador, o NG-Circos irá acelerar a próxima geração de visualização e interpretação de dados, promovendo assim a pesquisa reprodutível em ciências biomédicas e além.

MATERIAIS E MÉTODOS

Implantação do NG-Circos

NG-Circos é escrito em JavaScript e gera gráficos interativos com elemento SVG baseado em D3.js (documentos orientados a dados) e jQuery.js. Baseado em JavaScript, NG-Circos pode ser usado sem a instalação de pacotes adicionais. Após o download do NG-Circos, os usuários podem reproduzir quase todos os gráficos circulares desenhados pelo Circos com um navegador web. Note que NG-Circos em si não é uma aplicação web, mas uma biblioteca para construir gráficos circulares interativos em aplicações web.

Implementando a função de download de imagens no NG-Circos

A função de download no NG-Circos é construída usando o svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) do The New York Times. O NG-Circos agora suporta os formatos SVG e PNG. O formato de imagem SVG permite aos usuários extrair imagens de alta qualidade que podem ser utilizadas no Adobe Illustrator.

Entrada de processamento de dados no NG-Circos

Fornecemos um script de processamento de dados (escrito por python e shell) para processar dados brutos, permitindo aos usuários transformar facilmente seus dados em formato JSON com parâmetros padrão para o módulo correspondente. Notavelmente, os dados de entrada do NG-Circos podem ser gerados pelos scripts python de suporte, ou diretamente através dos bem documentados formatos de dados JSON. Os usuários podem integrar o NG-Circos em uma aplicação web baseada em JavaScript existente, que tem suas próprias estruturas de dados JSON internas. Nós fornecemos um exemplo para cada módulo para ilustrar a estrutura de dados de entrada e todos os passos necessários para recriar esse exemplo (https://wlcb.oit.uci.edu/modules/).

Processamento de dados GWAS no gráfico LocusZoom

Na Figura 1F, nós usamos PLINK (13) para calcular o valor r-quadrado de populações específicas e para extrair a taxa de recombinação dos dados do Hapmap3 (14) para SNPs especificados.

Web browsers suportados pelo NG-Circos

A velocidade de funcionamento do NG-Circos depende da potência de computação dos browsers e do hardware. O NG-Circos passou na depuração e exame de todos os principais navegadores de internet incluindo Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari e Opera.

RESULTADOS

Workflow do NG-Circos

NG-Circos tem um workflow altamente amigável. Tem três passos principais para desenhar um gráfico Circos interactivo: O passo 1 inclui o desenho de cromossomas (ou outros segmentos) como os eixos coordenados. O passo 2 envolve a adição de várias pistas de dados usando os módulos relevantes com alta flexibilidade na escolha dos módulos (21 módulos estão atualmente implementados, Tabela Suplementar S1). Os dados de entrada do NG-Circos podem ser gerados pelos scripts python de suporte, ou diretamente através dos bem documentados formatos de dados JSON. Para cada módulo, nós fornecemos um exemplo que inclui os arquivos de dados de entrada e todos os passos para recriar esse exemplo (https://wlcb.oit.uci.edu/modules/). Finalmente, o passo 3 incorpora animações interativas, eventos do mouse (Tabela Complementar S2) e caixas de ferramentas de design para elementos gráficos. O NG-Circos é altamente personalizável, permitindo aos usuários ajustar as configurações pessoais. Nós também fornecemos um conjunto de configurações padrão cuidadosamente avaliadas para cada módulo e fornecemos muitas demonstrações para tornar o NG-Circos fácil de usar. Além disso, a capacidade do NG-Circos pode ser simplesmente ampliada, incluindo mais módulos funcionais no passo 2.

NG-Circos fornece opções flexíveis de módulos para diversos gráficos Circos

A versão atual do NG-Circos consiste em 21 módulos (Tabela Suplementar S1). A combinação de módulos no NG-Circos permite aos utilizadores construir diversos tipos de parcelas Circos. Por exemplo, o NG-Circos pode reproduzir gráficos Circos complexos publicados (15) combinando os módulos ARC, GENE, HEATMAP, LINK e WIG (Figura 1A). Não apenas o NG-Circos pode reproduzir gráficos Circos complexos publicados, mas também pode render funções adicionais, tais como fornecer demonstrações populares de gráficos Circos interativos (por exemplo, Lollipop, Wig e LocusZoom (16)) mostrados na Figura 1B-F (15) (17) (18) (19), que não são vistos em outras ferramentas. Além disso, oferecemos mais demos no website online (https://wlcb.oit.uci.edu/NG-Circos) para mostrar o poder desta ferramenta: os usuários podem facilmente substituir os dados demo pelos seus dados para produzir os seus próprios gráficos. Todas as figuras podem ser baixadas no formato SVG e PNG, no qual o formato SVG torna as imagens de alta qualidade que podem ser utilizadas através de outras aplicações, como o Adobe Illustrator. Em geral, NG-Circos oferece aos usuários grande flexibilidade na escolha de módulos e tipos de gráficos Circos.

Figure 1.

Demos de NG-Circos. (A) Lotes complexos publicados Circos reproduzidos usando o NG-Circos; descrições detalhadas podem ser encontradas em Akdemir et al. (15). (B) Demonstração mostrando estruturas gênicas usando o NG-Circos; dados são de Akdemir et al. (15). (C) Demonstração do plot de Chord mostrando as mudanças genéticas reguladas pela IL-6 em diferentes células (17). (D) Demonstração do gráfico de Lollipop desenhado pela NG-Circos; os dados são de Schultheis et al. (18). (E) Demonstração do módulo COMPARE na NG-Circos. Mutações no promotor de mudança PVT1 melhoram os genes alvos do promotor. O gráfico da peruca mostra as modificações de H3K4me3 (azul) e H3K9me3 (vermelho) (19). (F) Demonstração do gráfico LocusZoom desenhado pela NG-Circos. Os nomes dos módulos de pistas em (A-F) são marcados com texto vermelho.

Figure 1.

Demos de NG-Circos. (A) Lotes complexos publicados Circos reproduzidos usando o NG-Circos; descrições detalhadas podem ser encontradas em Akdemir et al. (15). (B) Demonstração mostrando estruturas gênicas usando o NG-Circos; dados são de Akdemir et al. (15). (C) Demonstração do plot de Chord mostrando as mudanças genéticas reguladas pela IL-6 em diferentes células (17). (D) Demonstração do gráfico de Lollipop desenhado pela NG-Circos; os dados são de Schultheis et al. (18). (E) Demonstração do módulo COMPARE na NG-Circos. Mutações no promotor de mudança PVT1 melhoram os genes alvos do promotor. O gráfico da peruca mostra as modificações de H3K4me3 (azul) e H3K9me3 (vermelho) (19). (F) Demonstração do gráfico LocusZoom desenhado pela NG-Circos. Os nomes dos módulos das faixas em (A-F) são marcados com texto vermelho.

Estudo de caso para exploração de dados interativos usando NG-Circos

Aqui apresentamos um estudo de caso para ilustrar melhor o poder da exploração de dados interativos usando NG-Circos. Neste caso, os usuários podem explorar interativamente polimorfismos de nucleotídeos (SNPs), fusões de genes e seu impacto na estrutura proteica do câncer de pulmão (Figura 2). Por exemplo, o rato sobre eventos mostra as frequências de SNP no câncer de pulmão a partir do catálogo de mutações somáticas no câncer (COSMIC) (Figura 2B) (20) e a estrutura proteica tridimensional (3D) de uma fusão do gene EML4-ALK (Figura 2C) (21). Notavelmente, o NG-Circos também pode redirecionar elementos (como SNPs ou fusões de genes) para recursos externos. Por exemplo, clicando em um SNP, como a variante EGFR T790M, abre uma nova página na web do Banco de Dados de Proteínas (PDB), exibindo a estrutura 3D do EGFR afetado pela variante T790M (Figura 2D; código PDB: 2JIT) (22). Em resumo, o NG-Circos serve como uma ótima ferramenta para explorar dados genômicos de forma interativa, de modo que os usuários podem extrair informações adicionais com o mouse pairando e clicando nos gráficos.

Figure 2.

Usando o NG-Circos para visualização e interpretação integrativa de dados. (A) Combinação flexível de vários módulos no NG-Circos para visualização de múltiplos tipos de dados biológicos. O anel externo representa os ideogramas cromossômicos. Entrando do anel externo, os rastros de dados representam CNVs somáticos, densidade de variantes, mutações somáticas e fusões gênicas. Com exceção dos dados simulados de densidade de variantes, todos os dados mostrados são baixados da base de dados COSMIC. (B) Passe o mouse sobre para mostrar detalhes de cada SNP. (C) Passe o mouse sobre para mostrar detalhes de cada fusão de genes e sua estrutura de proteínas 3D (neste caso, a fusão do gene EML4-ALK). (D) Clique em um SNP (neste caso, a variante EGFR T790M) para abrir uma nova página na base de dados do PDB mostrando a estrutura 3D do EGFR (código PDB: 2JIT).

Figure 2.

Utilizar o NG-Circos para visualização e interpretação integrativa dos dados. (A) Combinação flexível de vários módulos no NG-Circos para visualização de múltiplos tipos de dados biológicos. O anel externo representa os ideogramas cromossômicos. Entrando do anel externo, os rastros de dados representam CNVs somáticos, densidade de variantes, mutações somáticas e fusões gênicas. Com exceção dos dados simulados de densidade de variantes, todos os dados mostrados são baixados da base de dados COSMIC. (B) Passe o mouse sobre para mostrar detalhes de cada SNP. (C) Passe o mouse sobre para mostrar detalhes de cada fusão de genes e sua estrutura de proteínas 3D (neste caso, a fusão do gene EML4-ALK). (D) Clique em um SNP (neste caso, a variante EGFR T790M) para abrir uma nova página na base de dados PDB mostrando a estrutura 3D do EGFR (código PDB: 2JIT) afetado pela variante T790M.

DISCUSSÃO

Exploração interativa de dados em diversos tipos de dados certamente promoverá a visualização e interpretação de dados da próxima geração, com alguns exemplos de sucesso, como o cBioPortal (23), visto na pesquisa sobre o câncer. Os gráficos Circos são amplamente utilizados para exibir dados genômicos volumosos da próxima geração, mas as implementações existentes do Circos não geram resultados interativos, o que dificulta a sua usabilidade. Para resolver este problema, a NG-Circos fornece módulos flexíveis para a exploração de dados interativos e diversos tipos de gráficos de Circos. Como tipos adicionais de dados genômicos são gerados no futuro, nós continuaremos atualizando módulos funcionais adicionais para ampliar a potência do NG-Circos. Nós também manteremos ativamente o NG-Circos e responderemos às consultas dos usuários. Ao suportar diversos tipos de dados genômicos em uma interface web interativa, o NG-Circos, acreditamos, irá melhorar a pesquisa genômica no campo biomédico no futuro.

Dados Suplementares

Dados Suplementares estão disponíveis no NARGAB Online.

ACENTECIMENTOS

Conhecemos Tianyi Zang, Yadong Wang e membros do laboratório Li por discussões construtivas e apoio.

FUNDANDO

Sem financiamento externo.

Conflito de interesses. Nenhum declarado.

Krzywinski
M.

,

Schein
J.

,

Birol
I.

,

Connors
J.

,

Gascoyne
R.

,

Horsman
D.

,

Jones
S.J.

,

Marra
M.A.
Circos: uma informação estética para a genómica comparativa

.

Res.Genoma
2009

;

19

:

1639

1645

.

>

Darzentas

>

N.
Circoletto: visualizando a semelhança de sequência com Circos

.

Bioinformática

.

2010

;

26

:

2620

2621

.

>

Naquin

>

D.

,

d’Aubenton-Carafa
Y.

,

Thermes
C.

,

Silvain
M.
CIRCUS: um pacote para a exibição de variações estruturais do genoma Circos a partir de dados de sequenciamento de pares de paíneis e pares de pares de pares de paíneis

.

BMC Bioinformática

.

2014

;

15

:

198

.

>

>

An

>

J.

,

Lai
J.

,

Sajjanhar
A.

,

Batra
J.

,

Wang
C.

,

Nelson
C.C.
J-Circos: um plotter Circos interactivo

.

Bioinformática

.

2015

;

31

:

1463

1465

.

>

>Yu

>

Y.

,

Ouyang
Y.

,

Yao
W.
ShinyCircos: uma aplicação R/Shiny para a criação interactiva da trama Circos

.

Bioinformática

.

2018

;

34

:

1229

1231

.

>

>Zhang

>

H.

,

Meltzer
P.

,

Davis
S.
RCircos: um pacote R para as parcelas de pista Circos 2D

.

BMC Bioinformática

.

2013

;

14

:

244

.

>

>

Crabtree

>

J.

,

Agrawal
S.

,

Mahurkar
A.

,

Myers
G.S.

,

Rasko
D.A.

,

White
O.
Circleator: visualização circular flexível de dados associados ao genoma com BioPerl e SVG

.

Bioinformática

.

2014

;

30

:

3125

3127

.

>

>Hu

>

Y.

,

Yan
C.

,

Hsu
C.H.

,

C.H.

,

Chen

>

Q.R.

,

Niu
K.

,

Komatsoulis
G.A.

,

Meerzaman
D.
Omiccircos: um pacote R simples de usar para a visualização circular de dados Ômicos multidimensionais

.

Cancer Inform.
2014

;

13

:

13

20

.

>

Yin

>

T.

,

Cook
D.

,

Lawrence
M.
ggbio: um pacote R para estender a gramática dos gráficos para dados genómicos

.

Genome Biol.
2012

;

13

:

R77

.

>

>Cui

>

Y.

,

Chen
X.

,

Luo
H.

,

Fan
Z.

,

Luo
J.

,

He
S.

,

Yue
H.

,

Zhang
P.

,

Chen
R.
BioCircos.js: uma biblioteca Circos JavaScript interactiva para visualização de dados biológicos em aplicações web

.

Bioinformática

.

2016

;

32

:

1740

1742

.

>

>Juanillas

>

V.

,

Dereeper
A.

,

Beaume
N.

,

Droc
G.

,

Dizon
J.

,

Mendoza
J.R.

,

Perdon

,

J.P.

,

Mansueto

,

L.

,

Triplett
L.

,

L.

,

L.
J.

et al. .

Galáxia do arroz: um recurso aberto para a ciência das plantas

.

Gigascience

.

2019

;

8

:

giz028

.

>

>Nott

>

A.

,

Holtman
I.R.

,

Coufal
N.G.

,

Schlachetzki
J.C.M.

,

Yu
M.

,

Hu
R.

,

Han
C.Z.

,

Pena
M.

,

Xiao
J.

,

Wu
Y.

et al. .

Mapas de interação entre o tipo de célula do cérebro e a associação de risco de doença

.

Ciência

.

2019

;

366

:

1134

1139

.

>

>Purcell

>

S.

,

Neale

>

B.

,

Todd-Brown
K.

,

Thomas
L.

,

Ferreira
M.A.R.

,

Bender

,

D.

,

Maller

,

J.

,

Sklar

,

P.

,

De Bakker
P.I.W.

,

Daly
M.J.

et al. .

PLINK: um conjunto de ferramentas para associação de genes inteiros e análises de ligação baseadas na população

.

Am. J. Hum. Genet.
2007

;

81

:

559

575

.

>

>Belmont

>

J.W.

,

Hardenbol
P.

,

Willis
T.D.

,

Yu
F.

,

Yang
H.

,

Ch’Ang
L.Y.

,

Huang
W.

,

Liu
B.

,

Shen
Y.

,

Tam
P.K.H.

et al. .

O projecto internacional HapMap

.

Natureza

.

2003

;

426

:

789

796

.

>

Akdemir
K.C.

,

Jain
A.K.

,

Allton
K.C.

,

Aronow
B.

,

Xu
X.

,

Cooney
A.J.

,

Li
W.

,

Barton
M.C.
Perfil de todo o genoma revela funções específicas do estímulo p53 durante a diferenciação e danos no DNA de células-tronco embrionárias humanas

.

Ácidos nucléicos Res.
2014

;

42

:

205

223

.

>Pruim
R.J.

,

Welch
R.P.

,

Sanna
S.

,

Teslovich
T.M.

,

Chineses
P.S.

,

Gliedt
T.P.

,

Boehnke
M.

,

Abecasis

>

G.R.

,

Willer
C.J.

,

Frishman
D.

>

LocusZoom: visualização regional dos resultados do scan de associação de todo o genoma

.

Bioinformática

.

2011

;

26

:

2336

2337

.

>

>Dois-grande
J.P.

,

Cardus Figueras

>

A.

,

Andrews
R.

,

Wiede
F.

,

Cossins
B.C.

,

Derrac Soria
A.

,

Lewis

,

M.J.

,

Townsend
M.J.

,

Millrine

,

D.

,

Li
J.

et al. .

Ativação de CD4 + células T naïve reajusta a sinalização STAT1 para fornecer respostas únicas de citocinas na memória CD4 + células T

. .

Nat. Immunol.
2019

;

20

:

458

470

.

Schultheis
A.M.

,

Martelotto
L.G.

,

De Filippo
M.R.

,

Piscuglio
S.

,

Ng
C.K.Y.

,

Hussein
Y.R.

,

Reis-Filho

,

J.S.

,

Soslow

,

R.A.

,

Weigelt

,

B.

>

TP53 espectro mutacional em cancros endometrióides e endometriais serosos

.

Int. J. Gynecol. Pathol.
2016

;

35

:

289

300

.

>

>Cho
S.W.

,

Xu
J.

,

Sol
R.

,

Mumbach
M.R.

,

Carter
A.C.

,

Chen
Y.G.

,

Yost

>

K.E.

,

Kim
J.

,

He
J.

,

Nevins

>

S.A.

et al. .

Promotor do gene PVT1 do lncRNA é um elemento limitante do DNA supressor do tumor

.

Célula

.

2018

;

173

:

1398

1412

.

>

>Forbes

>

S.A.

,

Beare
D.

,

Boutselakis
H.

,

Bamford
S.

,

Bindal
N.

,

Tate
J.

,

Cole
C.G.

,

Ward
S.

,

Dawson
E.

,

Ponting
L.

et al. .

COSMIC: genética do cancro somático em alta resolução

.

Ácidos nucléicos Res.
2017

;

45

:

D777

D783

.

>

>Wang

>

D.

,

Li
D.

,

Qin
G.

,

Zhang
W.

,

Ouyang
J.

,

Zhang
M.

,

Xie
L.
A caracterização estrutural dos genes e proteínas de fusão tumoral

.

Computação. Matemática. Métodos Med.
2015

;

2015

:

doi:10.1155/2015/912742

.

>

>Yun

>

C.H.

,

Mengwasser
K.E.

,

Toms
A. V.

,

Woo
M.S.

,

Greulich

,

H.

,

Wong

,

K.K.

,

Meyerson
M.

,

Eck
M.J.J.
A mutação T790M em EGFR kinase causa resistência a drogas aumentando a afinidade para ATP

.

Proc. Natl. Acad. Sci. U.S.A.
2008

;

105

:

2070

2075

.

Gao
J.

,

Aksoy
B.A.

,

Dogrusoz
U.

,

Dresdner
G.

,

Gross
B.

,

Sumidor
S.O.

,

Sol
Y.

,

Jacobsen
A.

,

Sinha
R.

,

Larsson
E.

et al. .

Análise integrada de genómica complexa do cancro e perfis clínicos usando o cBioPortal

.

Sci. Sinal.
2013

;

6

:

pl1

.

>

Jiang

>

S.

,

Xie
Y.

,

He
Z.

,

Zhang
Y.

,

Zhao
Y.

,

Chen
L.

,

Zheng

,

Y.

,

Miao
Y.

,

Zuo
Z.

,

Ren
J.
m6ASNP: uma ferramenta para anotar variantes genéticas por função m6A

.

Gigascience

.

2018

;

7

:

giy035

.

>

>Mateo

>

L.

,

Guitart-Pla
O.

,

Pons
C.

,

Duran-Frigola
M.

,

Mosca

,

R.

,

Aloy
P.
Uma visão panorâmica dos genomas pessoais do cancro

.

Ácidos nucléicos Res.
2017

;

45

:

W195

W200

.

>Teng
X.

,

Chen
X.

,

Xue
H.

,

Tang
Y.

,

Zhang
P.

,

Kang
Q.

,

Hao

,

Y.

,

Chen
R.

,

Zhao
Y.

,

He
S.
NPInter v4.0: uma base de dados integrada de interacções ncRNA

.

Ácidos nucléicos Res.
2020

;

48

:

D160

D165

.

>

Notas do autor

>

>

Os autores desejam que se saiba que, na sua opinião, os dois primeiros autores devem ser considerados como Joint First Authors.

© The Author(s) 2019. Publicado pela Oxford University Press em nome da NAR Genomics and Bioinformatics.
Este é um artigo de Acesso Livre distribuído sob os termos da Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/), que permite a reutilização, distribuição e reprodução não-comercial em qualquer meio, desde que a obra original seja devidamente citada. Para reutilização comercial, favor contatar [email protected]

Deixe um comentário