Abstract
Circos são amplamente utilizados para exibir dados genômicos multidimensionais de próxima geração, mas implementações existentes de Circos não são interativas com suporte limitado de tipos de dados. Aqui, desenvolvemos a próxima geração de Circos (NG-Circos), uma ferramenta flexível de visualização do genoma circular baseada em JavaScript para projetar gráficos Circos altamente interativos, usando 21 módulos funcionais com vários tipos de dados. Para nosso conhecimento, o NG-Circos é o software mais poderoso para construir gráficos circulares interativos. Ao suportar diversos tipos de dados em uma interface dinâmica de navegador, o NG-Circos irá acelerar a próxima geração de visualização e interpretação de dados, promovendo assim a pesquisa reprodutível em ciências biomédicas e além. O NG-Circos está disponível em https://wlcb.oit.uci.edu/NG-Circos e https://github.com/YaCui/NG-Circos.
INTRODUÇÃO
Visualizar volumes crescentes de dados biológicos de próxima geração é fundamental para a interpretação de tais dados. Os gráficos circulares são representações visuais bidimensionais circulares que fornecem uma solução abrangente para a apresentação e interpretação de dados genómicos multidimensionais. Circos (1), a ferramenta predominante para a realização de gráficos circulares, tem sido amplamente utilizada para a visualização de dados biológicos complexos em muitos estudos. Entretanto, as saídas do Circos não são interativas. Outras ferramentas derivadas do Circos, tais como Circoletto (2), CIRCUS (3), J-Circos (4), ShinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) são incapazes de produzir gráficos Circos interativos em um navegador web ou estão limitados a tipos de dados específicos. Nossa ferramenta desenvolvida anteriormente, BioCircos.js (10), parece ser o único software publicado capaz de produzir gráficos Circos interativos e se tornou a ferramenta de última geração no campo (11-12). No entanto, BioCircos.js (10) implementa apenas nove módulos funcionais, limitando seu escopo para realizar tarefas analíticas adicionais.
Para resolver esta fraqueza, aqui desenvolvemos o Circos de próxima geração (NG-Circos), uma ferramenta de visualização de genoma circular baseada em JavaScript que se estende além da estrutura do BioCircos.js (10) para integrar e interpretar tipos de dados genômicos através de gráficos Circos interativos. O NG-Circos contém atualmente 21 módulos, permitindo várias funções que estavam ausentes em outras ferramentas (incluindo BioCircos.js (10)). Ao suportar diversos tipos de dados genômicos em uma interface interativa de navegador, o NG-Circos irá acelerar a próxima geração de visualização e interpretação de dados, promovendo assim a pesquisa reprodutível em ciências biomédicas e além.
MATERIAIS E MÉTODOS
Implantação do NG-Circos
NG-Circos é escrito em JavaScript e gera gráficos interativos com elemento SVG baseado em D3.js (documentos orientados a dados) e jQuery.js. Baseado em JavaScript, NG-Circos pode ser usado sem a instalação de pacotes adicionais. Após o download do NG-Circos, os usuários podem reproduzir quase todos os gráficos circulares desenhados pelo Circos com um navegador web. Note que NG-Circos em si não é uma aplicação web, mas uma biblioteca para construir gráficos circulares interativos em aplicações web.
Implementando a função de download de imagens no NG-Circos
A função de download no NG-Circos é construída usando o svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) do The New York Times. O NG-Circos agora suporta os formatos SVG e PNG. O formato de imagem SVG permite aos usuários extrair imagens de alta qualidade que podem ser utilizadas no Adobe Illustrator.
Entrada de processamento de dados no NG-Circos
Fornecemos um script de processamento de dados (escrito por python e shell) para processar dados brutos, permitindo aos usuários transformar facilmente seus dados em formato JSON com parâmetros padrão para o módulo correspondente. Notavelmente, os dados de entrada do NG-Circos podem ser gerados pelos scripts python de suporte, ou diretamente através dos bem documentados formatos de dados JSON. Os usuários podem integrar o NG-Circos em uma aplicação web baseada em JavaScript existente, que tem suas próprias estruturas de dados JSON internas. Nós fornecemos um exemplo para cada módulo para ilustrar a estrutura de dados de entrada e todos os passos necessários para recriar esse exemplo (https://wlcb.oit.uci.edu/modules/).
Processamento de dados GWAS no gráfico LocusZoom
Na Figura 1F, nós usamos PLINK (13) para calcular o valor r-quadrado de populações específicas e para extrair a taxa de recombinação dos dados do Hapmap3 (14) para SNPs especificados.
Web browsers suportados pelo NG-Circos
A velocidade de funcionamento do NG-Circos depende da potência de computação dos browsers e do hardware. O NG-Circos passou na depuração e exame de todos os principais navegadores de internet incluindo Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari e Opera.
RESULTADOS
Workflow do NG-Circos
NG-Circos tem um workflow altamente amigável. Tem três passos principais para desenhar um gráfico Circos interactivo: O passo 1 inclui o desenho de cromossomas (ou outros segmentos) como os eixos coordenados. O passo 2 envolve a adição de várias pistas de dados usando os módulos relevantes com alta flexibilidade na escolha dos módulos (21 módulos estão atualmente implementados, Tabela Suplementar S1). Os dados de entrada do NG-Circos podem ser gerados pelos scripts python de suporte, ou diretamente através dos bem documentados formatos de dados JSON. Para cada módulo, nós fornecemos um exemplo que inclui os arquivos de dados de entrada e todos os passos para recriar esse exemplo (https://wlcb.oit.uci.edu/modules/). Finalmente, o passo 3 incorpora animações interativas, eventos do mouse (Tabela Complementar S2) e caixas de ferramentas de design para elementos gráficos. O NG-Circos é altamente personalizável, permitindo aos usuários ajustar as configurações pessoais. Nós também fornecemos um conjunto de configurações padrão cuidadosamente avaliadas para cada módulo e fornecemos muitas demonstrações para tornar o NG-Circos fácil de usar. Além disso, a capacidade do NG-Circos pode ser simplesmente ampliada, incluindo mais módulos funcionais no passo 2.
NG-Circos fornece opções flexíveis de módulos para diversos gráficos Circos
A versão atual do NG-Circos consiste em 21 módulos (Tabela Suplementar S1). A combinação de módulos no NG-Circos permite aos utilizadores construir diversos tipos de parcelas Circos. Por exemplo, o NG-Circos pode reproduzir gráficos Circos complexos publicados (15) combinando os módulos ARC, GENE, HEATMAP, LINK e WIG (Figura 1A). Não apenas o NG-Circos pode reproduzir gráficos Circos complexos publicados, mas também pode render funções adicionais, tais como fornecer demonstrações populares de gráficos Circos interativos (por exemplo, Lollipop, Wig e LocusZoom (16)) mostrados na Figura 1B-F (15) (17) (18) (19), que não são vistos em outras ferramentas. Além disso, oferecemos mais demos no website online (https://wlcb.oit.uci.edu/NG-Circos) para mostrar o poder desta ferramenta: os usuários podem facilmente substituir os dados demo pelos seus dados para produzir os seus próprios gráficos. Todas as figuras podem ser baixadas no formato SVG e PNG, no qual o formato SVG torna as imagens de alta qualidade que podem ser utilizadas através de outras aplicações, como o Adobe Illustrator. Em geral, NG-Circos oferece aos usuários grande flexibilidade na escolha de módulos e tipos de gráficos Circos.
Demos de NG-Circos. (A) Lotes complexos publicados Circos reproduzidos usando o NG-Circos; descrições detalhadas podem ser encontradas em Akdemir et al. (15). (B) Demonstração mostrando estruturas gênicas usando o NG-Circos; dados são de Akdemir et al. (15). (C) Demonstração do plot de Chord mostrando as mudanças genéticas reguladas pela IL-6 em diferentes células (17). (D) Demonstração do gráfico de Lollipop desenhado pela NG-Circos; os dados são de Schultheis et al. (18). (E) Demonstração do módulo COMPARE na NG-Circos. Mutações no promotor de mudança PVT1 melhoram os genes alvos do promotor. O gráfico da peruca mostra as modificações de H3K4me3 (azul) e H3K9me3 (vermelho) (19). (F) Demonstração do gráfico LocusZoom desenhado pela NG-Circos. Os nomes dos módulos de pistas em (A-F) são marcados com texto vermelho.
Demos de NG-Circos. (A) Lotes complexos publicados Circos reproduzidos usando o NG-Circos; descrições detalhadas podem ser encontradas em Akdemir et al. (15). (B) Demonstração mostrando estruturas gênicas usando o NG-Circos; dados são de Akdemir et al. (15). (C) Demonstração do plot de Chord mostrando as mudanças genéticas reguladas pela IL-6 em diferentes células (17). (D) Demonstração do gráfico de Lollipop desenhado pela NG-Circos; os dados são de Schultheis et al. (18). (E) Demonstração do módulo COMPARE na NG-Circos. Mutações no promotor de mudança PVT1 melhoram os genes alvos do promotor. O gráfico da peruca mostra as modificações de H3K4me3 (azul) e H3K9me3 (vermelho) (19). (F) Demonstração do gráfico LocusZoom desenhado pela NG-Circos. Os nomes dos módulos das faixas em (A-F) são marcados com texto vermelho.
Estudo de caso para exploração de dados interativos usando NG-Circos
Aqui apresentamos um estudo de caso para ilustrar melhor o poder da exploração de dados interativos usando NG-Circos. Neste caso, os usuários podem explorar interativamente polimorfismos de nucleotídeos (SNPs), fusões de genes e seu impacto na estrutura proteica do câncer de pulmão (Figura 2). Por exemplo, o rato sobre eventos mostra as frequências de SNP no câncer de pulmão a partir do catálogo de mutações somáticas no câncer (COSMIC) (Figura 2B) (20) e a estrutura proteica tridimensional (3D) de uma fusão do gene EML4-ALK (Figura 2C) (21). Notavelmente, o NG-Circos também pode redirecionar elementos (como SNPs ou fusões de genes) para recursos externos. Por exemplo, clicando em um SNP, como a variante EGFR T790M, abre uma nova página na web do Banco de Dados de Proteínas (PDB), exibindo a estrutura 3D do EGFR afetado pela variante T790M (Figura 2D; código PDB: 2JIT) (22). Em resumo, o NG-Circos serve como uma ótima ferramenta para explorar dados genômicos de forma interativa, de modo que os usuários podem extrair informações adicionais com o mouse pairando e clicando nos gráficos.
Usando o NG-Circos para visualização e interpretação integrativa de dados. (A) Combinação flexível de vários módulos no NG-Circos para visualização de múltiplos tipos de dados biológicos. O anel externo representa os ideogramas cromossômicos. Entrando do anel externo, os rastros de dados representam CNVs somáticos, densidade de variantes, mutações somáticas e fusões gênicas. Com exceção dos dados simulados de densidade de variantes, todos os dados mostrados são baixados da base de dados COSMIC. (B) Passe o mouse sobre para mostrar detalhes de cada SNP. (C) Passe o mouse sobre para mostrar detalhes de cada fusão de genes e sua estrutura de proteínas 3D (neste caso, a fusão do gene EML4-ALK). (D) Clique em um SNP (neste caso, a variante EGFR T790M) para abrir uma nova página na base de dados do PDB mostrando a estrutura 3D do EGFR (código PDB: 2JIT).
Utilizar o NG-Circos para visualização e interpretação integrativa dos dados. (A) Combinação flexível de vários módulos no NG-Circos para visualização de múltiplos tipos de dados biológicos. O anel externo representa os ideogramas cromossômicos. Entrando do anel externo, os rastros de dados representam CNVs somáticos, densidade de variantes, mutações somáticas e fusões gênicas. Com exceção dos dados simulados de densidade de variantes, todos os dados mostrados são baixados da base de dados COSMIC. (B) Passe o mouse sobre para mostrar detalhes de cada SNP. (C) Passe o mouse sobre para mostrar detalhes de cada fusão de genes e sua estrutura de proteínas 3D (neste caso, a fusão do gene EML4-ALK). (D) Clique em um SNP (neste caso, a variante EGFR T790M) para abrir uma nova página na base de dados PDB mostrando a estrutura 3D do EGFR (código PDB: 2JIT) afetado pela variante T790M.
DISCUSSÃO
Exploração interativa de dados em diversos tipos de dados certamente promoverá a visualização e interpretação de dados da próxima geração, com alguns exemplos de sucesso, como o cBioPortal (23), visto na pesquisa sobre o câncer. Os gráficos Circos são amplamente utilizados para exibir dados genômicos volumosos da próxima geração, mas as implementações existentes do Circos não geram resultados interativos, o que dificulta a sua usabilidade. Para resolver este problema, a NG-Circos fornece módulos flexíveis para a exploração de dados interativos e diversos tipos de gráficos de Circos. Como tipos adicionais de dados genômicos são gerados no futuro, nós continuaremos atualizando módulos funcionais adicionais para ampliar a potência do NG-Circos. Nós também manteremos ativamente o NG-Circos e responderemos às consultas dos usuários. Ao suportar diversos tipos de dados genômicos em uma interface web interativa, o NG-Circos, acreditamos, irá melhorar a pesquisa genômica no campo biomédico no futuro.
Dados Suplementares
Dados Suplementares estão disponíveis no NARGAB Online.
ACENTECIMENTOS
Conhecemos Tianyi Zang, Yadong Wang e membros do laboratório Li por discussões construtivas e apoio.
FUNDANDO
Sem financiamento externo.
Conflito de interesses. Nenhum declarado.
,
,
,
,
,
,
,
.
;
:
–
.
>
>
.
.
;
:
–
.
>
>
,
,
,
.
.
;
:
.
>
>
,
,
,
,
,
.
.
;
:
–
.
>
>
,
,
.
.
;
:
–
.
>
>
,
,
.
.
;
:
.
>
>
,
,
,
,
,
.
.
;
:
–
.
>
>
,
,
,
,
>
,
,
,
.
;
:
–
.
>
>
,
,
.
;
:
.
>
>
,
,
,
,
,
,
,
,
.
.
;
:
–
.
>
>
,
,
,
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
.
>
>
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
>
>
,
>
,
,
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
>
>
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
>
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
>
,
,
>
.
.
;
:
–
.
>
,
>
,
,
,
,
,
,
,
,
,
,
et al. .
. .
;
:
–
.
,
,
,
,
,
,
,
,
,
,
,
>
.
;
:
–
.
>
,
,
,
,
,
,
>
,
,
,
>
et al. .
.
.
;
:
–
.
>
>
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
>
>
,
,
,
,
,
,
.
;
:
.
>
>
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
.
>
>
,
,
,
,
,
,
,
,
,
,
.
.
;
:
.
>
>
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
,
.
;
:
–
.
>
Notas do autor
Os autores desejam que se saiba que, na sua opinião, os dois primeiros autores devem ser considerados como Joint First Authors.