Abstract
Circos-Diagramme sind weit verbreitet, um multidimensionale Genomdaten der nächsten Generation darzustellen, aber die bestehenden Implementierungen von Circos sind nicht interaktiv und unterstützen nur eine begrenzte Anzahl von Datentypen. Hier haben wir Circos der nächsten Generation (NG-Circos) entwickelt, ein flexibles JavaScript-basiertes Visualisierungstool für zirkuläre Genome, mit dem sich hochgradig interaktive Circos-Plots mit 21 Funktionsmodulen und verschiedenen Datentypen erstellen lassen. Unseres Wissens nach ist NG-Circos die leistungsfähigste Software zur Erstellung interaktiver Circos-Diagramme. Durch die Unterstützung verschiedener Datentypen in einer dynamischen Browser-Schnittstelle wird NG-Circos die Datenvisualisierung und -interpretation der nächsten Generation beschleunigen und damit die reproduzierbare Forschung in den biomedizinischen Wissenschaften und darüber hinaus fördern. NG-Circos ist verfügbar unter https://wlcb.oit.uci.edu/NG-Circos und https://github.com/YaCui/NG-Circos.
EINFÜHRUNG
Die Visualisierung der zunehmenden Mengen an biologischen Daten der nächsten Generation ist entscheidend für die Interpretation dieser Daten. Circos-Plots sind kreisförmige zweidimensionale visuelle Darstellungen, die eine umfassende Lösung für die Präsentation und Interpretation von multidimensionalen genomischen Daten bieten. Circos (1), das vorherrschende Werkzeug zur Erstellung von Circos-Plots, wurde in vielen Studien zur Visualisierung komplexer biologischer Daten eingesetzt. Die Ergebnisse von Circos sind jedoch nicht interaktiv. Andere von Circos abgeleitete Tools wie Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) sind entweder nicht in der Lage, interaktive Circos-Diagramme in einem Webbrowser zu erstellen oder sind auf bestimmte Datentypen beschränkt. Das von uns entwickelte Tool BioCircos.js (10) scheint die einzige veröffentlichte Software zu sein, die in der Lage ist, interaktive Circos-Diagramme zu erstellen, und hat sich in diesem Bereich als das modernste Tool etabliert (11-12). Dennoch implementiert BioCircos.js (10) nur neun funktionale Module, was seine Möglichkeiten zur Durchführung zusätzlicher analytischer Aufgaben einschränkt.
Um diese Schwäche zu beheben, haben wir hier die nächste Generation von Circos (NG-Circos) entwickelt, ein JavaScript-basiertes zirkuläres Genom-Visualisierungstool, das über den Rahmen von BioCircos.js (10) hinausgeht und genomische Datentypen durch interaktive Circos-Plots integriert und interpretiert. NG-Circos enthält derzeit 21 Module, die verschiedene Funktionen ermöglichen, die in anderen Tools (einschließlich BioCircos.js (10)) nicht vorhanden waren. Durch die Unterstützung verschiedener genomischer Datentypen in einer interaktiven Browserschnittstelle wird NG-Circos die Datenvisualisierung und -interpretation der nächsten Generation beschleunigen und damit die reproduzierbare Forschung in den biomedizinischen Wissenschaften und darüber hinaus fördern.
MATERIALIEN UND METHODEN
Implementierung von NG-Circos
NG-Circos ist in JavaScript geschrieben und generiert interaktive Grafiken mit SVG-Elementen auf der Grundlage von D3.js (datengesteuerte Dokumente) und jQuery.js. Basierend auf JavaScript kann NG-Circos ohne die Installation zusätzlicher Pakete verwendet werden. Nach dem Herunterladen von NG-Circos können Benutzer fast alle von Circos gezeichneten Kreisdiagramme mit einem Webbrowser reproduzieren. Beachten Sie, dass NG-Circos selbst keine Webanwendung ist, sondern eine Bibliothek, um interaktive Circos-Plots in Webanwendungen zu erstellen.
Implementierung der Bild-Download-Funktion in NG-Circos
Die Download-Funktion in NG-Circos wird mit Hilfe der svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) von The New York Times erstellt. NG-Circos unterstützt jetzt die Formate SVG und PNG. Das SVG-Bildformat ermöglicht es den Benutzern, qualitativ hochwertige Bilder zu extrahieren, die in Adobe Illustrator weiterverwendet werden können.
Eingabedatenverarbeitung in NG-Circos
Wir bieten ein Datenverarbeitungsskript (geschrieben mit Python und Shell) für die Verarbeitung von Rohdaten, das es den Benutzern ermöglicht, ihre Daten einfach in das JSON-Format mit Standardparametern für das entsprechende Modul umzuwandeln. Die Eingabedaten von NG-Circos können entweder durch die unterstützenden Python-Skripte oder direkt durch die gut dokumentierten JSON-Datenformate erzeugt werden. Benutzer können NG-Circos in eine bestehende JavaScript-basierte Webanwendung integrieren, die ihre eigenen internen JSON-Datenstrukturen hat. Wir stellen für jedes Modul ein Beispiel zur Verfügung, um die Eingabedatenstruktur und alle Schritte zu veranschaulichen, die für die Erstellung dieses Beispiels erforderlich sind (https://wlcb.oit.uci.edu/modules/).
Verarbeitung von GWAS-Daten in LocusZoom plot
In Abbildung 1F haben wir PLINK (13) verwendet, um den r-Quadratwert bestimmter Populationen zu berechnen und die Rekombinationsrate aus den Hapmap3-Daten (14) für bestimmte SNPs zu extrahieren.
Von NG-Circos unterstützte Webbrowser
Die Laufgeschwindigkeit von NG-Circos hängt von der Rechenleistung des Browsers und der Hardware ab. NG-Circos hat das Debugging und die Prüfung in allen wichtigen Internet-Browsern bestanden, einschließlich Google Chrome, Internet Explorer/Edge, Mozilla Firefox, Safari und Opera.
ERGEBNISSE
Arbeitsablauf von NG-Circos
NG-Circos hat einen sehr benutzerfreundlichen Arbeitsablauf. Es hat drei Hauptschritte, um einen interaktiven Circos-Plot zu zeichnen: Schritt 1 beinhaltet das Zeichnen von Chromosomen (oder anderen Segmenten) als Koordinatenachsen. Schritt 2 beinhaltet das Hinzufügen verschiedener Datenspuren unter Verwendung der entsprechenden Module mit hoher Flexibilität bei der Auswahl der Module (21 Module sind derzeit implementiert, siehe Tabelle S1). Die Eingabedaten von NG-Circos können entweder durch die unterstützenden Python-Skripte oder direkt durch die gut dokumentierten JSON-Datenformate generiert werden. Für jedes Modul stellen wir ein Beispiel zur Verfügung, das die Eingabedateien und alle Schritte zur Erstellung des Beispiels enthält (https://wlcb.oit.uci.edu/modules/). Schritt 3 schließlich umfasst interaktive Animationen, Mausereignisse (ergänzende Tabelle S2) und die Gestaltung von Werkzeugkästen für grafische Elemente. NG-Circos ist in hohem Maße anpassbar, so dass die Benutzer persönliche Einstellungen vornehmen können. Wir bieten auch eine Reihe von sorgfältig evaluierten Standardeinstellungen für jedes Modul an und stellen viele Demos zur Verfügung, um NG-Circos leicht benutzbar zu machen. Darüber hinaus kann die Leistungsfähigkeit von NG-Circos einfach erweitert werden, indem in Schritt 2 weitere Funktionsmodule hinzugefügt werden.
NG-Circos bietet eine flexible Modulauswahl für verschiedene Circos-Plots
Die aktuelle Version von NG-Circos besteht aus 21 Modulen (ergänzende Tabelle S1). Die Kombination von Modulen in NG-Circos ermöglicht es den Nutzern, verschiedene Arten von Circos-Diagrammen zu erstellen. So kann NG-Circos beispielsweise komplexe veröffentlichte Circos-Plots (15) reproduzieren, indem es die Module ARC, GENE, HEATMAP, LINK und WIG kombiniert (Abbildung 1A). NG-Circos kann nicht nur komplexe veröffentlichte Circos-Plots reproduzieren, sondern bietet auch zusätzliche Funktionen, wie z. B. beliebte interaktive Circos-Plot-Demos (z. B. Lollipop-, Wig- und LocusZoom-Plots (16)), die in Abbildung 1B-F (15) (17) (18) (19) dargestellt sind und die in anderen Tools nicht zu sehen sind. Darüber hinaus bieten wir auf der Online-Website (https://wlcb.oit.uci.edu/NG-Circos) weitere Demos an, um die Leistungsfähigkeit dieses Tools zu zeigen: Die Nutzer können die Demodaten leicht durch ihre eigenen Daten ersetzen, um ihre eigenen Diagramme zu erstellen. Alle Abbildungen können im SVG- und PNG-Format heruntergeladen werden, wobei das SVG-Format dem Nutzer qualitativ hochwertige Bilder liefert, die mit anderen Anwendungen wie Adobe Illustrator weiterverwendet werden können. Insgesamt bietet NG-Circos den Nutzern eine große Flexibilität bei der Auswahl von Modulen und Circos-Plot-Typen.
Demos von NG-Circos. (A) Komplexe veröffentlichte Circos-Plots, die mit NG-Circos reproduziert wurden; detaillierte Beschreibungen finden sich in Akdemir et al. (15). (B) Demo der Genstrukturen mit NG-Circos; die Daten stammen von Akdemir et al. (15). (C) Demo des Chord-Plots, der die IL-6-regulierten Genveränderungen in verschiedenen Zellen zeigt (17). (D) Demo des von NG-Circos entworfenen Lollipop-Plots; die Daten stammen von Schultheis et al. (18). (E) Demo des COMPARE-Moduls in NG-Circos. Mutationen im PVT1-Promotor verändern die Enhancer-Zielgene. Der Wig Plot zeigt die H3K4me3 (blau) und H3K9me3 (rot) Modifikationen (19). (F) Demo des von NG-Circos entworfenen LocusZoom-Plots. Die Modulnamen der Spuren in (A-F) sind mit rotem Text markiert.
Demos von NG-Circos. (A) Komplexe veröffentlichte Circos-Plots, die mit NG-Circos reproduziert wurden; detaillierte Beschreibungen finden sich in Akdemir et al. (15). (B) Demo der Genstrukturen mit NG-Circos; die Daten stammen von Akdemir et al. (15). (C) Demo des Chord-Plots, der die IL-6-regulierten Genveränderungen in verschiedenen Zellen zeigt (17). (D) Demo des von NG-Circos entworfenen Lollipop-Plots; die Daten stammen von Schultheis et al. (18). (E) Demo des COMPARE-Moduls in NG-Circos. Mutationen im PVT1-Promotor verändern die Enhancer-Zielgene. Der Wig Plot zeigt die H3K4me3 (blau) und H3K9me3 (rot) Modifikationen (19). (F) Demo des von NG-Circos entworfenen LocusZoom-Plots. Die Modulnamen der Spuren in (A-F) sind mit rotem Text markiert.
Fallstudie zur interaktiven Datenexploration mit NG-Circos
Hier stellen wir eine Fallstudie vor, um die Leistungsfähigkeit der interaktiven Datenexploration mit NG-Circos weiter zu illustrieren. In diesem Fall können die Nutzer interaktiv die treibenden Einzelnukleotid-Polymorphismen (SNPs), Genfusionen und ihre Auswirkungen auf die Proteinstruktur bei Lungenkrebs untersuchen (Abbildung 2). Beispielsweise zeigen Mouse-Over-Events die SNP-Häufigkeiten bei Lungenkrebs aus der Datenbank Catalogue of Somatic Mutations in Cancer (COSMIC) (Abbildung 2B) (20) und die dreidimensionale (3D) Proteinstruktur einer EML4-ALK-Genfusion (Abbildung 2C) (21). Bemerkenswert ist, dass NG-Circos auch Elemente (wie SNPs oder Genfusionen) an externe Ressourcen weiterleiten kann. Klickt man beispielsweise auf einen SNP, wie die EGFR T790M-Variante, öffnet sich eine neue Webseite der Protein Data Bank (PDB), auf der die von der T790M-Variante betroffene 3D-Struktur des EGFR angezeigt wird (Abbildung 2D; PDB-Code: 2JIT) (22). Zusammenfassend lässt sich sagen, dass NG-Circos ein großartiges Werkzeug für die interaktive Erforschung von Genomdaten ist, so dass die Benutzer zusätzliche Informationen durch Mausverschiebung und Klicken auf die Diagramme extrahieren können.
Verwendung von NG-Circos für die integrative Datenvisualisierung und -interpretation. (A) Flexibles Kombinieren verschiedener Module in NG-Circos zur Visualisierung mehrerer biologischer Datentypen. Der äußere Ring stellt Chromosomen-Ideogramme dar. Die Datenspuren, die sich vom äußeren Ring nach innen bewegen, stellen somatische CNVs, Variantendichte, somatische Mutationen und Genfusionen dar. Mit Ausnahme der simulierten Variantendichte-Daten stammen alle gezeigten Daten aus der COSMIC-Datenbank. (B) Fahren Sie mit der Maus darüber, um Details zu jedem SNP anzuzeigen. (C) Fahren Sie mit der Maus darüber, um Details zu jeder Genfusion und ihrer 3D-Proteinstruktur anzuzeigen (in diesem Fall die EML4-ALK-Genfusion). (D) Klicken Sie auf einen SNP (in diesem Fall die EGFR T790M-Variante), um eine neue Webseite in der PDB-Datenbank zu öffnen, die die von der T790M-Variante betroffene 3D-Struktur von EGFR (PDB-Code: 2JIT) anzeigt.
Verwendung von NG-Circos für die integrative Datenvisualisierung und -interpretation. (A) Flexibles Kombinieren verschiedener Module in NG-Circos zur Visualisierung mehrerer biologischer Datentypen. Der äußere Ring stellt Chromosomen-Ideogramme dar. Die Datenspuren, die sich vom äußeren Ring nach innen bewegen, stellen somatische CNVs, Variantendichte, somatische Mutationen und Genfusionen dar. Mit Ausnahme der simulierten Variantendichte-Daten stammen alle gezeigten Daten aus der COSMIC-Datenbank. (B) Fahren Sie mit der Maus darüber, um Details zu jedem SNP anzuzeigen. (C) Fahren Sie mit der Maus darüber, um Details zu jeder Genfusion und ihrer 3D-Proteinstruktur anzuzeigen (in diesem Fall die EML4-ALK-Genfusion). (D) Klicken Sie auf einen SNP (in diesem Fall die EGFR T790M-Variante), um eine neue Webseite in der PDB-Datenbank zu öffnen, die die von der T790M-Variante betroffene 3D-Struktur von EGFR (PDB-Code: 2JIT) anzeigt.
DISKUSSION
Interaktive Datenexploration über verschiedene Datentypen hinweg wird sicherlich die Datenvisualisierung und -interpretation der nächsten Generation fördern, wobei es in der Krebsforschung einige erfolgreiche Beispiele wie cBioPortal (23) gibt. Circos-Diagramme sind weit verbreitet, um umfangreiche Genomdaten der nächsten Generation darzustellen, aber die bestehenden Circos-Implementierungen erzeugen keine interaktiven Ausgaben, was die Benutzerfreundlichkeit beeinträchtigt. Um dieses Problem zu lösen, bietet NG-Circos flexible Module für die interaktive Datenexploration und verschiedene Arten von Circos-Plots. Da in Zukunft weitere Arten von genomischen Daten generiert werden, werden wir zusätzliche Funktionsmodule aktualisieren, um die Leistungsfähigkeit von NG-Circos zu erweitern. Wir werden NG-Circos auch aktiv pflegen und auf Anfragen von Nutzern reagieren. Wir glauben, dass NG-Circos durch die Unterstützung verschiedener Arten von genomischen Daten in einer interaktiven Webschnittstelle die genomische Forschung im biomedizinischen Bereich in Zukunft verbessern wird.
ZUSÄTZLICHE DATEN
Zusätzliche Daten sind auf NARGAB Online verfügbar.
HINWEISE
Wir danken Tianyi Zang, Yadong Wang und Mitgliedern des Li-Labors für konstruktive Diskussionen und Unterstützung.
Finanzierung
Keine externe Finanzierung.
Interessenkonflikterklärung. None declared.
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
.
;
:
–
.
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al. .
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
Autorenhinweise
Die Autoren möchten, dass bekannt ist, dass ihrer Meinung nach die ersten beiden Autoren als gemeinsame Erstautoren betrachtet werden sollten.