Abstract
A Circos ábrákat széles körben használják a többdimenziós következő generációs genomikai adatok megjelenítésére, de a Circos meglévő implementációi nem interaktívak és korlátozottan támogatják az adattípusokat. Itt fejlesztettük ki a következő generációs Circos-t (NG-Circos), egy rugalmas JavaScript-alapú cirkuláris genom vizualizációs eszközt, amely 21 funkcionális modult használva, különböző adattípusokkal nagymértékben interaktív Circos-ábrákat tervez. Tudomásunk szerint az NG-Circos a leghatékonyabb szoftver interaktív Circos-ábrák készítésére. A különböző adattípusok dinamikus böngészőfelületen történő támogatásával az NG-Circos felgyorsítja a következő generációs adatvizualizációt és -értelmezést, ezáltal elősegítve a reprodukálható kutatást az orvosbiológiai tudományokban és azon túl. Az NG-Circos elérhető a https://wlcb.oit.uci.edu/NG-Circos és a https://github.com/YaCui/NG-Circos címen.
IBEVEZETÉS
A következő generációs biológiai adatok növekvő mennyiségének vizualizálása kritikus fontosságú az ilyen adatok értelmezéséhez. A kördiagramok olyan kör alakú kétdimenziós vizuális ábrázolások, amelyek átfogó megoldást nyújtanak a többdimenziós genomikai adatok bemutatására és értelmezésére. A Circos (1), a Circos-ábrák készítésének uralkodó eszköze, számos tanulmányban vadul használták komplex biológiai adatok vizualizálására. A Circos kimenetei azonban nem interaktívak. Más, Circosból származó eszközök, mint a Circoletto (2), CIRCUS (3), J-Circos (4), shinyCircos (5), Rcircos (6), Circleator (7), OmicCircos (8), ggbio (9) vagy nem képesek interaktív Circos-ábrákat készíteni egy webböngészőben, vagy csak bizonyos adattípusokra korlátozódnak. Az általunk korábban kifejlesztett eszköz, a BioCircos.js (10), úgy tűnik, az egyetlen olyan publikált szoftver, amely képes interaktív Circos ábrák előállítására, és a terület legkorszerűbb eszközévé vált (11-12). Mindazonáltal a BioCircos.js (10) csak kilenc funkcionális modult valósít meg, ami korlátozza a további analitikai feladatok elvégzésének lehetőségét.
Azért, hogy ezt a gyengeséget orvosoljuk, itt kifejlesztettük a következő generációs Circos-t (NG-Circos), egy JavaScript-alapú körkörös genom vizualizációs eszközt, amely túlmutat a BioCircos.js (10) keretén, hogy interaktív Circos-plotokon keresztül integrálja és értelmezze a genomikai adattípusokat. Az NG-Circos jelenleg 21 modult tartalmaz, amelyek különböző olyan funkciókat tesznek lehetővé, amelyek más eszközökből (köztük a BioCircos.js-ből (10)) hiányoztak. A különböző genomikai adattípusok interaktív böngészőfelületen történő támogatásával az NG-Circos felgyorsítja az adatok következő generációs vizualizációját és értelmezését, ezáltal elősegíti a reprodukálható kutatást az orvosbiológiai tudományokban és azon túl.
MATERIALS AND METHODS
Az NG-Circos megvalósítása
Az NG-Circos JavaScript nyelven íródott, és interaktív grafikákat generál SVG elemekkel a D3.js (adatvezérelt dokumentumok) és a jQuery.js alapján. A JavaScriptre alapozva az NG-Circos további csomagok telepítése nélkül használható. Az NG-Circos letöltése után a felhasználók webböngészővel reprodukálhatják szinte az összes Circos által rajzolt kördiagramot. Megjegyzendő, hogy maga az NG-Circos nem egy webes alkalmazás, hanem egy könyvtár az interaktív Circos-plotok webes alkalmazásokban való létrehozásához.
A képletöltési funkció megvalósítása az NG-Circosban
A letöltési funkció az NG-Circosban a The New York Times-tól származó svg-crowbar.js (https://nytimes.github.io/svg-crowbar/) felhasználásával készült. Az NG-Circos mostantól támogatja az SVG és PNG formátumokat. Az SVG képformátum lehetővé teszi a felhasználók számára, hogy kiváló minőségű képeket nyerjenek ki, amelyek tovább hasznosíthatók az Adobe Illustratorban.
Bemeneti adatok feldolgozása az NG-Circosban
A nyers adatok feldolgozásához biztosítunk egy (python és shell segítségével írt) adatfeldolgozó szkriptet, amely lehetővé teszi a felhasználók számára, hogy könnyen átalakítsák adataikat JSON formátumba a megfelelő modul alapértelmezett paramétereivel. Nevezetesen, az NG-Circos bemeneti adatai vagy a támogató python szkriptek által generálhatók, vagy közvetlenül a jól dokumentált JSON adatformátumokon keresztül. A felhasználók integrálhatják az NG-Circos-t egy meglévő JavaScript alapú webes alkalmazásba, amely saját belső JSON adatstruktúrákkal rendelkezik. Minden modulhoz egy példát adunk, hogy szemléltessük a bemeneti adatszerkezetet és a példa újbóli létrehozásához szükséges összes lépést (https://wlcb.oit.uci.edu/modules/).
GWAS-adatok feldolgozása LocusZoom plotban
Az 1F ábrán a PLINK (13) segítségével kiszámítottuk az egyes populációk r-négyzet értékét, és a Hapmap3 adatokból (14) kivontuk a rekombinációs rátát a megadott SNP-kre.
Az NG-Circos által támogatott webböngészők
Az NG-Circos futási sebessége a böngészők és a hardver számítási teljesítményétől függ. Az NG-Circos átment a hibakeresésen és a vizsgálaton az összes főbb internetes böngészőben, beleértve a Google Chrome-ot, az Internet Explorer/Edge-et, a Mozilla Firefoxot, a Safarit és az Operát.
Eredmények
Az NG-Circos munkafolyamata
Az NG-Circos rendkívül felhasználóbarát munkafolyamat. Három fő lépésből áll egy interaktív Circos-ábrázolás megrajzolásához: Az 1. lépés magában foglalja a kromoszómák (vagy más szegmensek) mint koordináta tengelyek megrajzolását. A 2. lépés magában foglalja a különböző adatsávok hozzáadását a megfelelő modulok használatával, a modulválasztás nagyfokú rugalmasságával (jelenleg 21 modul van implementálva, Kiegészítő S1 táblázat). Az NG-Circos bemeneti adatai vagy a támogató python szkriptek segítségével generálhatók, vagy közvetlenül a jól dokumentált JSON adatformátumokon keresztül. Minden modulhoz megadunk egy példát, amely tartalmazza a bemeneti adatfájlokat és a példa újraalkotásához szükséges összes lépést (https://wlcb.oit.uci.edu/modules/). Végül a 3. lépés tartalmazza az interaktív animációkat, az egéres eseményeket (S2. kiegészítő táblázat) és a grafikus elemek eszköztárának tervezését. Az NG-Circos nagymértékben testreszabható, lehetővé téve a felhasználók számára a személyes beállítások módosítását. Gondosan értékelt alapértelmezett beállításokat is biztosítunk minden modulhoz, és számos demót nyújtunk, hogy az NG-Circos könnyen használható legyen. Ezenkívül az NG-Circos képességei egyszerűen bővíthetők a 2. lépésben további funkcionális modulok bevonásával.
Az NG-Circos rugalmas modulválasztékot biztosít a változatos Circos ábrákhoz
Az NG-Circos jelenlegi verziója 21 modulból áll (Kiegészítő S1 táblázat). A modulok kombinációja az NG-Circosban lehetővé teszi a felhasználók számára, hogy változatos típusú Circos-ábrákat építsenek. Az NG-Circos például az ARC, GENE, HEATMAP, LINK és WIG modulok kombinálásával képes reprodukálni az összetett publikált Circos-diagramokat (15) (1A. ábra). Az NG-Circos nem csak komplex publikált Circos-ábrákat képes reprodukálni, hanem olyan további funkciókat is képes megjeleníteni, mint például az 1B-F ábrán (15) (17) (18) (19) látható népszerű interaktív Circos-ábrák (pl. Lollipop, Wig és LocusZoom (16) ábrák), amelyek más eszközökben nem láthatók. Ezenkívül az online weboldalon (https://wlcb.oit.uci.edu/NG-Circos) további demókat kínálunk, hogy megmutassuk az eszköz erejét: a felhasználók könnyen kicserélhetik a demoadatokat a saját adataikkal, hogy saját ábrákat készítsenek. Minden ábra letölthető SVG és PNG formátumban, ahol az SVG formátum kiváló minőségű képeket ad a felhasználóknak, amelyeket más alkalmazásokon, például az Adobe Illustratoron keresztül tovább lehet hasznosítani. Összességében az NG-Circos nagy rugalmasságot kínál a felhasználóknak a modulválasztás és a Circos plot típusok terén.
Az NG-Circos demói. (A) Az NG-Circos segítségével reprodukált összetett publikált Circos-ábrák; részletes leírás található Akdemir et al. (15) című könyvében. (B) A génstruktúrákat NG-Circos segítségével bemutató demó; az adatok Akdemir et al. (15) című munkájából származnak. (C) Demo az IL-6 által szabályozott génváltozásokat bemutató Chord plot különböző sejtekben (17). (D) Az NG-Circos által tervezett Lollipop plot demója; az adatok Schultheis és munkatársai (18) adatai. (E) Az NG-Circos COMPARE moduljának bemutatója. A PVT1 promóterben lévő mutációk megváltoztatják az enhancer célgénjeit. A parókadiagram a H3K4me3 (kék) és H3K9me3 (piros) módosításokat mutatja (19). (F) Az NG-Circos által tervezett LocusZoom plot bemutatója. Az (A-F)-ben szereplő pályák modulnevei piros szöveggel vannak jelölve.
Az NG-Circos demói. (A) Az NG-Circos segítségével reprodukált komplex publikált Circos-ábrák; részletes leírás található Akdemir et al. (15) munkájában. (B) A génstruktúrákat NG-Circos segítségével bemutató demó; az adatok Akdemir et al. (15) című munkájából származnak. (C) Demo az IL-6 által szabályozott génváltozásokat bemutató Chord plot különböző sejtekben (17). (D) Az NG-Circos által tervezett Lollipop plot demója; az adatok Schultheis és munkatársai (18) adatai. (E) Az NG-Circos COMPARE moduljának bemutatója. A PVT1 promóterben lévő mutációk megváltoztatják az enhancer célgénjeit. A parókadiagram a H3K4me3 (kék) és H3K9me3 (piros) módosításokat mutatja (19). (F) Az NG-Circos által tervezett LocusZoom plot bemutatója. Az (A-F)-ben szereplő pályák modulnevei piros szöveggel vannak jelölve.
Egy esettanulmány az interaktív adatfeltárásról az NG-Circos segítségével
Az NG-Circos segítségével történő interaktív adatfeltárás erejének további illusztrálására egy esettanulmányt mutatunk be. Ebben az esetben a felhasználók interaktív módon fedezhetik fel a vezető egynukleotid-polimorfizmusokat (SNP-k), génfúziókat és ezek hatását a tüdőrák fehérjeszerkezetére (2. ábra). Az egérrel az események felett például a Catalogue of Somatic Mutations in Cancer (COSMIC) adatbázisból (2B ábra) (20) a tüdőrákban előforduló SNP-frekvenciákat (20) és egy EML4-ALK génfúzió háromdimenziós (3D) fehérjeszerkezetét (2C ábra) (21) mutatja. Figyelemre méltó, hogy az NG-Circos képes az elemeket (például SNP-ket vagy génfúziókat) külső forrásokhoz is átirányítani. Például egy SNP-re, például az EGFR T790M variánsára kattintva egy új Protein Data Bank (PDB) adatbázis weboldala nyílik meg, amely az EGFR T790M variáns által befolyásolt 3D szerkezetét jeleníti meg (2D ábra; PDB kód: 2JIT) (22). Összefoglalva, az NG-Circos nagyszerű eszközként szolgál a genomikai adatok interaktív feltárására úgy, hogy a felhasználók az egérrel való lebegtetéssel és az ábrákon való kattintással további információkat nyerhetnek ki.
Az NG-Circos használata az integratív adatvizualizációhoz és értelmezéshez. (A) Az NG-Circos különböző moduljainak rugalmas kombinálása több biológiai adattípus vizualizálásához. A külső gyűrű kromoszómaideogramokat ábrázol. A külső gyűrűtől befelé haladva az adatsávok szomatikus CNV-ket, variánssűrűséget, szomatikus mutációkat és génfúziókat képviselnek. A szimulált variánssűrűségi adatok kivételével az összes bemutatott adat a COSMIC adatbázisból került letöltésre. (B) Egérrel az egyes SNP-k részleteinek megjelenítéséhez. (C) Mouse over az egyes génfúziók részleteinek és 3D-s fehérjeszerkezetének (ebben az esetben az EML4-ALK génfúzió) megjelenítéséhez. (D) Kattintson egy SNP-re (ebben az esetben az EGFR T790M variánsára), hogy megnyisson egy új weboldalt a PDB adatbázisban, amely megjeleníti az EGFR T790M variáns által befolyásolt 3D szerkezetét (PDB kód: 2JIT).
Az NG-Circos használata az integratív adatvizualizációhoz és értelmezéshez. (A) Az NG-Circos különböző moduljainak rugalmas kombinálása több biológiai adattípus vizualizálásához. A külső gyűrű kromoszómaideogramokat ábrázol. A külső gyűrűtől befelé haladva az adatsávok szomatikus CNV-ket, variánssűrűséget, szomatikus mutációkat és génfúziókat képviselnek. A szimulált variánssűrűségi adatok kivételével az összes bemutatott adat a COSMIC adatbázisból került letöltésre. (B) Egérrel az egyes SNP-k részleteinek megjelenítéséhez. (C) Mouse over az egyes génfúziók részleteinek és 3D-s fehérjeszerkezetének (ebben az esetben az EML4-ALK génfúzió) megjelenítéséhez. (D) Kattintson egy SNP-re (ebben az esetben az EGFR T790M variánsára), hogy megnyisson egy új weboldalt a PDB adatbázisban, amely az EGFR T790M variáns által befolyásolt 3D szerkezetét mutatja (PDB kód: 2JIT).
DISZKURZUS
A különböző adattípusok interaktív adatfeltárása minden bizonnyal elősegíti az adatok következő generációs vizualizációját és értelmezését, amire a rákkutatásban néhány sikeres példa, például a cBioPortal (23), látható. A Circos ábrákat széles körben használják a terjedelmes következő generációs genomikai adatok megjelenítésére, de a Circos meglévő implementációi nem generálnak interaktív kimeneteket, ami akadályozza a használhatóságát. E probléma megoldása érdekében az NG-Circos rugalmas modulválasztékot biztosít az interaktív adatfeltáráshoz és a Circos-ábrák különböző típusaihoz. Ahogy a jövőben további genomikai adattípusok keletkeznek, folyamatosan frissítjük a további funkcionális modulokat, hogy bővítsük az NG-Circos teljesítményét. Emellett aktívan karbantartjuk az NG-Circost, és válaszolunk a felhasználók megkereséseire. Azáltal, hogy az NG-Circos interaktív webes felületen támogatja a genomikai adatok különböző típusait, meggyőződésünk szerint a jövőben az orvosbiológiai területen végzett genomikai kutatásokat fogja erősíteni.
KIEGÉSZÍTŐ ADATOK
A kiegészítő adatok a NARGAB Online-on érhetők el.
FELHÍVÁSOK
Megköszönjük Tianyi Zangnak, Yadong Wangnak és a Li labor tagjainak a konstruktív vitákat és támogatást.
FORRÁSZÁS
Nincs külső finanszírozás.
Érdekütközéssel kapcsolatos nyilatkozat. Nincs bejelentett.
,
,
,
,
,
,
,
.
;
:
–
.
szekvencia hasonlóságának vizualizálása.
.
;
:
–
.
,
,
,
.
.
;
:
.
,
,
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
,
,
segítségével.
.
;
:
–
.
,
,
,
,
,
,
.
;
:
–
.
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al.
.
.
;
:
.
,
,
,
,
,
,
,
,
,
és mások .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
és mások .
.
;
:
–
.
,
,
,
,
,
,
,
,
,
és mások .
.
.
;
:
–
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
és mások .
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
et al.
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
és mások .
segítségével.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
A szerzők megjegyzései
A szerzők tudomásul kívánják venni, hogy véleményük szerint az első két szerzőt közös első szerzőnek kell tekinteni.
címhez.