Hmotnostně spektrální databáze těkavých látek BinBase | BMC Bioinformatics

Sběr a analýza těkavých vzorků

Odběr vzorků těkavých látek

Protokoly odběru vzorků těkavých látek (volba sorbentu a způsob odběru) jsou specifické pro identitu analytu a zdroj vzorku a značně se liší v závislosti na oblasti výzkumu a zaměření. Při většině našich odběrů vzorků byl použit TwisterTM (GERSTEL, Inc.) na bázi polydimethylsiloxanu (PDMS) kvůli jeho vysoké kapacitě, univerzálnosti (možné režimy headspace i sorpční extrakce mícháním) a snadné manipulaci v terénu (obrázek 1A). Těkavé sloučeniny zachycené přístrojem TwisterTM jsou pro analýzu tepelně desorbovány (obrázek 1B). Ačkoli TwisteryTM byly dosud naším hlavním sorbentem, jiné typy sorbentů a metody odběru vzorků těkavých látek (např, plněné kazety, SPME, přímé nástřiky do headspace a přímá termická desorpce) a jsou kompatibilní s anotací dat a Bin databází.

Markery retenčního indexu

Absolutní retenční časy (RT) GC-MS píků se posouvají v závislosti na vlastnostech kolony (např. typ kolony, stáří, délka, fázový poměr, tloušťka filmu) a mezi vzorky nebo typy vzorků jsou často pozorovány rozdíly v RT (obrázek 1C). Při provádění rozsáhlých studií trvajících měsíce nebo roky nebo při porovnávání mnoha různých typů vzorků jsou posuny RT nevyhnutelné. Retenční indexy (RI) překonávají tento problém tím, že fixují retenční časy eluovaných sloučenin na pevných pozicích definovaných markerovými sloučeninami nasypanými do vzorku. Vysoce odlišné vzorky lze v databázi sestavit v průběhu let s použitím markerů RI.

Algoritmus vocBinBase vyžaduje přidání markerových sloučenin RI ke všem vzorkům pro korekci RI. Jako markery RI používáme metylestery mastných kyselin (FAME) spíše než klasické alkany s přímým řetězcem (Kovatsova RI), protože FAME vykazují vzorce elektronové ionizace (EI) fragmentů (zejména při vysokých hodnotách m/z), které jsou vhodnější pro jednoznačnou a automatizovanou detekci. Aby nedocházelo k záměně mezi hodnotami RI na základě FAME a hodnotami RI na základě Kovatse (počet uhlíků * 100), přijali jsme rozlišující jednotkovou hodnotu a hodnoty RI FAME se pohybují od 262,214 pro FAME C4 do 980,934 pro FAME C24. Pro srovnání, odpovídající hodnoty RI na bázi alkanů pro FAME C4 a C24 jsou 726 a 2712. Jak FAME, tak alkany jsou přirozeně se vyskytující těkavé látky , takže přídavek směsi RI zabrání detekci přidaných specifických markerových sloučenin, pokud se nepoužijí izotopicky značené markery RI.

Směs RI pro těkavé vzorky zahrnuje FAME s lineárními délkami uhlíkových řetězců C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22 a C24. Zásobní směs se připraví v methylenchloridu s konečnou koncentrací FAME 5 mg/ml (C4), 1,5 mg/ml (C20, C22, C24), 1,2 mg/ml (C6, C8), 0,8 mg/ml (C9, C16, C18) a 0,4 mg/ml (C14-C18). Tento zásobní roztok FAME se pak před použitím 200krát zředí v methylpropionátu. Pracovní směs FAME RI se zavede externě do přístroje Twister™ v kapilárách o objemu 0,5 uL. Kapiláry se naplní roztokem FAME RI a poté se umístí vedle přístroje Twister™ do transportní trubice TDU s fritovým dnem pro tepelnou desorpci (obrázek 1B). Níže jsou uvedeny chromatogramy ilustrující mřížkovou povahu markerů FAME RI ve vzorku těkavých látek z citrusových listů nasypaném pomocí kapilární metody (Obrázek 1D).

Instrumentace

Analýzy těkavých vzorků se provádějí na GC 6890 (Agilent Technologies, Santa Clara, CA) vybaveném termální desorpční jednotkou (TDU, GERSTEL, Inc..), Muehlheim, Německo), vstupem kryochlazeného vstřikovacího systému (CIS4, GERSTEL, Inc.) a robotickým vzorkovačem (MPS2, GERSTEL, Inc.) propojeným s hmotnostním spektrometrem Pegasus IV time-of-flight (Leco, St. Joseph, MI).

Parametry termické desorpce a injektoru

Exponované Twistery se termicky desorbují v TDU v režimu bez rozdělení (průtok 50 ml/min, režim odvětrávání rozpouštědla) při počáteční teplotě 30 °C, která se zvyšuje na 250 °C rychlostí 12 °C/s a poté se udržuje při konečné teplotě po dobu 3 min. Desorbované analyty se kryofokusují na vstupu CIS4 kapalným dusíkem (-120 °C). Po desorpci se vstup zahřeje z -120 na 260 °C rychlostí 12 °C/s a udržuje se při 260 °C po dobu 3 min.

Nastavení přístroje GC-TOF-MS

Nastavení a programování přístroje GC-TOF-MS jsou definovány ve standardních operačních postupech, aby bylo možné získat data, která lze automaticky anotovat a sestavovat napříč studiemi. Chromatografická separace se provádí na koloně Rtx-5SilMS s 10 m integrovanou ochrannou kolonou . Teplotní program GC pece je následující: počáteční teplota 45 °C s 2minutovým udržováním, následovaná nárůstem 20 °C/min na 300 °C s 2minutovým udržováním, následovaným nárůstem 20 °C/min na 330 °C s 0,5minutovým udržováním. Průtok nosného plynu (99,9999 % He) je udržován na konstantní hodnotě 1 ml/min. Teplota přenosového potrubí mezi plynovým chromatografem a hmotnostním spektrometrem je 280 °C. Hmotnostní spektra se získávají rychlostí 25 spekter za sekundu s hmotnostním rozsahem 35-500 m/z. Napětí detektoru je nastaveno na 1800 V a ionizační energie na 70 eV. Teplota iontového zdroje je 250 °C.

Konstrukce databáze BinBase

Struktura databáze

Kód databáze BinBase byl vyvinut v jazycích Java a Groovy a je zcela založen na softwaru s otevřeným zdrojovým kódem. Databáze BinBase využívá vícevrstvou softwarovou architekturu (obrázek 2). Jádrem databáze BinBase je databáze v souladu s jazykem SQL, která uchovává hmotnostní spektra (generovaná během analýzy vzorků), výsledky analýzy a data v mezipaměti (pro zvýšení rychlosti). K obsahu databáze přistupuje cluster, aplikační server a Bellerophon pomocí Java Database Connectivity (JDBC). Tento přístup je zapouzdřen pomocí Enterprise JavaBeans (EJB) a rámce pro mapování objektů Hibernate. Centrální konfigurace BinBase je uložena v aplikačním serveru, na kterém jsou také umístěny komponenty EJB, služby založené na WSDL (Web Service Description Language), JMS (Java Messaging Service) a JMX (Java Management Extensions); společně tvoří komunikační rozhraní BinBase (BCI). Tyto komponenty EJB poskytují rozhraní k databázi a umožňují ostatním programům v jazyce Java přistupovat k databázi, dotazovat se na data a spouštět výpočty definovaným, omezeným způsobem. Vrstva perzistence a mapování objektů Hibernate umožňuje provádět složité dotazy jednoduchým a intuitivním způsobem a využívá ji především Bellerophon, grafické uživatelské rozhraní (GUI) pro správu databáze BinBase (viz níže). K překonání omezení EJB byla přidána vrstva služeb WSDL, aby bylo možné k BinBase přistupovat z většiny programovacích jazyků. Interně se vrstva služeb WSDL používá také pro všechny webové front-endy a komunikaci se SetupX/MiniX. Komponenty JMX se používají ke konfiguraci celého systému na centrálním místě a ke sledování vlastností systému. Modul BCI hraje klíčovou roli v zabezpečení systému tím, že omezuje přístup uživatelů k jednotlivým službám na základě IP adresy a hesla a zabraňuje útokům typu DoS (denial of service) nebo SQL injection.

Požadavky na instalaci databáze BinBase

Systém BinBase vyžaduje pro výpočet hmotnostních spektrálních dat architekturu založenou na clusteru Rocks Linux. Ta je minimálně zavedena pomocí systému sestávajícího ze dvou standardních osobních počítačů (PC). První PC ukládá data (soubory *.netcdf,*.txt a obsah databáze), poskytuje přístup k webovým stránkám a udržuje frontu výpočtů. Druhý počítač provádí výpočty. Pro každý z těchto počítačů stačí dvoujádrový centrální procesor (CPU) s frekvencí 2 GHz a 4 GB RAM, pokud zatížení výpočty nepřesáhne několik set vzorků denně. Vzhledem ke své funkci ukládání dat vyžaduje první PC úložiště o kapacitě 1-2 TB a dvě síťové karty o kapacitě 1 GB. Pro druhý počítač stačí menší pevný disk (200 GB) a jedna síťová karta. Naše současná konfigurace v Genome Cente‘ každý a jeden hlavní uzel s úložným polem na bázi pevného disku pro lepší přístup k databázi.

Báze BinBase je veřejně dostupná pod licencí LGPL 2.0 (http://binbase.sourceforge.net) a je přístupná pomocí různých webových front-endů a bohatých klientských aplikací i vrstvy webových služeb. Dokumentace potřebná k instalaci a správě systému se rovněž nachází na této webové stránce.

Bellerophon

Front-end grafické uživatelské rozhraní (GUI) Bellerophon je centrálním nástrojem pro správu databáze BinBase a slouží ke správě binů, procházení databáze a konfiguraci retenčních indexů. Bellerophon je aplikace založená na bohaté klientské platformě (RCP) Eclipse 3 SWT. Obsahuje vizualizační funkce založené na JFreeChart a podporuje dotazy do databáze prostřednictvím frameworku Hibernate. Framework Hibernate podporuje mapování databázových tabulek na objekty. Dynamické tabulky SWT a vizualizace jsou vytvářeny z těchto objektů prostřednictvím Java Reflection-API a XDoclet.

SetupX

SetupX je databáze pro návrh studie, jejíž hlavní funkce zahrnují zachycení experimentálních metadat pro generování tříd, náhodný výběr a plánování sekvencí GC-TOF-MS a ukládání anotovaných dat GC-TOF-MS spolu se všemi ostatními datovými soubory spojenými s experimentem (např. fotografie, tabulky analýz, jiné soubory s instrumentálními daty). Podrobnosti týkající se struktury SetupX byly popsány . Vyvinuli jsme štíhlejší verzi této databáze, MiniX. Uživatelské požadavky na anotace BinBase prostřednictvím webových stránek MiniX aktivují funkci exportu MiniX BinBase pomocí EJB a JMS. BinBase navíc požaduje informace o experimentálních třídách z MiniX prostřednictvím EJB. MiniX je projekt s otevřeným zdrojovým kódem a lze jej stáhnout a nainstalovat pod licencí LGPL 2.0 (http://code.google.com/p/minix/).

filtrační algoritmus vocBinBase

Algoritmus vocBinBase přebírá dekonvolutovaná spektra a metadata poskytnutá softwarem Leco ChromaTOF a také informace o vzorku z databáze návrhu studie SetupX/MiniX a aplikuje vícestupňový filtrační systém, který buď anotuje spektra k existujícím záznamům databáze („Bins“), vytváří a přidává nové Bins do databáze, pokud jsou splněna všechna kritéria kvality, nebo vyřazuje spektra s nízkou kvalitou, aby zachoval integritu databáze (viz doplňkový soubor 1, obrázek S1). Každá položka databáze nebo „Bin“ představuje jedinečnou sloučeninu, která splnila všechny prahové hodnoty hmotnostních spekter, instrumentálních a třídních metadat. Biny jsou minimálně definovány následujícími vlastnostmi: hmotnostní spektrum, retenční index (RI), kvantifikační hmotnost, seznam jedinečných hmotností a jedinečné identifikační číslo.

Předzpracování dat

Hrubá data jsou předzpracována softwarem Leco ChromaTOF a uložena jako specifické soubory ChromaTOF *.peg, obecné výsledky *.txt a jako obecné soubory ANDI MS *.cdf. Parametry zpracování dat ChromaTOF (v. 2.32) uvedené v krocích předzpracování zahrnují nastavení základní linie těsně nad šumem (hodnota = 1), žádné vyhlazování a minimální odstup signálu od šumu 20. Soubory *.txt jsou exportovány na souborový server pro další zpracování algoritmem. Algoritmus vocBinBase je kompatibilní se softwarem ChromaTOF verzí 2.32 až po aktuální verzi 4.33.

Spektrální validace

Po importu všech dekonvolutovaných spekter všech chromatogramů biologické studie (*.csv) se spektra zkontrolují na přítomnost a abundanci jedinečného iontu (vzhledem k základnímu píku), na přítomnost všech vrcholových hmotností (hmotností, které sdílejí maximální intenzitu s maximem píku jedinečného iontu) a na počet píků, které překračují prahové hodnoty intenzity vrcholu. Spektrální validace je prvním filtrem kvality dat; chromatogramy s přetíženými píky a chybami dekonvoluce se používají pouze pro porovnávání píků, ale ne pro generování Bin.

Výpočty retenčního indexu na základě metylesterů mastných kyselin

Algoritmus BinBase pro korekci retenčního indexu nejprve aplikuje filtr základního píku na všechna spektra za účelem lokalizace značek RI FAME (nepoužívají se žádné informace o retenčním čase). Z tohoto filtrovaného seznamu se pík FAME s nejvyšším skóre hmotnostní spektrální podobnosti použije jako referenční bod, od kterého se použijí míry vzdálenosti k vyšším a nižším retenčním časům pro lokalizaci všech ostatních markerů RI. Jakmile jsou nalezeny všechny požadované markery FAME, vypočítá se korekční křivka pomocí lineární regrese pro první dva a poslední dva standardy a polynomické regrese pátého řádu pro standardy mezi nimi. Polynomiální regrese se použije v kalibrovaném rozsahu, aby se zohlednily absolutní a relativní posuny retenčních časů, které se liší od lineární regrese v časných a pozdních retenčních časech. Protože polynomy vysokého stupně mají špatné výsledky při extrapolaci, použije se lineární regrese pro extrapolaci mimo rozsah markerů RI. V případě, že nejsou nalezeny všechny časné a pozdní markery RI, je generování nových binů zakázáno, ale porovnávání stávajících binů je stále životaschopné.

Parametry použité k nalezení RI markerů pro těkavé vzorky vyžadovaly podstatné úpravy oproti těm, které byly použity v metabolitových algoritmech. Nastavení shody a základní vzorce píků musely být nově definovány, aby se přizpůsobily rozšíření FAME o C4 a C6, jakož i změně rozsahu m/z z 85-500 na 35-500. Toto rozšíření rozsahu m/z na nižší hodnoty je naprosto nezbytné pro těkavé sloučeniny, protože nejsou TMS-derivovány a rozsah 35-85 m/z poskytuje důležitá fragmentační data, která pomáhají při identifikaci sloučenin. Aby nedošlo ke ztrátě vysoce kvalitních dat, u nichž FAME nebyly ve specifikaci, byly stávající algoritmy upraveny tak, aby umožňovaly použití korekční křivky předchozího nebo pozdějšího vzorku získaného ve stejný den na daný vzorek. Pokud taková platná data RI nebyla nalezena, byla vyhledávací okna prodloužena až na deset dní; v opačném případě se vygeneruje částečná křivka s použitím markerů RI nalezených v osamoceném vzorku. Ve všech těchto případech je generování Binů vypnuto, ale všechny existující Biny jsou přiřazeny.

Anotace píků algoritmem BinBase

Metadata ChromaTOF používaná při anotaci píků algoritmem BinBase zahrnují hmotnostní spektrální podobnost, čistotu píků (odhad počtu, blízkosti a podobnosti společně se vyskytujících píků), retenční index, poměr signál/šum, jedinečný ion, vrcholové ionty a jedinečný poměr hmotnosti k základnímu píku. Další metadata hlášená softwarem ChromaTOF (např. výška píku, % plochy) algoritmus nepoužívá. Po korekci RI (popsané výše) jsou spektra postupně anotována podle klesající intenzity píku. Pro daný pík algoritmus nastaví okno RI (± 2 000 jednotek FAME RI, ~ 2 s) a použije filtr jedinečné shody iontů, který odpovídá buď jedinečnému iontu, nebo vrcholovým iontům dekonvolutovaného píku, aby se vytvořil seznam možných přiřazení Bin. Pouze s těmito dvěma parametry je dosaženo vysokého stupně filtrování. Například u sloučeniny s hodnotou RI FAME 446700 a jedinečným iontem m/z 93 sníží omezení filtru RI počet porovnání hmotnostních spekter z 1537 záznamů na osm potenciálních shod. Omezení jedinečného iontu dále snižuje počet možných shod Bin z osmi shod na dva kandidáty (obrázek 3). Teprve v této fázi se použije filtr podobnosti hmotnostních spekter, který používá proměnlivé prahové hodnoty založené na poměru signálu k šumu a čistotě píků. Hojný, dobře rozlišený pík vyžaduje pro úspěšnou anotaci vyšší skóre hmotnostní spektrální podobnosti než pík malý nebo koelující.

V důsledku toho lze pro různé píky definovat různé prahové hodnoty pro každý parametr. V příkladu znázorněném výše (obrázek 3) je pík přiměřeně čistý (čistota píku = 0,1137) a pro porovnání s Binem je vyžadováno vysoké skóre hmotnostní spektrální podobnosti. Na základě těchto konečných kritérií filtrování a skóre hmotnostní spektrální podobnosti pro linalool (917) a terpinolen (<500) je konečným přiřazením sloučeniny v tomto příkladu linalool. V tomto konkrétním příkladu existují ve skutečnosti tři Biny v rámci okna ± 2000 jednotek FAME RI, z nichž dva mají jedinečnou hodnotu iontu m/z 93. Tento druhý Bin s jedinečným iontem m/z 93 je ve skutečnosti terpinolen.

V této fázi anotace může zůstat více než jedno přiřazení Bin (např. stereoizomery, které mohou eluovat v rámci vyhledávacího okna RI). Pak se anotuje izomer s nejbližší shodou RI, pokud alternativní Bin nemá výrazně vyšší skóre podobnosti. Spektra, která jsou ve filtru izomerů odfiltrována, mohou stále odpovídat jiným sousedním Binům, a proto jsou znovu zařazena do anotačního algoritmu.

Generování nového Bin – sledování neznámých sloučenin

V případě, že spektrum neodpovídá existujícímu Bin, algoritmus BinBase vygeneruje nový Bin, pokud jsou splněna specifická, velmi přísná kritéria. Nejprve musí dané spektrum projít přísnými prahovými hodnotami kvality hmotnostních spekter založenými na čistotě (hodnota čistoty < 1,0) a intenzitě (S/N > 25). Prahové hodnoty pro filtr vytvářející hmotnostní spektrum Bin jsou přísnější než pro filtr podobnosti, aby se zajistilo, že novými Biny se stanou pouze hojná a čistá spektra. Za druhé, potenciální nový Bin musí před validací projít filtrem experimentální třídy. Tento filtr vyžaduje, aby byl nový Bin detekován alespoň v 80 % všech vzorků experimentální třídy, aby byla zajištěna jeho identita jako skutečné těkavé látky, a nikoli jako falešného kontaminantu. Všechny databázové Biny byly vygenerovány algoritmem, jak je popsáno, z údajů shromážděných v laboratorních a terénních experimentech.

Post-matching and replacements

Po anotaci všech spekter všech experimentálních tříd je sestaven komplexní seznam Binů zahrnující všechny Biny nalezené v celém experimentu. Poté jsou všechna spektra znovu porovnána se seznamem Bin (post-matching), aby byly ve všech vzorcích prohledány všechny Biny, včetně všech nově vytvořených Binů. V tomto kroku mohou spektra ve vzorcích, která neprošla přísnějšími prahovými hodnotami MS požadovanými pro generování Bin, projít prahovými hodnotami požadovanými pro anotaci Bin.

V některých případech není Bin pozitivně detekován ve všech chromatogramech buď proto, že chybí, nebo je málo zastoupen (pravá negativita), nebo je přítomen, ale kritéria kvality nejsou dostatečná, aby umožnila přiřazení (falešná negativita). To by mělo za následek nulovou hodnotu v datové matici, což brání následným statistickým analýzám. Byla navržena a do algoritmu naprogramována strategie pro výpočet náhradní hodnoty v těchto případech. Nejprve algoritmus určí průměrný retenční čas pro každý metabolit v celé analytické sekvenci tak, že vypočítá průměrný retenční index pro vzorky a převede jej zpět na retenční čas pomocí korekční křivky retenčního indexu. Poté se otevřou surové, nezpracované chromatogramy (formáty souborů netCDF nebo ANDI MS) a pro každou chybějící těkavou sloučeninu se uvede maximální intenzita iontu ve vybrané stopě kvantifikačního iontu v čase ±2 s kolem cílového retenčního času minus lokální šum pozadí pro tento cílový ion v čase ±5 s kolem cílového retenčního času. Intenzita iontů odečtených od pozadí je uvedena v tabulce výsledků s barevným kódováním, které označuje výsledky jako přiřazení „druhého průchodu“. Ověření algoritmu nahrazení bylo provedeno porovnáním ručních anotací nahrazených hodnot v souborech vzorků s jejich hodnotami nahrazení algoritmem.

vocBinBase Report

Ve složce s výsledky jsou zahrnuty všechny Biny zjištěné alespoň v 80 % experimentální třídy. Kromě toho složka s hlášením obsahuje soubor s výsledky pro všechny Biny zjištěné alespoň v 50 % experimentální třídy. Výsledek za 50 % mohou výzkumní pracovníci použít k doplnění 80% souboru údajů o další identifikované metabolity nebo k vyhodnocení méně jistě nalezených nebo vzácných píků. Každý záznam v exportované tabulce Bin je uváděn jako intenzita hmotnosti kvantifikátoru Bin, což je ve výchozím nastavení jedinečný ion, ačkoli tuto hodnotu může správce databáze ručně změnit na jakýkoli ion ve spektru. Z několika důvodů používáme výšky píků, a nikoli plochy píků. Výšky píků jsou vhodnější než plochy píků pro malé píky, protože nastavení základní linie ovlivňuje plochy píků více pro malé píky než pro větší píky. Navíc výšky píků založené na definovaných jedinečných iontech poskytují stabilnější měřítko než jiné parametry, jako je dTIC nebo TIC, protože při analýze dané sloučeniny v různých chromatogramech se bude počet, a tedy i kombinovaná intenzita detekovaných iontů lišit v závislosti na množství a čistotě píků.

Ve všech binech exportovaných databází vocBinBase je uveden jedinečný identifikátor databáze, kvantifikační ion, hodnota retenčního indexu a kompletní hmotnostní spektrum zakódované jako řetězec (obrázek 4). Záznamy v databázi jsou pojmenovány pomocí Adamsovy knihovny těkavých látek rostlin (popsáno níže). Sloučeniny, které nejsou rostlinného původu, včetně pesticidů, změkčovadel a dalších kontaminantů, jsou anotovány pomocí knihovny NIST-RI. Známé artefakty související s krvácením z kolon jsou anotovány v databázi vocBinBase, ale nejsou exportovány uživatelům do zpráv o výsledcích (m/z 207, 221, 281, 355). Správci databáze mohou ručně vyloučit (nebo zahrnout) píky do seznamu hlášených Bins. Například artefakty založené na systému Twister™ se pro vyloučení v tabulkách výsledků vybírají ručně. Tabulky s výsledky se vytvářejí ve formátech XLS a TXT (nebo v případě potřeby ve formátu XML). Po identifikaci jsou Bins hlášeny také s jejich chemickým názvem a identifikátorem PubChem.

Identifikace Bin

Identifikace Bin je podpořena Adamsovou knihovnou hmotnostních spekter a údajů o retenčních indexech pro více než 2 000 purifikovaných rostlinných těkavých látek a složek esenciálních olejů , ověřených pro mnoho sloučenin pomocí autentických standardů v naší laboratoři. Před nahráním Adamsovy knihovny do programu Bellerophon pro porovnávání Bin byla knihovna převedena z formátu HP Chemstation do formátu knihovny NIST pomocí programu Lib2NIST ke stažení dostupného na webových stránkách NIST (http://chemdata.nist.gov). Kromě toho byly Adamsovy hodnoty RI založené na alkanech převedeny na jejich ekvivalent BinBase FAME RI. Převod RI mezi Adamsovou a Fiehnovou chromatografickou variantou (různé naprogramování teploty GC pece a výrobce kolony) byl proveden pomocí polynomu 2. řádu a je uveden na http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Všechny identifikované těkavé látky v databázi vocBinBase jsou opatřeny anotacemi s chemickými identifikátory PubChem a hash klíči InChI kódujícími strukturu, které umožňují křížové odkazy do chemických databází a strukturních informačních nástrojů.

Kvalita konverze RI byla testována vstřikováním autentických referenčních standardů přítomných v knihovně Adams za standardních provozních parametrů. Porovnání vypočtených hodnot s experimentálně stanovenými hodnotami pro 70 referenčních sloučenin přineslo korelaci 0,9995 se standardní chybou 3,380 jednotek RI (standardní odchylka zbytkové chyby, RIcalculated-RIexperimental). Porovnání vypočtených a experimentálních hodnot pro 130 anotací Adamsovy knihovny poskytlo podobné hodnoty (r2 = 0,9994, SE = 3,320 jednotek RI). Graf absolutní odchylky RI (RIcalculated-RIexperimental) pro 70 standardů a 130 knihovních anotací ukázal, že 61 % injektovaných sloučenin bylo v rámci jedné standardní chyby a 58 % anotovaných sloučenin se nacházelo v rámci jedné standardní chyby vypočtené hodnoty. Grafické znázornění údajů viz Doplňkový soubor 2, obrázek S2.

Obsah databáze

V současné době databáze obsahuje spektra z 3 435 vzorků reprezentujících 18 druhů. Navzdory 1,7 milionu importovaných, plně dekonvolutovaných spekter obsahuje databáze vocBinBase v současné době pouze 1537 unikátních binů. Ze všech importovaných spekter 45 % nesplňuje prahové hodnoty algoritmu a je vyřazeno; taková spektra jsou zašuměná a nekonzistentní. Čím nižší prahové hodnoty by uživatelé nastavili pro detekci píků v ChromaTOF (např. snížení kritérií pro nalezení píků z s/n>20 na s/n>3), tím více píků by bylo detekováno. Většina odpovídajících spekter píků by byla algoritmem BinBase vyřazena jako příliš zašuměná a nebyla by uvedena ve výstupních listech. Podobnou míru vyřazování spekter zaznamenal nástroj SpectConnect, který využívá dekonvoluční data AMDIS z GC-kvadrupólových MS přístrojů. Při zde použitém nastavení splňuje zbývajících 55 % spekter kritéria kvality a jsou anotována a uložena do databáze (obr. 5). Přibližně 12 % anotovaných sloučenin jsou polysiloxanové artefakty odvozené od sloupců a Twister™; tyto artefakty jsou anotovány algoritmem, ale nejsou zahrnuty do zpráv BinBase exportovaných pro uživatele. Jak bylo popsáno výše, anotace se opírají o více kritérií a určité prahové hodnoty jsou proměnlivé v závislosti na různých hodnotách metadat; požadovaná prahová hodnota MS podobnosti závisí na abundanci a čistotě píku (např. pík s nízkou čistotou vyžaduje méně přísnou MS podobnost). Malé procento anotovaných spekter (4 %) je generováno velmi čistými píky (čistota <0,15) s vysokým skóre MS podobnosti, zatímco většina záznamů v databázi je generována čistými píky (čistota<1.5, 46 %) nebo nejsou čisté píky (čistota>1,5, 39 %).

Z aktuálních 1537 binů bylo 211 identifikováno jako skutečné těkavé látky pomocí porovnání hmotnostního spektrálního indexu a indexu zdržení. Kromě toho bylo 161 Bins anotováno jako polysiloxanové artefakty (které se proto neexportují do datových listů výsledků studií) a zbývající Bins jsou zatím neidentifikované. Vizualizace obsahu databáze VOC pomocí spektrální podobnosti (všechny Biny) a Tanimotova koeficientu chemické podobnosti (identifikované Biny) byla provedena pomocí programu Cytoscape (obrázek 6). Tanimotův koeficient podobnosti je metrika podobnosti, která vypočítává skóre udávající úroveň podobnosti mezi porovnávanými molekulami . Přehled sítě poskytuje vizuální znázornění vztahů mezi 1537 Bins. Identifikované sloučeniny jsou znázorněny červenými uzly a neidentifikované sloučeniny jako šedé uzly. Uzly seskupené těsně vedle sebe jsou si podobnější než uzly s jediným spojením na okraji sítě. Modré hrany spojují identifikované těkavé látky se strukturní podobností větší než 700. Všimněte si, že polysiloxanové artefakty se shlukují mimo sloučeniny kvůli velmi výraznému vzorci fragmentace. Oblasti sítě s identifikovanými sloučeninami (červené uzly) byly označeny informacemi o třídě.