The volatile compound BinBase mass spectral database

Volatile sample collection and analysis

Volatile compound sampling

Volatile compound sampling protocols (sorbent keuze en sampling methode) zijn specifiek voor analyt identiteit en monsterbron, en variëren sterk afhankelijk van het onderzoeksgebied en focus. Het merendeel van onze bemonsteringen is uitgevoerd met de op polydimethylsiloxaan (PDMS) gebaseerde TwisterTM (GERSTEL, Inc.) vanwege zijn grote capaciteit, veelzijdigheid (zowel headspace- als stir-bar sorptieve extractiemethoden zijn mogelijk) en eenvoudige hanteerbaarheid in het veld (Figuur 1A). Vluchtige verbindingen die door de TwisterTM worden opgevangen, worden thermisch gedesorbeerd voor analyse (figuur 1B). Hoewel de TwistersTM tot op heden ons belangrijkste sorptiemiddel zijn geweest, zijn er andere sorbenttypes en methoden voor de bemonstering van vluchtige stoffen (bv, verpakte cartridge, SPME, directe headspace-injecties en directe thermische desorptie) kunnen worden gebruikt en zijn compatibel met gegevensannotatie en Bin-databasering.

Figuur 1
figuur 1

Vluchtige verbindingen worden afgevangen met Twister™-technologie en gedetecteerd met GC-TOF-MS met een tijdsinvariant op FAME gebaseerd retentie-indexraster. (A) Monstername. Vluchtige verbindingen worden gevangen op 1 cm lange PDMS-gecoate Twisters™. (Afbeelding verstrekt door GERSTEL, Inc.). (B) Schema van de data-acquisitie-instrumentatie (niet op schaal). Blootgestelde Twisters™ worden overgebracht in glazen transportbuisjes samen met een externe oplossing van retentie-indexmarkers (C4-C26 vetzuurmethylesters, FAME’s) in glazen capillairen van 0,5 ml. Vluchtige stoffen worden uit de Twisters™ vrijgemaakt in een thermische desorptie-eenheid (TDU). De gedesorbeerd vluchtige stoffen en FAME’s worden opnieuw gefocusseerd in de met vloeibare stikstof gekoelde CIS4-inlaat, en vervolgens opnieuw gevulatiliseerd voor scheiding op temperatuur op een gaschromatografiekolom (GC) voor elektronenionisatie time-of-flight massaspectrometriedetectie (TOF MS) en primaire gegevensverwerking met ChromaTOF-software. (C) Retentietijdverschuivingen. Gedurende lange perioden verschuiven de absolute retentietijden (RT) van verbindingen als gevolg van het gebruik van de kolom. Hier wordt de RT-verschuiving voor methyleicosanoaat (C20 FAME) getoond van zes afzonderlijke monsters tijdens een tweejarig onderzoek met 1500 monsters. Verschuivingen van 3 seconden kwamen gedurende één maand voor, terwijl een verschuiving van 6 seconden werd waargenomen na een kolomwissel. (D) Omrekening naar retentie-index. Door FAME-retentie-indexmarkers (m/z 74, 5-voudig vergroot, blauw spoor) aan elk vluchtig profiel (totaal ion-chromatogram, rood spoor) toe te voegen, wordt een stabiel rooster van FAME’s vastgesteld om variabele “tijd” om te zetten in onveranderlijke “index”-eenheden. Er zijn geen verdere uitlijningen van chromatogrammen nodig.

Retentie-indexmarkers

Absolute retentietijden (RT) van GC-MS-pieken verschuiven als functie van kolomeigenschappen (bv. kolomtype, leeftijd, lengte, faseverhouding, filmdikte) en RT-verschillen worden vaak waargenomen tussen monsters of monstertypes (figuur 1C). Bij grote studies die maanden of jaren duren of waarbij veel verschillende monstertypes worden vergeleken, zijn RT-verschuivingen onvermijdelijk. Retentie-indices (RI) ondervangen dit probleem door de retentietijden van geëlueerde verbindingen vast te zetten op vaste posities die worden bepaald door markerverbindingen die in het monster zijn gebracht. Door het gebruik van RI-markers kunnen in de loop der jaren zeer verschillende monsters in een databank worden gecompileerd.

Het vocBinBase-algoritme vereist de toevoeging van RI-markerverbindingen aan alle monsters voor RI-correcties. Wij gebruiken methylesters van vetzuren (FAME’s) als RI-markers in plaats van klassieke rechte-ketenalkanen (Kovats RI), omdat FAME’s elektronenionisatie (EI)-fragmentpatronen vertonen (vooral bij hoge m/z-waarden) die beter geschikt zijn voor ondubbelzinnige en geautomatiseerde detectie. Om verwarring tussen de RI-waarden op basis van FAME en die op basis van Kovats (koolstofgetal * 100) te voorkomen, hebben wij een onderscheidende eenheidswaarde gehanteerd en lopen de RI-waarden van FAME uiteen van 262.214 voor FAME C4 tot 980.934 voor FAME C24. Ter referentie: de overeenkomstige RI-waarden op alkaanbasis voor FAME’s C4 en C24 zijn respectievelijk 726 en 2712. Zowel FAME’s als alkanen zijn natuurlijk voorkomende vluchtige stoffen, zodat de toevoeging van het RI-mengsel de detectie van de toegevoegde specifieke markerverbindingen verhindert, tenzij isotopisch gemerkte RI-markers worden gebruikt.

Het RI-mengsel voor vluchtige monsters omvat FAME’s met lineaire koolstofketenlengtes C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22, en C24. Er wordt een voorraadmengsel bereid in methyleenchloride met uiteindelijke FAME-concentraties van 5 mg/ml (C4), 1,5 mg/ml (C20, C22, C24), 1,2 mg/ml (C6, C8), 0,8 mg/ml (C9, C16, C18) en 0,4 mg/ml (C14-C18). Deze FAME-stamoplossing wordt vervolgens vóór gebruik 200-voudig verdund in methylpropionaat. Het werkende FAME RI-mengsel wordt in 0,5 uL capillairen uitwendig in de Twister™ gebracht. De capillairen worden met de FAME RI-oplossing gevuld en vervolgens naast de Twister™ in een TDU-transportbuis met frittenbodem geplaatst voor thermische desorptie (figuur 1B). Chromatogrammen ter illustratie van de rastervormige aard van de FAME RI-markers in een vluchtig citrusbladmonster dat met de capillaire methode is gespiket, zijn hieronder afgebeeld (figuur 1D).

Instrumentatie

Vluchtige monsteranalyses worden uitgevoerd op een 6890 GC (Agilent Technologies, Santa Clara, CA), uitgerust met een thermische desorptie-eenheid (TDU, GERSTEL, Inc, Muehlheim, Duitsland), een cryo-gekoelde inlaat van het injectiesysteem (CIS4, GERSTEL, Inc.) en een robot sampler (MPS2, GERSTEL, Inc.), gekoppeld aan de Pegasus IV time-of-flight massaspectrometer (Leco, St. Joseph, MI).

Thermische desorptie- en injectorparameters

Belichte Twisters worden in de TDU thermisch gedesorbeerd in splitloze modus (debiet 50 ml/min, solvent vent-modus) bij een begintemperatuur van 30 °C, opgevoerd tot 250 °C met een snelheid van 12 °C/sec, en vervolgens 3 min. op de eindtemperatuur gehouden. De gedesorbeerde analyten worden in de CIS4-inlaat gecryofocusseerd met vloeibare stikstof (-120 °C). Na desorptie wordt de inlaat verwarmd van -120 tot 260°C met een snelheid van 12°C/s en gedurende 3 min. op 260°C gehouden.

GC-TOF-MS-instellingen

GC-TOF-MS-instrumentinstellingen en -programmering worden vastgelegd in standaard-werkprocedures om gegevens te produceren die automatisch kunnen worden geannoteerd en in studies kunnen worden samengevoegd. De chromatografische scheiding wordt uitgevoerd op een Rtx-5SilMS-kolom met een geïntegreerde guard-kolom van 10 m. Het temperatuurprogramma van de GC-oven is als volgt: begintemperatuur van 45 °C met een wachttijd van 2 minuten, gevolgd door een stijging van 20 °C/min tot 300 °C met een wachttijd van 2 minuten, gevolgd door een stijging van 20 °C/min tot 330 °C met een wachttijd van 0,5 minuut. De draaggasstroom (99,9999% He) wordt constant gehouden op 1 mL/min. De temperatuur van de verbindingsleiding tussen de gaschromatograaf en de massaspectrometer bedraagt 280 °C. Massaspectra worden verkregen met 25 spectra/sec en een massabereik van 35-500 m/z. De detectorspanning is ingesteld op 1800 V en de ionisatie-energie op 70 eV. De ionenbron heeft een temperatuur van 250°C.

Binbase database constructie

Database structuur

De BinBase code is ontwikkeld in Java en Groovy, en is volledig gebaseerd op open-source software. BinBase maakt gebruik van een meerlagige softwarearchitectuur (figuur 2). De kern van BinBase is een SQL-conforme database waarin massaspectra (gegenereerd tijdens monsteranalyse), analyseresultaten en gegevens in de cache (voor verbeterde snelheid) worden opgeslagen. De inhoud van de database wordt benaderd door het cluster, de applicatieserver en Bellerophon met behulp van Java Database Connectivity (JDBC). Deze toegang wordt ingekapseld door Enterprise JavaBeans (EJB) en het Hibernate Object mapping framework. De centrale configuratie van BinBase wordt opgeslagen in de Application Server, die ook EJB, WSDL (Web Service Description Language)-gebaseerde diensten, JMS (Java Messaging Service), en JMX (Java Management Extensions) componenten bevat; samen vormen deze de BinBase Communication Interface (BCI). Deze EJB’s bieden een interface naar de database en stellen andere Java-programma’s in staat toegang te krijgen tot de database, gegevens op te vragen en berekeningen te starten op een gedefinieerde, beperkte manier. De persistentie- en object mapping-laag van Hibernate maakt het mogelijk complexe query’s op een eenvoudige, intuïtieve manier uit te voeren en wordt hoofdzakelijk gebruikt door Bellerophon, de grafische gebruikersinterface (GUI) voor het beheer van BinBase (zie hieronder). Een WSDL servicelaag werd toegevoegd om de beperkingen van EJB te omzeilen, zodat BinBase vanuit de meeste programmeertalen kan worden benaderd. Intern wordt de WSDL-servicelaag ook gebruikt voor alle web front-ends en communicatie met SetupX/MiniX. JMX componenten worden gebruikt om het hele systeem op een centrale plaats te configureren en systeemeigenschappen te monitoren. De BCI-module speelt een sleutelrol bij de beveiliging van het systeem door de toegang van gebruikers tot bepaalde diensten te beperken op basis van IP-adres en wachtwoord, en door denial of service (DoS)-aanvallen of SQL-injectieaanvallen te voorkomen.

Figuur 2
figuur 2

Meerlagige architectuur van de vocBinBase Database.

BinBase database installatievereisten

Het BinBase-systeem vereist een Rocks Linux-clusterarchitectuur om massaspectrumgegevens te berekenen. Dit wordt minimaal opgezet met een systeem bestaande uit twee standaard personal computers (PC’s). De eerste PC slaat gegevens op (*.netcdf-bestanden, *.txt-bestanden en database-inhoud), verschaft toegang tot webpagina’s en onderhoudt de rekenwachtrij. De tweede PC voert de berekeningen uit. Een dual core 2 GHz centrale verwerkingseenheid (CPU) en 4 GB RAM zijn voldoende voor elk van deze PC’s als de rekenbelasting niet hoger is dan enkele honderden monsters per dag. Vanwege de gegevensopslagfunctie zijn voor de eerste PC 1-2 TB opslagruimte en twee netwerkkaarten van 1 GB nodig. Voor de tweede PC volstaan een kleinere harde schijf (200 GB) en een enkele netwerkkaart. Onze huidige configuratie in het Genome Cente’ elk en een hoofdknooppunt met een solid state disk-gebaseerde opslag array voor verbeterde toegang tot de database.

De BinBase database is beschikbaar voor het publiek onder de LGPL 2.0 licentie (http://binbase.sourceforge.net), en is toegankelijk met behulp van verschillende web front-ends en rich client applicaties, alsmede een webservice laag. Documentatie die nodig is voor de installatie en het beheer van het systeem is ook te vinden op deze website.

Bellerophon

De front-end grafische gebruikersinterface (GUI) Bellerophon is het centrale beheerhulpmiddel voor BinBase en wordt gebruikt voor Bin management, database browsing en retentie index configuratie. Bellerophon is een op Eclipse 3 SWT gebaseerde rich client platform (RCP) toepassing. Het bevat visualisatiemogelijkheden gebaseerd op JFreeChart en ondersteunt database queries via een Hibernate framework. Het Hibernate framework ondersteunt het mappen van database tabellen naar objecten. Dynamische SWT-tabellen en visualisaties worden gemaakt van deze objecten via Java Reflection-API en XDoclet.

SetupX

SetupX is een studie-ontwerp database met als primaire functies het vastleggen van experimentele metadata voor het genereren van klassen, het randomiseren en plannen van GC-TOF-MS sequenties, en het opslaan van geannoteerde GC-TOF-MS data samen met alle andere gegevensbestanden die verbonden zijn aan een experiment (b.v. foto’s, assay spreadsheets, andere instrumentele gegevensbestanden). Details over de structuur van SetupX zijn beschreven. Wij hebben een slankere versie van deze databank ontwikkeld, MiniX. Verzoeken van gebruikers om BinBase-annotaties via de MiniX-website activeren de MiniX BinBase-exportfunctie via EJB en JMS. BinBase vraagt bovendien via EJBs experimentele klasse-informatie op uit MiniX. MiniX is een open source project en kan worden gedownload en geinstalleerd onder de LGPL 2.0 licentie (http://code.google.com/p/minix/).

vocBinBase filtering algoritme

Het vocBinBase algoritme neemt de gedeconvolueerde spectra en metadata die door de Leco ChromaTOF software, alsmede monster informatie uit de studie design database SetupX/MiniX en past een multi-tiered filtering systeem dat ofwel annoteert spectra om bestaande database vermeldingen (“Bins”), creëert en voegt nieuwe Bins aan de database als alle kwaliteitscriteria zijn voldaan, of verwijdert spectra van lage kwaliteit om de database integriteit te behouden (zie Additional File 1, figuur S1). Elke databaserecord of “Bin” vertegenwoordigt een unieke verbinding die aan alle massaspectrale, instrumentele en klasse metadata drempels heeft voldaan. Bins worden minimaal gedefinieerd door de volgende eigenschappen: massaspectrum, retentie-index (RI), kwantificeringsmassa, lijst van unieke massa’s, en een uniek identificatienummer.

Data preprocessing

Ruwe gegevens worden voorbewerkt door de Leco ChromaTOF software en opgeslagen als ChromaTOF-specifieke *.peg bestanden, generieke *.txt resultaten, en als generieke ANDI MS *.cdf bestanden. ChromaTOF (v. 2.32) data processing parameters gespecificeerd in pre-processing stappen zijn basislijn instelling net boven ruis (waarde = 1), geen afvlakking, en signaal-ruisverhouding minimum van 20. De *.txt-bestanden worden naar een bestandsserver geëxporteerd voor verdere verwerking door het algoritme. Het vocBinBase-algoritme is compatibel met ChromaTOF-softwareversies 2.32 tot de huidige versie, 4.33.

Spectrale validatie

Na invoer van alle gedeconvolueerde spectra van alle chromatogrammen van een biologische studie (*.csv-formaat), worden de spectra gecontroleerd op de aanwezigheid en abundantie van het unieke ion (ten opzichte van de basispiek), de aanwezigheid van alle apexmassa’s (massa’s die de maximale intensiteit delen met het piekmaximum van het unieke ion), en op het aantal pieken dat de intensiteitsdrempels van de apex overschrijdt. Spectrale validatie is de eerste filter voor gegevenskwaliteit; chromatogrammen met overbelaste pieken en deconvolutiefouten worden alleen gebruikt voor piekmatching, maar niet voor bin-generatie.

Retentie-indexberekeningen op basis van vetzuurmethylesters

Het BinBase-algoritme voor retentie-indexcorrectie past eerst een basispiekfilter toe op alle spectra om de FAME RI-markers te lokaliseren (er wordt geen retentietijdinformatie gebruikt). Uit deze gefilterde lijst wordt de FAME-piek met de hoogste massaspectrale similariteitsscore gebruikt als referentiepunt van waaruit afstandsmetingen op hogere en lagere retentietijden worden toegepast om alle andere RI-markers te lokaliseren. Zodra alle vereiste FAME-markers zijn gevonden, wordt een correctiecurve berekend met behulp van een lineaire regressie voor de eerste twee en de laatste twee standaarden en een polynomiale regressie van de vijfde orde voor de standaarden daartussen. De polynomiale regressie wordt toegepast binnen het gekalibreerde bereik om rekening te houden met de absolute en relatieve retentietijdverschuivingen, die verschillen van de lineaire regressies bij de vroege en late retentietijden. Aangezien polynomialen van hoge graad slecht presteren bij extrapolatie, wordt lineaire regressie gebruikt voor extrapolatie buiten het RI-markerbereik. Indien niet alle vroege en late RI-markers worden gevonden, wordt het genereren van nieuwe Bins uitgeschakeld, maar het matchen van bestaande Bins is nog steeds mogelijk.

De parameters die werden gebruikt om de RI-markers voor vluchtige monsters te vinden, moesten aanzienlijk worden gewijzigd ten opzichte van die welke in de metabolietalgoritmen werden gebruikt. Match instellingen en basis piek patronen moesten opnieuw worden gedefinieerd om de uitbreiding van de FAMEs met C4 en C6, alsmede de verandering in het m / z bereik van 85-500 tot 35-500 tegemoet te komen. Deze uitbreiding van het m/z-bereik tot lagere waarden is absoluut noodzakelijk voor de vluchtige verbindingen, aangezien zij niet TMS-derivatized zijn en het m/z-bereik van 35-85 belangrijke fragmentgegevens oplevert om te helpen bij de identificatie van verbindingen. Om te voorkomen dat gegevens van hoge kwaliteit verloren gaan waarin FAME’s niet in de specificatie voorkwamen, werden bestaande algoritmen zodanig gewijzigd dat een correctiecurve van een eerder of later op dezelfde dag genomen monster op het monster in kwestie kon worden toegepast. Als dergelijke geldige RI-gegevens niet werden gevonden, werden de zoekvensters tot tien dagen verlengd; in het andere geval werd een gedeeltelijke curve gegenereerd met behulp van de RI-markers die in het eenduidige monster werden gevonden. In al deze gevallen is het genereren van Bin’s uitgeschakeld, maar worden alle bestaande Bins toegewezen.

Piekannotatie door het BinBase-algoritme

De ChromaTOF-metadata die bij de piekannotatie door het BinBase-algoritme worden gebruikt, omvatten massaspectrale gelijkenis, piekzuiverheid (een schatting van het aantal, de nabijheid en de gelijkenis van co-eluting pieken), retentie-index, signaal-ruisverhouding, uniek ion, apex-ionen en unieke massa-tot-basis-piekverhouding. Door de ChromaTOF-software gerapporteerde aanvullende metagegevens (bv. piekhoogte, oppervlakte %) worden door het algoritme niet gebruikt. Na de RI-correctie (hierboven beschreven) worden de spectra sequentieel geannoteerd met afnemende piekintensiteit. Voor een bepaalde piek stelt het algoritme een RI-venster in (± 2.000 FAME RI-eenheden, ~ 2 sec) en gebruikt het een unieke ionen-matchfilter om het unieke ion of de apexing-ionen van de gedeconvolueerde piek te matchen om een lijst van mogelijke Bin-toewijzingen te genereren. Met slechts deze twee parameters wordt een hoge mate van filtering bereikt. Bijvoorbeeld, een verbinding met een FAME RI-waarde van 446700 en het unieke ion m/z 93, de RI-filterbeperkingen verminderen het aantal massaspectravergelijkingen van 1.537 entries tot acht potentiële hits. De unieke ionenbeperking reduceert de mogelijke Bin-overeenkomsten verder van acht treffers tot twee kandidaten (figuur 3). Pas in dit stadium wordt een massaspectrale similariteitsfilter toegepast, die variabele drempels gebruikt op basis van de signaal/ruisverhouding van de piek en de piekzuiverheid. Een overvloedige, goed opgeloste piek vereist een hogere massaspectrale similariteitsscore voor een succesvolle annotatie dan een kleine of co-elutie piek.

Figuur 3
figure3

Voorbeeld ter demonstratie van het filteralgoritme. Vluchtige gegevens verzameld uit de kopruimte van een gewond sinaasappelblad zijn complex (A) en spectrale deconvolutie is nodig om overlappende pieken op te lossen. Een overlay van 7 van de 465 gemeten massa elutieprofielen (m/z 93, 111, 114, 115, 132, 136, 150) wordt getoond van 400-412 seconden (B). De gedeconvolueerde massaspectra en piekmetadata worden in het algoritme ingevoerd. De eerste twee filters maken gebruik van RI-informatie en unieke ion-informatie. Deze zijn zeer effectief bij het beperken van de mogelijkheden voor database-matching, zoals getoond voor piek #122 (C).

In feite kunnen voor verschillende pieken verschillende drempels voor elke parameter worden gedefinieerd. In het hierboven gegeven voorbeeld (figuur 3) is de piek redelijk zuiver (piekzuiverheid = 0,1137) en is een hoge massaspectrale similariteitsscore vereist voor Bin matching. Op basis van deze laatste filtercriteria en de massaspectrale similariteitsscores voor linalool (917) en terpinolene (<500), is de uiteindelijke verbindingstoewijzing in dit voorbeeld linalool. In dit specifieke voorbeeld zijn er in feite drie Bins binnen het venster van ± 2000 FAME RI-eenheden, waarvan er twee een unieke ionwaarde van m/z 93 hebben. De tweede bin met het unieke ion m/z 93 is in feite terpinolene.

In dit stadium van de annotatie kan er nog meer dan één bin overblijven (bijv. stereoisomeren die binnen het zoekvenster RI kunnen elueren). De isomeer met de RI die het dichtst bij elkaar ligt, wordt dan geannoteerd, tenzij een alternatieve Bin een significant grotere similariteitsscore heeft. Spectra die in de isomeerfilter worden uitgefilterd, kunnen nog steeds met andere naburige Bins overeenkomen en worden daarom opnieuw in het annotatiealgoritme ingevoerd.

Nieuwe Bin-generatie – onbekende verbindingen opsporen

In het geval dat het spectrum niet met een bestaande Bin overeenkomt, genereert het BinBase-algoritme een nieuwe Bin als aan specifieke, zeer strenge criteria wordt voldaan. Ten eerste moet het spectrum in kwestie voldoen aan strenge drempels voor massaspectrale kwaliteit, gebaseerd op zuiverheid (zuiverheidswaarde < 1,0) en intensiteit (signaal-ruisverhouding > 25). De drempels voor het Bin-genererende massaspectrumfilter zijn strenger dan die voor het similariteitsfilter om ervoor te zorgen dat alleen overvloedige en zuivere spectra nieuwe Bins worden. Ten tweede moet een potentiële nieuwe bin een experimentele klassefilter doorstaan alvorens te worden gevalideerd. Deze filter eist dat een nieuwe bin wordt gedetecteerd in ten minste 80% van alle monsters van een experimentele klasse, om er zeker van te zijn dat het om een echte vluchtige gaat en niet om een ongewenste contaminant. Alle database Bins zijn door het algoritme gegenereerd zoals beschreven uit gegevens verzameld in laboratorium- en veldexperimenten.

Post-matching en vervangingen

Als alle spectra van alle experimentele klassen zijn geannoteerd, wordt een uitgebreide Bin-lijst samengesteld met alle Bins die in het hele experiment zijn gevonden. Vervolgens worden alle spectra opnieuw gematcht met de Bin-lijst (post-matching) zodat alle Bins, met inbegrip van alle nieuw gegenereerde Bins, in alle monsters worden doorzocht. In deze stap kunnen spectra van monsters die niet aan de strengere MS-drempelwaarden voor het genereren van Bin’s voldoen, wel aan de drempelwaarden voor Bin-annotatie voldoen.

In sommige gevallen wordt een Bin niet in alle chromatogrammen positief gedetecteerd, hetzij omdat hij afwezig of laag overvloedig is (echt negatief), hetzij omdat hij wel aanwezig is maar de kwaliteitscriteria niet volstaan om hem toe te wijzen (vals negatief). Dit resulteert in een nulwaarde in de gegevensmatrix, wat latere statistische analyses bemoeilijkt. Er is een strategie bedacht en in het algoritme geprogrammeerd om in deze gevallen een vervangende waarde te berekenen. Eerst bepaalt het algoritme de gemiddelde retentietijd voor elke metaboliet over de analytische sequentie door de gemiddelde retentie-index voor de monsters te berekenen en die met behulp van de retentie-indexcorrectiecurve terug te rekenen naar de retentietijd. Vervolgens worden de ruwe, onbewerkte chromatogrammen (netCDF- of ANDI MS-bestandsformaten) geopend en wordt de maximale ionintensiteit bij het geselecteerde kwantificatie-ionspoor voor elke ontbrekende vluchtige verbinding op ±2s rond de doelretentietijd gerapporteerd minus de lokale achtergrondruis voor dat doelion op ±5s rond de doelretentietijd. De van de achtergrond afgetrokken ionintensiteit wordt in de resultatentabel gerapporteerd met kleurcodering om de resultaten als een “second-pass”-toewijzing aan te geven. Het vervangingsalgoritme is gevalideerd door handmatige annotaties van vervangen waarden in monstersets te vergelijken met de vervangingswaarden van het algoritme.

vocBinBase Report

Alle Bins die in ten minste 80% van een experimentele klasse zijn gedetecteerd, zijn opgenomen in de map met het resultatenrapport. Bovendien bevat de rapportmap een resultaatbestand voor alle Bins die in ten minste 50% van een experimentele klasse zijn gedetecteerd. Het 50%-resultaat kan door onderzoekers worden gebruikt om de 80%-dataset aan te vullen met meer geïdentificeerde metabolieten of om de minder betrouwbaar gevonden of zeldzame pieken te evalueren. Elk item in de geëxporteerde Bin-tabel wordt gerapporteerd als de intensiteit van de Bin-kwantificeermassa, die standaard het unieke ion is, hoewel deze waarde door de databasebeheerder handmatig kan worden gewijzigd in elk ion in het spectrum. Om verschillende redenen gebruiken wij piekhoogten en niet piekgebieden. Voor kleine pieken zijn piekhoogten te verkiezen boven piekgebieden, omdat de basislijninstellingen voor kleine pieken meer invloed hebben op piekgebieden dan voor grotere pieken. Bovendien zijn piekhoogten op basis van gedefinieerde unieke ionen een stabielere maat dan andere parameters zoals dTIC of TIC, omdat bij de analyse van een bepaalde verbinding in verschillende chromatogrammen het aantal en dus de gecombineerde intensiteit van de gedetecteerde ionen zal verschillen, afhankelijk van de piekovervloed en de zuiverheid.

Alle door de vocBinBase database geëxporteerde Bins worden gerapporteerd met een unieke database-identifier, het kwantificatie-ion, de retentie-indexwaarde, en het volledige massaspectrum gecodeerd als een string (figuur 4). De databankgegevens worden benoemd aan de hand van de Adams plant volatile library (hieronder beschreven). Verbindingen die niet van planten afkomstig zijn, zoals bestrijdingsmiddelen, weekmakers en andere verontreinigingen, worden geannoteerd met behulp van de NIST-RI-bibliotheek. Bekende artefacten in verband met kolombloeding worden in vocBinBase geannoteerd, maar worden in de resultatenrapporten niet naar de gebruikers geëxporteerd (m/z 207, 221, 281, 355). Databasebeheerders kunnen pieken handmatig uitsluiten (of opnemen) in de lijst van gerapporteerde Bins. Zo worden bijvoorbeeld op Twister™ gebaseerde artefacten handmatig geselecteerd voor uitsluiting in resultatentabellen. Resultaatsgegevensbladen worden geproduceerd in XLS- en TXT-formaat (of XML indien nodig). Zodra de Bins zijn geïdentificeerd, worden deze ook gerapporteerd met hun chemische naam en PubChem-identifier.

Figuur 4
figuur 4

Voorbeeld van vocBinBase-rapport waarin de rapportkenmerken worden benadrukt. Alle door de vocBinBase-database geëxporteerde Bins worden gerapporteerd met een unieke database-identifier, het kwantificatie-ion, de retentie-index en het volledige massaspectrum, gecodeerd als string. Verbonden abundanties worden gerapporteerd als de intensiteit van de Bin kwantificeermassa. De databankgegevens worden benoemd met behulp van de Adams-bibliotheek van plantaardige vluchtige stoffen en voor geïdentificeerde verbindingen worden hyperlinked PubChem-identificaties opgenomen.

Bin-identificatie

Bin-identificatie wordt ondersteund door de Adams-bibliotheek van massaspectra en retentie-indexgegevens voor meer dan 2.000 gezuiverde plantaardige vluchtige stoffen en essentiële oliecomponenten, die voor veel verbindingen zijn geverifieerd met behulp van authentieke standaarden in ons laboratorium. Voorafgaand aan het uploaden van de Adams bibliotheek in Bellerophon voor Bin matching werd de bibliotheek geconverteerd van HP Chemstation formaat naar NIST bibliotheek formaat met de Lib2NIST download beschikbaar op de NIST website (http://chemdata.nist.gov). Daarnaast werden de op alkaan gebaseerde Adams RI-waarden omgezet naar hun BinBase FAME RI-equivalent. De RI-omzetting tussen de Adams- en Fiehn-chromatografische varianten (verschillende GC-ovenprogrammering en kolomfabrikant) werd uitgevoerd met een 2e-orde polynoom en wordt gegeven in http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Alle geïdentificeerde vluchtige stoffen in vocBinBase zijn geannoteerd met PubChem chemische identifiers en structuur-coderende InChI hash sleutels om kruisverwijzingen naar de chemie databases en structurele informatie tools.

De kwaliteit van de RI conversie werd getest door het injecteren van authentieke referentie-standaarden aanwezig in de Adams bibliotheek onder standaard bedrijfsparameters. Een vergelijking van de berekende waarden met experimenteel bepaalde waarden voor 70 referentieverbindingen leverde een correlatie op van 0,9995 met een standaardfout van 3.380 RI-eenheden (standaardafwijking van de restfout, RIcalculated-RIexperimental). Een vergelijking van de berekende en experimentele waarden voor 130 annotaties uit de Adams-bibliotheek leverde vergelijkbare waarden op (r2 = 0,9994, SE = 3,320 RI-eenheden). Een plot van de absolute RI afwijking (RIcalculated-RIexperimentele) voor de 70 normen en 130 bibliotheek annotaties bleek dat 61% van de geïnjecteerde verbindingen waren binnen een standaard fout, en 58% van de geannoteerde verbindingen viel binnen een standaard fout van de berekende waarde. Zie Additional File 2, figuur S2 voor de grafiek data.

Database inhoud

Op dit moment de database bevat spectra van 3,435 monsters die 18 soorten. Ondanks de 1,7 miljoen geïmporteerde, volledig gedeconvolueerde spectra, bevat de vocBinBase database momenteel slechts 1537 unieke Bins. Van alle geïmporteerde spectra voldoet 45% niet aan de drempelwaarden van het algoritme en wordt weggegooid; dergelijke spectra zijn ruisachtig en inconsistent. Hoe lager de gebruikers de drempels voor piekdetecties in ChromaTOF instellen (bv. door de criteria voor het vinden van pieken te verlagen van s/n>20 tot s/n>3), hoe meer pieken zouden worden gedetecteerd. De meeste van de overeenkomstige piekspectra zouden door het BinBase-algoritme als te ruisig worden afgewezen en niet in de uitvoerbladen worden gerapporteerd. SpectConnect, dat gebruik maakt van AMDIS deconvolutiegegevens van GC-quadrupool MS-instrumenten, rapporteerde een soortgelijk percentage weglatende spectra. Onder de hier gebruikte instellingen voldoen de resterende 55% van de spectra aan de kwaliteitscriteria en worden zij geannoteerd en in de databank opgeslagen (figuur 5). Ongeveer 12% van de geannoteerde verbindingen zijn kolom- en Twister™-afgeleide polysiloxaanartefacten; deze artefacten worden door het algoritme geannoteerd, maar worden niet opgenomen in de BinBase-rapporten die voor de gebruikers worden geëxporteerd. Zoals hierboven is beschreven, berusten de annotaties op meerdere criteria en zijn bepaalde drempelwaarden variabel, afhankelijk van diverse metagegevenswaarden; de vereiste MS similariteitsdrempelwaarde hangt af van de piekdichtheid en de zuiverheid (een piek met een lage zuiverheid vereist bijvoorbeeld een minder strenge MS similariteitsmatch). Een klein percentage van de geannoteerde spectra (4%) wordt gegenereerd door zeer zuivere pieken (zuiverheid <0,15) met een hoge MS similariteitsscore, terwijl de meerderheid van de ingangen in de databank wordt gegenereerd door zuivere pieken (zuiverheid<1.5, 46%) of niet zuivere pieken (zuiverheid>1.5, 39%).

Figuur 5
figuur 5

Filtereffect van het vocBinBase-algoritme. Spectra moeten aan meerdere criteria voldoen om te worden geannoteerd en in de database te worden opgeslagen. 45% van alle binnenkomende spectra voldoet niet aan de criteria en wordt als ruisachtig en inconsistent terzijde geschoven. De resterende 55% wordt geannoteerd en opgeslagen in de database. 12% van de geannoteerde spectra zijn kolom- of Twister™ polysiloxaanartefacten. Een verdere uitsplitsing van geannoteerde spectra op basis van piekzuiverheid, s/n, en massaspectrale overeenkomst wordt getoond.

Van de huidige 1.537 Bins zijn er 211 geïdentificeerd als echte vluchtige stoffen door massaspectrale-retentie-index-matching. Daarnaast zijn 161 Bins geannoteerd als polysiloxaanartefacten (die daarom niet naar de gegevensbladen met studieresultaten worden geëxporteerd), en de resterende Bins zijn nog niet geïdentificeerd. Visualisatie van de inhoud van de VOC-database met behulp van spectrale gelijkenis (alle Bins) en de Tanimoto chemische gelijkeniscoëfficiënt (geïdentificeerde Bins) werd uitgevoerd met Cytoscape (figuur 6). De Tanimoto similariteitscoëfficiënt is een similariteitsmetriek die een score berekent die de mate van gelijkenis aangeeft tussen moleculen die worden vergeleken. Het netwerkoverzicht geeft een visuele voorstelling van de relaties tussen de 1537 Bins. De geïdentificeerde verbindingen worden weergegeven met rode knooppunten en de niet-geïdentificeerde verbindingen met grijze knooppunten. Knooppunten die dicht bij elkaar geclusterd zijn, vertonen meer gelijkenis dan knooppunten met slechts één verbinding aan de rand van het netwerk. Blauwe randen verbinden geïdentificeerde vluchtige stoffen met structurele gelijkenis groter dan 700. Merk op dat de polysiloxaan artefacten clusteren uit de buurt van de verbindingen, als gevolg van zeer onderscheidend fragmentatiepatroon. Netwerkregio’s met geïdentificeerde verbindingen (rode knooppunten) zijn gelabeld met klasse-informatie.

Figuur 6
figure6

Visualisatie van de inhoud van de vocBinBase-database. Rode knooppunten zijn geïdentificeerde verbindingen, grijze knooppunten zijn niet-geïdentificeerde verbindingen. Blauwe randen verbinden geïdentificeerde vluchtige stoffen met een structurele gelijkenis van meer dan 700.

Plaats een reactie