BinBase masspektraldatabas för flyktiga föreningar

Hämtning och analys av flyktiga prover

Provtagning av flyktiga föreningar

Protokoll för provtagning av flyktiga föreningar (val av sorptionsmedel och provtagningsmetod) är specifika för analyten och provkällan, och varierar kraftigt beroende på forskningsområde och inriktning. Vid majoriteten av våra provtagningar har vi använt den polydimetylsiloxan (PDMS)-baserade TwisterTM (GERSTEL, Inc.) på grund av dess höga kapacitet, mångsidighet (både headspace- och stir-bar-sorptextraktion är möjlig) och lätta hantering i fält (figur 1A). Flyktiga föreningar som fångas upp av TwisterTM desorberas termiskt för analys (figur 1B). Även om TwisterTM hittills har varit vårt primära sorbent, kan andra sorbenttyper och metoder för provtagning av flyktiga ämnen (t.ex, packad patron, SPME, direkta headspace-injektioner och direkt termisk desorption) kan användas och är kompatibla med dataannotering och Bin-databasering.

Figur 1
figur1

Flyktiga föreningar fångas upp med hjälp av Twister™-tekniken och detekteras med GC-TOF-MS med ett tidsinvariant FAME-baserat retentionsindexnät. (A) Provinsamling. Flyktiga föreningar fångas in på 1 cm långa PDMS-belagda Twister™. (Figur tillhandahålls av GERSTEL, Inc.). (B) Schema över instrument för datainsamling (ej i skala). Exponerade Twisters™ överförs till transportrör av glas tillsammans med en extern lösning av retentionsindexmarkörer (C4-C26-fettsyremetylestrar, FAME) i 0,5 ml glaskapillärer. Flyktiga ämnen frigörs från Twisters™ i en termisk desorptionsenhet (TDU). Desorberade flyktiga ämnen och FAME:er fokuseras på nytt i det flytande kvävekylda CIS4-inloppet och återvolatiseras sedan för temperaturrampad separation på en gaskromatografikolonn (GC-kolonn) för elektronjoniseringsdetektering med flygtidsbaserad masspektrometri (TOF MS) och primär databehandling med ChromaTOF-programvaran. (C) Retentionstidsförskjutningar. Under långa driftsperioder förskjuts de absoluta retentionstiderna (RT) för föreningar på grund av kolonnanvändning. Här visas RT-förskjutningen för metyleikosanoat (C20 FAME) från sex separata prover under en tvåårig studie som omfattade 1 500 prover. Förskjutningar på 3 sekunder inträffade under en månads drift, medan en förskjutning på 6 sekunder observerades efter ett kolonnbyte. (D) Konvertering till retentionsindex. Genom att lägga till FAME-hållningsindexmarkörer (m/z 74, 5-faldigt förstorat, blått spår) till varje flyktig profil (totaljonkromatogram, rött spår) upprättas ett stabilt rutnät av FAME:er för att omvandla variabel ”tid” till oföränderliga ”index”-enheter. Inga ytterligare kromatogramutjämning behövs.

Retentionsindexmarkörer

Absoluta retentionstider (RT) för GC-MS-toppar förskjuts som en funktion av kolonnens egenskaper (t.ex. kolonntyp, ålder, längd, fasförhållande, filmtjocklek) och RT-skillnader observeras ofta mellan prover eller provtyper (figur 1C). När man utför stora studier som sträcker sig över månader eller år, eller jämför många olika provtyper, är RT-förskjutningar oundvikliga. Retentionsindex (RI) löser detta problem genom att låsa retentionstiderna för eluerade föreningar till fasta positioner som definieras av markörföreningar som spikats i provet. Mycket olika prover kan sammanställas i en databas under flera år med hjälp av RI-markörer.

VocBinBase-algoritmen kräver att RI-markörföreningar läggs till alla prover för RI-korrigeringar. Vi använder fettsyrametylestrar (FAME) som RI-markörer snarare än klassiska rätkedjiga alkaner (Kovats RI) eftersom FAME uppvisar elektronjoniserings (EI)-fragmentmönster (särskilt vid höga m/z-värden) som lämpar sig bättre för entydig och automatiserad detektion. För att undvika förvirring mellan FAME-baserade RI-värden och Kovats-baserade RI-värden (kolantal * 100) har vi antagit ett distinkt enhetsvärde och FAME RI-värdena sträcker sig från 262,214 för FAME C4 till 980,934 för FAME C24. Som referens är motsvarande alkanbaserade RI-värden för FAME C4 och C24 726 respektive 2712. Både FAMEs och alkaner är naturligt förekommande flyktiga ämnen, så tillsatsen av RI-blandningen kommer att förhindra detektion av de specifika markörföreningar som tillsatts om inte isotopiskt märkta RI-markörer används.

RI-blandningen för flyktiga prover omfattar FAMEs med linjära kolkedjelängder C4, C6, C8, C9, C9, C10, C12, C12, C14, C16, C18, C20, C22 och C24. En stamblandning bereds i metylenklorid med slutliga FAME-koncentrationer på 5 mg/ml (C4), 1,5 mg/ml (C20, C22, C24), 1,2 mg/ml (C6, C8), 0,8 mg/ml (C9, C16, C18) och 0,4 mg/ml (C14-C18). Denna FAME-stocklösning späds sedan 200 gånger i metylpropionat före användning. Den fungerande FAME RI-blandningen införs externt i Twister™ i 0,5 uL kapillärer. Kapillärerna fylls med FAME RI-lösningen och placeras sedan tillsammans med Twister™ i ett TDU-transportrör med fritbotten för termisk desorption (figur 1B). Kromatogram som illustrerar FAME RI-markörernas rutnätsliknande karaktär i ett flyktigt prov från ett citrusblad som spikats med hjälp av kapillärmetoden visas nedan (figur 1D).

Instrumentering

Analyser av flyktiga prover utförs på en 6890 GC (Agilent Technologies, Santa Clara, CA) som är utrustad med en termisk desorptionsenhet (TDU, GERSTEL, Inc, Muehlheim, Tyskland), ett kryokylt inlopp för injektionssystemet (CIS4, GERSTEL, Inc.) och en robotprovtagare (MPS2, GERSTEL, Inc.) som är kopplad till Pegasus IV-tid-av-flyg-masspektrometern (Leco, St. Joseph, MI).

Thermisk desorption och injektorparametrar

Exponerade Twisters desorberas termiskt i TDU i splitless-läge (50 mL/min flödeshastighet, lösningsmedelsventilation) vid en utgångstemperatur på 30 °C, som ökas till 250 °C med en hastighet av 12 °C/sek. och sedan hålls vid sluttemperaturen i 3 minuter. De desorberade analyterna kryofokuseras i CIS4-inloppet med flytande kväve (-120 °C). Efter desorptionen värms inloppet från -120 till 260°C med en hastighet av 12°C/s och hålls vid 260°C i 3 min.

GC-TOF-MS-inställningar

GC-TOF-MS-instrumentets inställningar och programmering definieras i standardrutiner för att producera data som kan automanipuleras och sammanställas i olika studier. Den kromatografiska separationen utförs på en Rtx-5SilMS-kolonn med en 10 m integrerad bevakningskolonn . Temperaturprogrammet för GC-ugnen är följande: Starttemperatur 45 °C med 2 minuters uppehåll följt av en ramp på 20 °C/min upp till 300 °C med 2 minuters uppehåll följt av en ramp på 20 °C/min upp till 330 °C med 0,5 minuters uppehåll. Flödet av bärgas (99,9999% He) hålls konstant på 1 mL/min. Överföringsledningens temperatur mellan gaskromatografen och masspektrometern är 280 °C. Masspektren registreras vid 25 spektrum/sek. med ett massområde på 35-500 m/z. Detektorns spänning är inställd på 1800 V och joniseringsenergin på 70 eV. Jonkällans temperatur är 250°C.

Binbase-databasens uppbyggnad

Databasens struktur

BinBase-koden utvecklades i Java och Groovy och är helt baserad på programvara med öppen källkod. BinBase använder sig av en flerskiktad mjukvaruarkitektur (figur 2). Kärnan i BinBase är en SQL-konform databas som lagrar masspektrum (som genereras under provanalysen), analysresultat och cached data (för ökad hastighet). Databasens innehåll nås av klustret, applikationsservern och Bellerophon med hjälp av Java Database Connectivity (JDBC). Denna åtkomst kapslas in av Enterprise JavaBeans (EJB) och Hibernate Object Mapping Framework. Den centrala BinBase-konfigurationen lagras i applikationsservern, som också innehåller EJB-, WSDL (Web Service Description Language)-baserade tjänster, JMS (Java Messaging Service) och JMX (Java Management Extensions) komponenter, som tillsammans utgör BinBase Communication Interface (BCI). Dessa EJB:er tillhandahåller ett gränssnitt till databasen och gör det möjligt för andra Java-program att få tillgång till databasen, söka data och starta beräkningar på ett definierat, begränsat sätt. Hibernate-lagret för persistens och objektmappning gör det möjligt att utföra komplexa frågor på ett enkelt och intuitivt sätt och används främst av Bellerophon, det grafiska användargränssnittet (GUI) för BinBase-administrationen (se nedan). Ett WSDL-tjänsteskikt har lagts till för att övervinna EJB-begränsningarna så att BinBase kan nås från de flesta programmeringsspråk. Internt används WSDL-tjänsteskiktet också för alla webbfronter och kommunikation med SetupX/MiniX. JMX-komponenter används för att konfigurera hela systemet på en central plats och övervaka systemegenskaper. BCI-modulen spelar en viktig roll för systemsäkerheten genom att begränsa användarnas tillgång till vissa tjänster baserat på IP-adress och lösenord och genom att förhindra DoS-attacker (Denial of Service) eller SQL-injektionsattacker.

Figur 2
figur2

Mångskiktad arkitektur för vocBinBase-databasen.

Krav för installation av BinBase-databasen

BinBase-systemet kräver en Rocks Linux klusterbaserad arkitektur för att beräkna masspektrala data. Detta är minimalt etablerat med ett system som består av två vanliga persondatorer (PC). Den första datorn lagrar data (*.netcdf-filer, *.txt-filer och databasinnehåll), ger tillgång till webbsidor och upprätthåller beräkningskön. Den andra datorn utför beräkningar. En central processorenhet (CPU) med dubbla kärnor på 2 GHz och 4 GB RAM räcker för var och en av dessa datorer om beräkningsbelastningen inte överstiger flera hundra prover per dag. På grund av sin datalagringsfunktion kräver den första datorn 1-2 TB lagringsutrymme och två nätverkskort på 1 GB. En mindre hårddisk (200 GB) och ett enda nätverkskort räcker för den andra datorn. Vår nuvarande konfiguration vid Genome Cente’ var och en huvudnod med en solid state diskbaserad lagringsarray för förbättrad databasåtkomst.

BinBase-databasen är tillgänglig för allmänheten under LGPL 2.0-licensen (http://binbase.sourceforge.net), och är åtkomlig med hjälp av olika webbfronter och rika klienttillämpningar samt ett webbtjänstlager. Den dokumentation som krävs för installation och administration av systemet finns också på denna webbplats.

Bellerophon

Det grafiska användargränssnittet (GUI) Bellerophon i front-end är det centrala administrationsverktyget för BinBase och används för Bin-hantering, databassökning och konfiguration av retentionsindex. Bellerophon är en Eclipse 3 SWT-baserad RCP-applikation (Rich Client Platform). Den innehåller visualiseringsfunktioner baserade på JFreeChart och stöder databasfrågor via ett Hibernate-ramverk. Hibernate-ramverket stöder mappning av databastabeller till objekt. Dynamiska SWT-tabeller och visualiseringar skapas från dessa objekt via Java Reflection-API och XDoclet.

SetupX

SetupX är en databas för studiedesign vars primära funktioner omfattar insamling av experimentella metadata för klassgenerering, slumpmässigt fördelade och schemaläggning av GC-TOF-MS-sekvenser och lagring av kommenterade GC-TOF-MS-data tillsammans med alla andra datafiler som är kopplade till ett experiment (t.ex. fotografier, kalkylark för analys, andra instrumentella datafiler). Närmare uppgifter om SetupX struktur har beskrivits . Vi har utvecklat en smalare version av denna databas, MiniX. Användarförfrågningar om BinBase-annotationer via MiniX-webbplatsen aktiverar MiniX BinBase-exportfunktionen via EJB och JMS. BinBase begär dessutom experimentell klassinformation från MiniX genom EJB:er. MiniX är ett projekt med öppen källkod och kan laddas ner och installeras under LGPL 2.0-licensen (http://code.google.com/p/minix/).

vocBinBase filtreringsalgoritm

VocBinBase-algoritmen tar de dekonvoluterade spektren och metadata som tillhandahålls av Leco ChromaTOF-programvaran samt provinformation från studieuppläggsdatabasen SetupX/MiniX och tillämpar ett flerstegsfiltreringssystem som antingen annoterar spektren till existerande databaseposter (”Bins”), skapar och lägger till nya Bins i databasen om alla kvalitetskriterier är uppfyllda eller kastar bort spektrum av låg kvalitet för att upprätthålla databasens integritet (se tilläggsfil 1, figur S1). Varje databaspost eller ”Bin” representerar en unik förening som har uppfyllt alla tröskelvärden för masspektral-, instrument- och klassmetadata. Bins definieras minimalt av följande egenskaper: masspektrum, retentionsindex (RI), kvantifieringsmassa, lista över unika massor och ett unikt identifieringsnummer.

Förbehandling av data

Rådata förbehandlas av Leco ChromaTOF-mjukvaran och lagras som ChromaTOF-specifika *.peg-filer, generiska *.txt-resultat och som generiska ANDI MS *.cdf-filer. ChromaTOF (v. 2.32) databehandlingsparametrar som anges i förbehandlingsstegen inkluderar baslinjeinställning strax över bruset (värde = 1), ingen utjämning och ett signal-brusförhållande på minst 20. *.txt-filerna exporteras till en filserver för vidare bearbetning av algoritmen. Algoritmen vocBinBase är kompatibel med ChromaTOF-programvaruversionerna 2.32 till den aktuella versionen, 4.33.

Spektral validering

Efter att ha importerat alla dekonvoluterade spektrum av alla kromatogram i en biologisk studie (*.csv-format) kontrolleras spektren med avseende på närvaron och mängden av den unika jonen (i förhållande till bastoppen), närvaron av alla toppmassor (massor som har samma maximala intensitet som toppmaximum för den unika jonen) och antalet toppar som överskrider tröskelvärdena för toppintensitet. Spektralvalidering är det första datakvalitetsfiltret; kromatogram med överbelastade toppar och dekonvolutioneringsfel används endast för toppmatchning, men inte för Bin-generering.

Retentionsindexberäkningar baserade på fettsyrametylestrar

BinBase-algoritmen för retentionsindexkorrigering tillämpar först ett filter för bastoppar på alla spektrum för att lokalisera FAME RI-markörer (ingen information om retentionstid används). Från denna filtrerade lista används FAME-toppen med den högsta masspektrala likhetspoängen som referenspunkt från vilken avståndsmått tillämpas på högre och lägre retentionstider för att lokalisera alla andra RI-markörer. När alla nödvändiga FAME-markörer har hittats beräknas en korrigeringskurva med hjälp av en linjär regression för de två första och de två sista standarderna och en polynomial regression av femte ordningen för standarderna däremellan. Den polynomiala regressionen tillämpas inom det kalibrerade området för att ta hänsyn till de absoluta och relativa retentionstidsförskjutningarna, som skiljer sig från linjära regressioner vid tidiga och sena retentionstider. Eftersom polynomier av hög grad fungerar dåligt vid extrapolering används linjär regression för att extrapolera utanför RI-markeringsområdet. Om inte alla tidiga och sena RI-markörer hittas, inaktiveras genereringen av nya Bins, men det är fortfarande möjligt att matcha befintliga Bins.

De parametrar som användes för att hitta RI-markörer för flyktiga prover krävde betydande ändringar jämfört med dem som användes i algoritmerna för metaboliter. Matchningsinställningar och grundtoppmönster måste omdefinieras för att tillgodose utvidgningen av FAME:erna till att omfatta C4 och C6 samt förändringen av m/z-området från 85-500 till 35-500. Denna utvidgning av m/z-området till lägre värden är absolut nödvändig för de flyktiga föreningarna, eftersom de inte är TMS-derivatiserade och m/z-området 35-85 ger viktiga fragmentdata för att underlätta identifiering av föreningar. För att undvika att förlora högkvalitativa data där FAME inte var i specifikation, ändrades befintliga algoritmer för att möjliggöra tillämpning av en korrigeringskurva från ett tidigare eller senare prov som tagits samma dag på provet i fråga. Om inga sådana giltiga RI-data hittades förlängdes sökfönstren upp till tio dagar; i annat fall genereras en partiell kurva med hjälp av de RI-markörer som hittades i det ensamma provet. I alla dessa fall inaktiveras Bin-generering, men alla befintliga Bins tilldelas.

Peak-annotering med BinBase-algoritmen

De ChromaTOF-metadata som används vid toppannotering med BinBase-algoritmen omfattar masspektral likhet, topprenhet (en uppskattning av antal, närhet och likhet av co-eluterande toppar), retentionsindex, signal-till-brusförhållande, unika joner, apex-joner och unikt massa-till-bas-toppförhållande. Ytterligare metadata som rapporteras av ChromaTOF-programvaran (t.ex. topphöjd, area %) används inte av algoritmen. Efter RI-korrigering (som beskrivs ovan) antecknas spektren sekventiellt med avtagande toppintensitet. För en given topp fastställer algoritmen ett RI-fönster (± 2 000 FAME RI-enheter, ~2 sekunder) och använder ett filter för matchning av unika joner för att matcha antingen den unika jonen eller apexing-jonerna i den dekonvoluterade toppen för att generera en lista över möjliga Bin-tilldelningar. Med bara dessa två parametrar uppnås en hög grad av filtrering. Till exempel en förening med ett FAME RI-värde på 446700 och den unika jonen m/z 93, RI-filterets begränsningar minskar antalet jämförelser av masspektren från 1 537 poster till åtta potentiella träffar. Den unika jonbegränsningen minskar ytterligare möjliga Bin-matchningar från åtta träffar till två kandidater (figur 3). Först i detta skede tillämpas ett filter för masspektral likhet, som använder variabla tröskelvärden baserade på topparnas signal-brusförhållande och topparnas renhet. En riklig, välupplöst topp kräver en högre masspektral likhetspoäng för framgångsrik annotering än en liten topp eller en topp med samverkan.

Figur 3
figure3

Exempel som visar filtreringsalgoritmen. Flyktiga data som samlats in från headspace från ett sårat apelsinblad är komplexa (A) och spektral dekonvolution krävs för att lösa upp överlappande toppar. En överlagring av 7 av 465 uppmätta masselueringsprofiler (m/z 93, 111, 114, 115, 132, 136, 150) visas från 400-412 sekunder (B). Dekonvoluterade masspektrum och metadata om toppar matas in i algoritmen. De två första filtren använder RI-information och information om unika joner. Dessa är mycket effektiva när det gäller att begränsa databasens matchningsmöjligheter, vilket visas för topp nr 122 (C).

I själva verket kan olika tröskelvärden för varje parameter definieras för olika toppar. I exemplet ovan (figur 3) är toppen relativt ren (peak purity = 0,1137) och en hög masspektral likhetspoäng krävs för Bin-matchning. Baserat på dessa slutliga filterkriterier och masspektral likhetspoängen för linalool (917) och terpinolen (<500) är den slutliga sammansättningen i detta exempel linalool. I det här exemplet finns det faktiskt tre Bins inom fönstret ± 2000 FAME RI-enheter, varav två har det unika jonvärdet m/z 93. Denna andra bin med den unika jonen m/z 93 är i själva verket terpinolen.

I detta skede av annoteringen kan mer än en bin-tilldelning finnas kvar (t.ex. stereoisomerer som kan eluera inom det sökta RI-fönstret). Isomeren med närmast matchande RI annoteras då, såvida inte en alternativ Bin har en betydligt större likhetspoäng. Spektrum som filtreras bort i isomerfiltret kan fortfarande passa andra angränsande Bin och återförs därför till annoteringsalgoritmen.

Ny Bin-generering – spårning av okända föreningar

I händelse av att spektrumet inte matchar en befintlig Bin genererar BinBase-algoritmen en ny Bin om specifika, mycket strikta kriterier är uppfyllda. För det första måste spektrumet i fråga klara strikta tröskelvärden för masspektralkvalitet baserade på renhet (renhetsvärde < 1,0) och intensitet (S/N > 25). Tröskelvärdena för det bin-genererande masspektralfiltret är strängare än för likhetsfiltret för att se till att endast rikliga och rena spektrum blir nya bins. För det andra måste en potentiell ny Bin passera ett experimentellt klassfilter innan den valideras. Detta filter kräver att en ny Bin upptäcks i minst 80 % av alla prover i en experimentell klass för att säkerställa att den är en äkta flyktig substans och inte en oönskad kontaminant. Alla databas Bins genererades av algoritmen enligt beskrivningen från data som samlats in i laboratorie- och fältexperiment.

Postmatchning och ersättningar

När alla spektrum av alla experimentella klasser har annoterats sammanställs en omfattande Bin-lista som innehåller alla Bins som hittats i hela experimentet. Därefter matchas alla spektrum återigen mot Bin-listan (post-matching) för att alla Bins, inklusive eventuella nyupprättade Bins, ska genomsökas i alla prover. I detta steg kan spektrum i prover som inte klarade de strängare MS-tröskelvärden som krävs för Bin-generering klara de tröskelvärden som krävs för Bin-annotering.

I vissa fall upptäcks en Bin inte positivt i alla kromatogram, antingen för att den inte finns eller för att den är lågmängdsrik (sant negativ), eller för att den finns men att kvalitetskriterierna inte är tillräckliga för att möjliggöra en tilldelning (falskt negativ). Detta skulle resultera i ett nollvärde i datamatrisen, vilket försvårar efterföljande statistiska analyser. En strategi har utarbetats och programmerats in i algoritmen för att beräkna ett ersättningsvärde i dessa fall. Först bestämmer algoritmen den genomsnittliga retentionstiden för varje metabolit under analyssekvensen genom att beräkna det genomsnittliga retentionsindexet för proverna och omvandla det tillbaka till retentionstiden med hjälp av retentionsindexkorrigeringskurvan. Därefter öppnas de råa, obearbetade kromatogrammen (netCDF- eller ANDI MS-filformat) och den maximala jonintensiteten vid det utvalda kvantifieringsjonspåret för varje saknad flyktig förening vid ±2s runt målretentionstiden rapporteras minus det lokala bakgrundsbruset för den måljonen vid ±5s runt målretentionstiden. Den bakgrundssubtraherade jonintensiteten rapporteras i resultattabellen med färgkodning för att ange resultaten som en ”second-pass”-uppgift. Validering av ersättningsalgoritmen utfördes genom att jämföra manuella annotationer av ersatta värden i provuppsättningar med deras algoritmers ersättningsvärden.

vocBinBase Report

Alla Bins som upptäcks i minst 80 % av en experimentell klass ingår i mappen med resultatrapporter. Dessutom innehåller rapportmappen en resultatfil för alla Bins som upptäcks i minst 50 % av en experimentell klass. Resultatet på 50 % kan användas av forskare för att komplettera datasetet på 80 % med mer identifierade metaboliter eller för att utvärdera mindre säkert funna eller sällsynta toppar. Varje post i den exporterade Bin-tabellen rapporteras som intensiteten för Bin-kvantifieringsmassan, som som standard är den unika jonen, även om detta värde kan ändras manuellt till vilken jon som helst i spektrumet av databasadministratören. Vi använder topphöjder och inte toppområden av flera skäl. Topphöjder är att föredra framför toppområden för små toppar, eftersom baslinjeinställningar påverkar toppområden mer för små toppar än för större toppar. Dessutom ger topphöjder baserade på definierade unika joner ett mer stabilt mått än andra parametrar, t.ex. dTIC eller TIC, eftersom antalet och därmed den kombinerade intensiteten av detekterade joner kommer att skilja sig åt vid analys av en viss förening i olika kromatogram, beroende på toppens mängd och renhet.

Alla Bins som exporteras av vocBinBase-databasen rapporteras med en unik databasidentifierare, kvantifieringsjonen, retentionsindexvärdet och det kompletta masspektrumet kodat som en sträng (figur 4). Databasposter namnges med hjälp av Adams växtbibliotek för flyktiga ämnen (beskrivs nedan). Föreningar som inte härrör från växter, inklusive bekämpningsmedel, mjukgörare och andra föroreningar, kommenteras med hjälp av NIST-RI-biblioteket. Kända artefakter relaterade till kolonnblödning kommenteras i vocBinBase, men exporteras inte till användarna i resultatrapporter (m/z 207, 221, 281, 355). Databasadministratörer kan manuellt utesluta (eller inkludera) toppar i listan över rapporterade Bins. Till exempel väljs Twister™-baserade artefakter manuellt ut för uteslutning i resultattabeller. Resultatdatablad produceras i XLS- och TXT-format (eller XML vid behov). När Bins väl har identifierats rapporteras även deras kemiska namn och PubChem-identifierare.

Figur 4
figur4

Exempel på en vocBinBase-rapport som lyfter fram rapportfunktioner. Alla Bins som exporteras av vocBinBase-databasen rapporteras med en unik databasidentifierare, kvantifieringsjonen, retentionsindex och det fullständiga masspektrumet kodat som sträng. Föreningsmängder rapporteras som intensiteten för Bin-kvantifieringsmassan. Databasposter namnges med hjälp av Adams bibliotek för flyktiga växter och hyperlänkade PubChem-identifierare ingår för identifierade föreningar.

Bin-identifiering

Bin-identifiering stöds av Adams bibliotek med masspektrum- och retentionsindexdata för mer än 2 000 renade flyktiga växter och eteriska oljekomponenter , som verifieras för många föreningar med hjälp av autentiska standarder i vårt laboratorium. Innan Adams-biblioteket laddades upp till Bellerophon för Bin-matchning konverterades biblioteket från HP Chemstation-formatet till NIST-biblioteksformatet med hjälp av Lib2NIST som kan laddas ner från NIST:s webbplats (http://chemdata.nist.gov). Dessutom konverterades de alkanbaserade Adams RI-värdena till deras BinBase FAME RI-ekvivalenter. RI-konverteringen mellan Adams- och Fiehn-kromatografiska varianter (olika programmering av GC-ugnstemperatur och kolonntillverkare) utfördes med ett polynom av andra ordningen och anges i http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Alla identifierade flyktiga ämnen i vocBinBase är annoterade med PubChem-kemikalieidentifierare och strukturkodande InChI-hashnycklar för att möjliggöra korsreferenser till kemidatabaser och verktyg för strukturinformation.

Kvaliteten på RI-omvandlingen testades genom att injicera autentiska referensstandarder som finns i Adams-biblioteket under standardiserade driftsparametrar. En jämförelse av de beräknade värdena med experimentellt bestämda värden för 70 referensföreningar gav en korrelation på 0,9995 med ett standardfel på 3 380 RI-enheter (standardavvikelse för restfel, RIcalculated-RIexperimental). En jämförelse av beräknade och experimentella värden för 130 Adams-bibliotekskommentarer gav liknande värden (r2 = 0,9994, SE = 3 320 RI-enheter). En plott av den absoluta RI-avvikelsen (RIcalculated-RIexperimental) för de 70 standarderna och 130 biblioteksanteckningar visade att 61 % av de injicerade föreningarna låg inom ett standardfel, och 58 % av de annoterade föreningarna låg inom ett standardfel av det beräknade värdet. Se Additional File 2, figur S2 för grafiska data.

Databasens innehåll

För närvarande innehåller databasen spektrum från 3 435 prover som representerar 18 arter. Trots de 1,7 miljoner importerade, helt avvecklade spektren innehåller vocBinBase-databasen för närvarande endast 1537 unika Bins. Av alla importerade spektra uppfyller 45 % inte algoritmens tröskelvärden och kastas bort. Ju lägre användarna ställer in tröskelvärden för toppdetektioner i ChromaTOF (t.ex. genom att sänka kriterierna för att hitta toppar från s/n>20 till s/n>3), desto fler toppar kommer att upptäckas. De flesta av de motsvarande toppspektren skulle förkastas av BinBase-algoritmen som alltför bullriga och inte rapporteras i utdataarkivet. En liknande frekvens av borttagna spektrum rapporterades av SpectConnect-verktyget som använder AMDIS-dekonvolutioneringsdata från GC-kvadrupol MS-instrument. Med de inställningar som används här uppfyller de återstående 55 % av spektren kvalitetskriterierna och kommenteras och lagras i databasen (figur 5). Ungefär 12 % av de annoterade föreningarna är kolonn- och Twister™-ledda polysiloxanartefakter; dessa artefakter annoteras av algoritmen men ingår inte i BinBase-rapporterna som exporteras för användarna. Som beskrivits ovan är annoteringarna beroende av flera kriterier och vissa tröskelvärden är variabla beroende på olika metadatavärden; det erforderliga tröskelvärdet för MS-likhet beror på toppens rikedom och renhet (t.ex. kräver en topp med låg renhet en mindre sträng MS-likhetsmatchning). En liten andel annoterade spektrum (4 %) genereras av mycket rena toppar (renhet <0,15) med hög MS-likhetspoäng, medan majoriteten av databasposterna genereras av rena toppar (renhet<1.5, 46 %) eller inte rena toppar (renhet>1,5, 39 %).

Figur 5
figur5

Filtreringseffekt av vocBinBase-algoritmen. Spektra måste uppfylla flera kriterier för att kunna kommenteras och lagras i databasen. 45 % av alla inkommande spektrum uppfyller inte kriterierna och kasseras som bullriga och inkonsekventa. De återstående 55 % kommenteras och lagras i databasen. 12 % av de annoterade spektren är kolonn- eller Twister™-polysiloxanartefakter. En ytterligare uppdelning av annoterade spektrum baserat på topprenhet, s/n och masspektral likhet visas.

Av de nuvarande 1 537 Bins har 211 identifierats som äkta flyktiga ämnen genom matchning av masspektral- och retentionsindex. Dessutom har 161 Bins annoterats som artefakter av polysiloxan (som därför inte exporteras till datablad för undersökningsresultat), och de återstående Bins är ännu oidentifierade. Visualisering av VOC-databasens innehåll med hjälp av spektral likhet (alla Bins) och Tanimotos kemiska likhetskoefficient (identifierade Bins) utfördes med hjälp av Cytoscape (figur 6). Tanimoto-likhetskoefficienten är ett likhetsmått som beräknar en poäng som anger graden av likhet mellan molekyler som jämförs . Nätverksöversikten ger en visuell representation av relationerna mellan de 1537 Bins. De identifierade föreningarna representeras av röda noder och de oidentifierade föreningarna av grå noder. Noder som ligger nära varandra är mer lika varandra än de noder som bara har en enda förbindelse i utkanten av nätverket. Blå kanter länkar identifierade flyktiga ämnen med en strukturell likhet som är större än 700. Observera att artefakterna från polysiloxanerna grupperar sig bort från föreningarna på grund av ett mycket distinkt fragmenteringsmönster. Nätverksregioner med identifierade föreningar (röda noder) har märkts med klassinformation.

Figur 6
figur6

Visualisering av databasen vocBinBase innehåll. Röda noder är identifierade föreningar, grå noder är oidentifierade föreningar. Blå kanter länkar identifierade flyktiga ämnen med strukturell likhet större än 700.

.

Lämna en kommentar