BinBase-massespektraldatabase for flygtige forbindelser

Indsamling og analyse af flygtige prøver

Prøveudtagning af flygtige forbindelser

Protokoller for prøveudtagning af flygtige forbindelser (valg af sorbent og prøveudtagningsmetode) er specifikke for analysandets identitet og prøvekilde og varierer meget afhængigt af forskningsområde og fokus. Ved størstedelen af vores prøvetagning har vi anvendt den polydimethylsiloxan (PDMS)-baserede TwisterTM (GERSTEL, Inc.) på grund af dens høje kapacitet, alsidighed (både headspace- og stir-bar-sorptive ekstraktionsmetoder er mulige) og lette håndtering i feltsituationer (figur 1A). Flygtige forbindelser, der opfanges af TwisterTM, desorberes termisk med henblik på analyse (figur 1B). Selv om TwisterTM har været vores primære sorbent til dato, kan andre sorbenttyper og metoder til udtagning af flygtige stoffer (f.eks, pakkede patroner, SPME, direkte headspace-injektioner og direkte termisk desorption) kan anvendes og er kompatible med dataannotation og Bin-databasering.

Figur 1
figur1

Flygtige forbindelser opfanges ved hjælp af Twister™-teknologi og detekteres ved GC-TOF-MS med et tidsinvariant FAME-baseret retentionsindeksgitter. (A) Prøveindsamling. Flygtige forbindelser fanges på 1 cm lange PDMS-belagte Twisters™. (Figur leveret af GERSTEL, Inc.). (B) Skema over instrumentering til dataindsamling (ikke i målestok). Eksponerede Twisters™ overføres til transportrør af glas sammen med en ekstern opløsning af retentionsindeksmarkører (C4-C26 fedtsyremethylestere, FAME’er) i 0,5 ml glaskapillærer. Flygtige stoffer frigives fra Twisters™ i en termisk desorptionsenhed (TDU). Desorberede flygtige stoffer og FAME’er refokuseres i CIS4-indløbet, der er kølet med flydende kvælstof, hvorefter de revolatiseres med henblik på temperaturrampede separationer på en gaskromatografisk (GC) kolonne med henblik på elektronioniseringstidsmassespektrometrisk detektion (TOF MS) og primær databehandling på ChromaTOF-software. (C) Retentionstidsforskydninger. Over lange driftsperioder afvander forbindelsernes absolutte retentionstider (RT) på grund af kolonnebrug. Her er vist RT-skiftet for methyl eicosanoat (C20 FAME) fra seks separate prøver i løbet af en toårig undersøgelse, der omfattede 1.500 prøver. Der skete forskydninger på 3 sekunder i løbet af en måneds drift, mens der blev observeret en forskydning på 6 sekunder efter et søjleskift. (D) Omregning til retentionsindeks. Ved at tilføje FAME-retentionsindeksmarkører (m/z 74, 5 gange forstørret, blåt spor) til hver flygtig profil (totalionkromatogram, rødt spor) etableres der et stabilt gitter af FAME’er til at konvertere variabel “tid” til uforanderlige “indeks”-enheder. Der er ikke behov for yderligere kromatogrammeregistreringer.

Retentionsindeksmarkører

Absolutte retentionstider (RT) for GC-MS-toppe skifter som funktion af kolonneegenskaber (f.eks. kolonnetype, alder, længde, faseforhold, filmtykkelse), og der observeres ofte RT-forskelle mellem prøver eller prøvetyper (figur 1C). Når man udfører store undersøgelser, der strækker sig over måneder eller år, eller sammenligner mange forskellige prøvetyper, er RT-skift uundgåelige. Retentionsindeks (RI) afhjælper dette problem ved at fastlåse retentionstiderne for eluerede forbindelser til faste positioner, der er defineret af markørforbindelser, som er spiket i prøven. Meget forskellige prøver kan samles i en database over flere år ved hjælp af RI-markører.

VocBinBase-algoritmen kræver, at der tilføjes RI-markørforbindelser til alle prøver med henblik på RI-korrektioner. Vi bruger fedtsyremethylestere (FAME’er) som RI-markører i stedet for klassiske retkædede alkaner (Kovats RI), fordi FAME’er udviser elektronioniserings (EI)-fragmentmønstre (især ved høje m/z-værdier), der er bedre egnet til entydig og automatiseret detektion. For at undgå forvirring mellem de FAME-baserede RI-værdier og Kovats-baserede RI-værdier (kulstofantal * 100) har vi vedtaget en særskilt enhedsværdi, og FAME RI-værdierne varierer fra 262,214 for FAME C4 til 980,934 for FAME C24. Til reference er de tilsvarende alkanbaserede RI-værdier for FAME C4 og C24 henholdsvis 726 og 2712. Både FAME’er og alkaner er naturligt forekommende flygtige stoffer, så tilsætningen af RI-blandingen vil forhindre påvisning af de specifikke markørforbindelser, der er tilsat, medmindre der anvendes isotopisk mærkede RI-markører.

RI-blandingen til flygtige prøver omfatter FAME’er med lineære kulstofkædelængder C4, C6, C8, C9, C9, C10, C12, C12, C14, C16, C18, C20, C22 og C24. Der fremstilles en stamblanding i methylenklorid med endelige FAME-koncentrationer på 5 mg/mL (C4), 1,5 mg/mL (C20, C22, C24), 1,2 mg/mL (C6, C8), 0,8 mg/mL (C9, C16, C18) og 0,4 mg/mL (C14-C18). Denne FAME-stamopløsning fortyndes derefter 200 gange i methylpropionat før brug. Den fungerende FAME RI-blanding indføres eksternt i Twister™ i 0,5 uL kapillærer. Kapillærerne fyldes med FAME RI-opløsningen og placeres derefter ved siden af Twister™ i et TDU-transportrør med frittebund til termisk desorption (figur 1B). Kromatogrammer, der illustrerer FAME RI-markørernes gitterlignende karakter i en flygtig prøve af citrusblade, der er spiket ved hjælp af kapillarmetoden, er vist nedenfor (figur 1D).

Instrumentering

Flygtige prøveanalyser udføres på en 6890 GC (Agilent Technologies, Santa Clara, CA) udstyret med en termisk desorptionsenhed (TDU, GERSTEL, Inc, Muehlheim, Tyskland), kryokølet injektionssystemindløb (CIS4, GERSTEL, Inc.) og robotprøvetagere (MPS2, GERSTEL, Inc.), der er forbundet med Pegasus IV time-of-flight-massespektrometeret (Leco, St. Joseph, MI).

Thermisk desorption og injektorparametre

Terme desorberes termisk i TDU’en i splitless mode (50 mL/min strømningshastighed, solvent vent mode) ved en begyndelsestemperatur på 30 °C, der rampes op til 250 °C med en hastighed på 12 °C/sek. og derefter holdes ved den endelige temperatur i 3 min. De desorberede analyter kryofokuseres i CIS4-indløbet med flydende nitrogen (-120 °C). Efter desorption opvarmes indløbet fra -120 til 260 °C med en hastighed på 12 °C/s og holdes ved 260 °C i 3 min.

GC-TOF-MS-indstillinger

GC-TOF-MS-instrumentets indstillinger og programmering er defineret i standardprocedurer for at producere data, der kan auto-annoteres og kompileres på tværs af undersøgelser. Den kromatografiske separation foretages på en Rtx-5SilMS-kolonne med en 10 m integreret vagtsøjle . GC-ovnens temperaturprogram er som følger: begyndelsestemperatur på 45 °C med 2 minutters pause efterfulgt af en 20 °C/min-rampe op til 300 °C med 2 minutters pause efterfulgt af en 20 °C/min-rampe op til 330 °C med 0,5 min. pause. Bæregasstrømmen (99,9999% He) holdes konstant på 1 mL/min. Overføringsledningens temperatur mellem gaskromatografen og massespektrometeret er 280 °C. Massespektre optages ved 25 spektrer/sek. med et masseområde på 35-500 m/z. Detektorspændingen er indstillet til 1800 V og ioniseringsenergien til 70 eV. Ionkildetemperaturen er 250°C.

Binbase-databasekonstruktion

Databasestruktur

BinBase-koden blev udviklet i Java og Groovy og er udelukkende baseret på open source-software. BinBase anvender en flerlaget softwarearkitektur (figur 2). Kernen i BinBase er en SQL-konform database, som lagrer massespektrer (genereret under prøveanalysen), analyseresultater og cachede data (for at forbedre hastigheden). Databaseindholdet er tilgængeligt for klyngen, applikationsserveren og Bellerophon ved hjælp af Java Database Connectivity (JDBC). Denne adgang er indkapslet af Enterprise JavaBeans (EJB) og Hibernate Object Mapping Framework. Den centrale BinBase-konfiguration lagres i applikationsserveren, som også indeholder EJB-, WSDL (Web Service Description Language)-baserede tjenester, JMS (Java Messaging Service) og JMX (Java Management Extensions)-komponenter; tilsammen udgør disse komponenter BinBase Communication Interface (BCI). Disse EJB’er udgør en grænseflade til databasen og giver andre Java-programmer mulighed for at få adgang til databasen, forespørge data og starte beregninger på en defineret, begrænset måde. Hibernate-persistens- og objektmappingslaget gør det muligt at udføre komplekse forespørgsler på en enkel og intuitiv måde og anvendes primært af Bellerophon, BinBase-administrationens grafiske brugergrænseflade (GUI) (se nedenfor). Der blev tilføjet et WSDL-tjenstelag for at overvinde EJB-begrænsninger, så BinBase kan tilgås fra de fleste programmeringssprog. Internt anvendes WSDL-servicelaget også til alle web-front-ends og kommunikation med SetupX/MiniX. JMX-komponenter bruges til at konfigurere hele systemet fra et centralt sted og overvåge systemegenskaber. BCI-modulet spiller en central rolle i systemsikkerheden ved at begrænse brugernes adgang til bestemte tjenester på grundlag af IP-adresse og adgangskode og ved at forhindre DoS-angreb (Denial of Service) eller SQL-injektionsangreb.

Figur 2
Figur2

Multilagers arkitektur for vocBinBase-databasen.

BinBase-databaseinstallationskrav

BinBase-systemet kræver en Rocks Linux-klyngebaseret arkitektur til beregning af massespektraldata. Dette er minimalt etableret med et system bestående af to standard-personale computere (pc’er). Den første pc lagrer data (*.netcdf-filer,*.txt-filer og databaseindhold), giver adgang til websider og vedligeholder beregningskøen. Den anden pc udfører beregningerne. En central processorenhed (CPU) med to kerner på 2 GHz og 4 GB RAM er tilstrækkelig til hver af disse pc’er, hvis beregningsbelastningen ikke overstiger flere hundrede prøver om dagen. På grund af sin datalagringsfunktion kræver den første pc 1-2 TB lagerplads og to 1 GB-netkort. En mindre harddisk (200 GB) og et enkelt netværkskort er tilstrækkeligt til den anden pc. Vores nuværende konfiguration på Genome Cente’ hver og én hovedknude med et solid state disk-baseret lagringsarray for at forbedre adgangen til databasen.

BinBase-databasen er tilgængelig for offentligheden under LGPL 2.0-licensen (http://binbase.sourceforge.net) og er tilgængelig ved hjælp af forskellige web-front-ends og rige klientapplikationer samt et webservicelag. Den dokumentation, der er nødvendig for installation og administration af systemet, findes også på dette websted.

Bellerophon

Den grafiske brugergrænseflade (GUI) Bellerophon i front-end’en er det centrale administrationsværktøj for BinBase og bruges til Bin-administration, databasesøgning og konfiguration af retentionsindeks. Bellerophon er en Eclipse 3 SWT-baseret RCP-applikation (Rich Client Platform). Den indeholder visualiseringsmuligheder baseret på JFreeChart og understøtter databaseforespørgsler via en Hibernate-ramme. Hibernate-rammen understøtter mapping af databasetabeller til objekter. Dynamiske SWT-tabeller og visualiseringer oprettes fra disse objekter via Java Reflection-API og XDoclet.

SetupX

SetupX er en database til undersøgelsesdesign, hvis primære funktioner omfatter indfangning af eksperimentelle metadata til klassegenerering, randomisering og planlægning af GC-TOF-MS-sekvenser og lagring af annoterede GC-TOF-MS-data sammen med alle andre datafiler, der er forbundet med et eksperiment (f.eks. fotografier, assay-regneark, andre instrumentelle datafiler). Nærmere oplysninger om SetupX-strukturen er beskrevet . Vi har udviklet en slankere version af denne database, MiniX. Brugernes anmodninger om BinBase-annotationer via MiniX-webstedet aktiverer MiniX BinBase-eksportfunktionen via EJB og JMS. BinBase anmoder desuden om eksperimentelle klasseoplysninger fra MiniX via EJB’er. MiniX er et open source-projekt og kan downloades og installeres under LGPL 2.0-licensen (http://code.google.com/p/minix/).

vocBinBase-filteringsalgoritme

VocBinBase-algoritmen tager de dekonvoluterede spektrer og metadata, der leveres af Leco ChromaTOF-softwaren, samt prøveoplysninger fra undersøgelsesdesigndatabasen SetupX/MiniX og anvender et flerstrenget filtreringssystem, der enten annoterer spektrer til eksisterende databaseposter (“Bins”), opretter og tilføjer nye Bins til databasen, hvis alle kvalitetskriterier er opfyldt, eller kasserer spektrer af lav kvalitet for at bevare databasens integritet (se Additional File 1, figur S1). Hver databasepost eller “Bin” repræsenterer en unik forbindelse, der har matchet alle massespektrale, instrumentelle og klasse-metadatatærskler. Bins er minimalt defineret ved følgende egenskaber: massespektrum, retentionsindeks (RI), kvantificeringsmasse, liste over unikke masser og et unikt identifikationsnummer.

Dataforbehandling

Rå data forbehandles af Leco ChromaTOF-softwaren og gemmes som ChromaTOF-specifikke *.peg-filer, generiske *.txt-resultater og som generiske ANDI MS *.cdf-filer. ChromaTOF (v. 2.32) databehandlingsparametre, der er specificeret i forbehandlingstrinene, omfatter indstilling af basislinjen lige over støj (værdi = 1), ingen udglatning og et signal/støjforhold på mindst 20. *.txt-filerne eksporteres til en filserver med henblik på yderligere behandling af algoritmen. vocBinBase-algoritmen er kompatibel med ChromaTOF-softwareversioner 2.32 til den aktuelle version, 4.33.

Spektral validering

Efter import af alle dekonvoluterede spektrer af alle kromatogrammer i en biologisk undersøgelse (*.csv-format), kontrolleres spektrerne for tilstedeværelsen og hyppigheden af den unikke ion (i forhold til basistoppen), tilstedeværelsen af alle apex-masser (masser, der deler den maksimale intensitet med peakmaksimum for den unikke ion) og for antallet af toppe, der overskrider apex-intensitetstærskelværdierne. Spektral validering er det første datakvalitetsfilter; kromatogrammer med overbelastede toppe og dekonvolutionsfejl anvendes kun til peak matching, men ikke til Bin-generering.

Retentionsindeksberegninger baseret på fedtsyremethylestere

BinBase-algoritmen til korrektion af retentionsindeks anvender først et basistopfilter på alle spektrer for at lokalisere FAME RI-markørerne (der anvendes ingen retentionstidsinformationer). Fra denne filtrerede liste anvendes FAME-toppen med den højeste massespektrale lighedsscore som referencepunkt, hvorfra afstandsmålinger anvendes på højere og lavere retentionstider for at lokalisere alle andre RI-markører. Når alle de nødvendige FAME-markører er fundet, beregnes en korrektionskurve ved hjælp af en lineær regression for de to første og to sidste standarder og en polynomial regression af femte orden for de standarder, der ligger imellem. Den polynomiale regression anvendes inden for det kalibrerede område for at tage hensyn til de absolutte og relative retentionstidsforskydninger, som adskiller sig fra lineære regressioner ved tidlige og sene retentionstider. Da polynomier af høj grad er dårlige til ekstrapolering, anvendes lineær regression til ekstrapolering uden for RI-markørområdet. I tilfælde af at der ikke findes alle tidlige og sene RI-markører, er genereringen af nye Bins deaktiveret, men det er stadig muligt at matche eksisterende Bins.

De parametre, der blev anvendt til at finde RI-markører for flygtige prøver, krævede en væsentlig ændring i forhold til dem, der blev anvendt i metabolit-algoritmerne. Matchindstillinger og basistopmønstre måtte omdefineres for at tage højde for udvidelsen af FAME’erne til at omfatte C4 og C6 samt ændringen i m/z-området fra 85-500 til 35-500. Denne udvidelse af m/z-området til lavere værdier er absolut nødvendig for de flygtige forbindelser, da de ikke er TMS-derivatiserede, og m/z-området 35-85 giver vigtige fragmentdata til hjælp for identifikation af forbindelser. For at undgå at miste data af høj kvalitet, hvor FAME’er ikke var i specifikation, blev eksisterende algoritmer ændret, så det blev muligt at anvende en korrektionskurve fra en tidligere eller senere prøve, der er optaget samme dag, på den pågældende prøve. Hvis der ikke blev fundet sådanne gyldige RI-data, blev søgevinduerne udvidet til op til ti dage; ellers genereres der en delkurve ved hjælp af de RI-markører, der er fundet i den enkelte prøve. I alle disse tilfælde er Bin-generering deaktiveret, men alle eksisterende Bins tildeles.

Peak-annotation ved BinBase-algoritmen

De ChromaTOF-metadata, der anvendes i peak-annotation ved BinBase-algoritmen, omfatter massespektral lighed, peak renhed (et skøn over antallet, nærheden og ligheden af co-eluterende peaks), retentionsindeks, signal/støjforhold, unik ion, apex-ioner og unikt masse-til-base peak-forhold. Yderligere metadata, der rapporteres af ChromaTOF-softwaren (f.eks. peakhøjde, areal %), anvendes ikke af algoritmen. Efter RI-korrektion (beskrevet ovenfor) kommenteres spektrerne sekventielt efter faldende topintensitet. For en given top indstiller algoritmen et RI-vindue (± 2 000 FAME RI-enheder, ~2 sek.) og anvender et unikt ionmatchfilter til at matche enten den unikke ion eller apexing-ionerne i den dekonvoluterede top for at generere en liste over mulige Bin-tilknytninger. Med blot disse to parametre opnås en høj grad af filtrering. For eksempel en forbindelse med en FAME RI-værdi på 446700 og den unikke ion m/z 93, idet RI-filterets begrænsninger reducerer antallet af massespektrumsammenligninger fra 1 537 poster til otte potentielle hits. Den unikke ion begrænsning reducerer yderligere de mulige Bin-matches fra otte hits til to kandidater (figur 3). Først på dette stadium anvendes et massespektral lighedsfilter, som anvender variable tærskler baseret på peak-signal/støjforhold og peakrenhed. En rigelig, velopløst top kræver en højere massespektral lighedsscore for en vellykket annotation end en lille eller co-eluterende top.

Figur 3
figur3

Eksempel, der demonstrerer filtreringsalgoritmen. Flygtige data indsamlet fra headspace fra et såret appelsinblad er komplekse (A), og spektral dekonvolution er nødvendig for at opløse overlappende toppe. Et overlay af 7 ud af 465 målte masse-elutionsprofiler (m/z 93, 111, 114, 115, 132, 136, 150) er vist fra 400-412 sekunder (B). De dekonvolverede massespektre og metadata om toppe tilføres algoritmen. De to første filtre anvender RI-oplysninger og oplysninger om unikke ioner. Disse er meget effektive til at indsnævre databasens matchmuligheder, som vist for peak nr. 122 (C).

I realiteten kan der defineres forskellige tærskelværdier for hver parameter for forskellige peaks. I det ovenfor illustrerede eksempel (figur 3) er toppen rimelig ren (peak purity = 0,1137), og der kræves en høj massespektral lighedsscore for Bin-matching. På grundlag af disse endelige filtreringskriterier og massespektrallighedsscorerne for linalool (917) og terpinolen (<500) er den endelige tildeling af forbindelsen i dette eksempel linalool. I dette særlige eksempel er der faktisk tre Bins inden for vinduet ± 2000 FAME RI-enheder, hvoraf to har en unik ionværdi på m/z 93. Denne anden Bin med den unikke ion m/z 93 er faktisk terpinolen.

På dette stadium i annotationen kan der være mere end én Bin-tildeling tilbage (f.eks. stereoisomerer, der kan elueres inden for det søgte RI-vindue). Isomeren med den tættest matchende RI annoteres derefter, medmindre en alternativ Bin har en betydeligt større lighedsscore. Spektre, der filtreres fra i isomerfiltret, kan stadig være i stand til at matche andre tilstødende Bin’er og føres derfor tilbage til annotationsalgoritmen.

Ny Bin-generering – sporing af ukendte forbindelser

Hvis spektret ikke matcher en eksisterende Bin, genererer BinBase-algoritmen en ny Bin, hvis specifikke, meget strenge kriterier er opfyldt. For det første skal det pågældende spektrum bestå strenge massespektralkvalitetstærskler baseret på renhed (renhedsværdi < 1,0) og intensitet (S/N > 25). Tærskelværdierne for det bin-genererende massespektralfilter er strengere end for lighedsfilteret for at sikre, at kun rigelige og rene spektrer bliver til nye bin’er. For det andet skal en potentiel ny Bin passere et eksperimentelt klassefilter, før den kan valideres. Dette filter kræver, at en ny Bin påvises i mindst 80 % af alle prøver af en eksperimentel klasse for at sikre, at den er en ægte flygtig og ikke en uheldig kontaminant. Alle database-Bins blev genereret af algoritmen som beskrevet ud fra data indsamlet i laboratorie- og felteksperimenter.

Post-matching og udskiftninger

Når alle spektrer for alle eksperimentelle klasser er blevet annoteret, udarbejdes en omfattende Bin-liste, der omfatter alle Bins, der er fundet i hele eksperimentet. Derefter matches alle spektrer igen i forhold til Bin-listen (post-matching), således at alle Bins, herunder eventuelle nyoprettede Bins, søges i alle prøver. I dette trin kan spektrer i prøver, som ikke bestod de strengere MS-tærskelværdier, der kræves til Bin-generering, bestå de tærskelværdier, der kræves til Bin-annotation.

I nogle tilfælde påvises en Bin ikke positivt i alle kromatogrammer, enten fordi den er fraværende eller er lavt forekommende (ægte negativ), eller fordi den er til stede, men kvalitetskriterierne er ikke tilstrækkelige til at muliggøre en tildeling (falsk negativ). Dette vil resultere i en nulværdi i datamatrixen, hvilket vanskeliggør efterfølgende statistiske analyser. Der er udarbejdet en strategi, som er programmeret i algoritmen til at beregne en erstatningsværdi i disse tilfælde. Først bestemmer algoritmen den gennemsnitlige retentionstid for hver metabolit i analysesekvensen ved at beregne det gennemsnitlige retentionsindeks for prøverne og omdanne det tilbage til retentionstiden ved hjælp af retentionsindeksets korrektionskurve. Derefter åbnes de rå, ubehandlede kromatogrammer (netCDF- eller ANDI MS-filformater), og den maksimale ionintensitet ved det valgte kvantificeringsionspor for hver manglende flygtige forbindelse ved ±2s omkring målretentionstiden rapporteres minus den lokale baggrundsstøj for den pågældende målion ved ±5s omkring målretentionstiden. Den baggrundssubtraherede ionintensitet angives i resultattavlen med farvekodning for at angive resultaterne som en “second-pass”-tildeling. Validering af erstatningsalgoritmen blev udført ved at sammenligne manuelle annotationer af erstattede værdier i prøvesæt med deres algoritmeerstatningsværdier.

vocBinBase Report

Alle Bins, der er detekteret i mindst 80 % af en eksperimentel klasse, er inkluderet i mappen med resultatrapporter. Desuden indeholder rapportmappen en resultatfil for alle Bins, der er påvist i mindst 50 % af en forsøgsklasse. Forskere kan bruge resultatet på 50 % til at supplere datasættet på 80 % med flere identificerede metabolitter eller til at evaluere de mindre sikkert fundne eller sjældne toppe. Hver post i den eksporterede Bin-tabel rapporteres som intensiteten af Bin-kvantificeringsmassen, der som standard er den unikke ion, selv om denne værdi manuelt kan ændres til en hvilken som helst ion i spektret af databaseadministratoren. Vi bruger peakhøjder og ikke peakområder af flere grunde. Peakhøjder er at foretrække frem for peakarealer for små peaks, fordi basislinjeindstillinger påvirker peakarealerne mere for små peaks end for større peaks. Desuden giver tophøjder baseret på definerede unikke ioner et mere stabilt mål end andre parametre som f.eks. dTIC eller TIC, fordi antallet og dermed den kombinerede intensitet af detekterede ioner vil variere ved analyse af en given forbindelse i forskellige kromatogrammer, afhængigt af topmængden og renheden.

Alle Bins, der eksporteres af vocBinBase-databasen, rapporteres med en unik databaseidentifikator, kvantificeringsionen, retentionsindeksværdien og det komplette massespektrum kodet som en streng (figur 4). Databaseposter navngives ved hjælp af Adams plantebibliotek for flygtige stoffer (beskrevet nedenfor). Forbindelser, der ikke stammer fra planter, herunder pesticider, blødgøringsmidler og andre forurenende stoffer, anføres ved hjælp af NIST-RI-biblioteket. Kendte artefakter i forbindelse med kolonneafsmitning er annoteret i vocBinBase, men eksporteres ikke til brugerne i resultatrapporterne (m/z 207, 221, 281, 355). Databaseadministratorer kan manuelt udelukke (eller inkludere) peaks i listen over rapporterede Bins. Twister™-baserede artefakter udvælges f.eks. manuelt til udelukkelse i resultattabeller. Resultatdataark produceres som XLS- og TXT-formater (eller XML, hvis det er nødvendigt). Når Bins er identificeret, rapporteres de også med deres kemiske navn og PubChem-identifikator.

Figur 4
Figur4

Eksempel på vocBinBase-rapport, der fremhæver rapportfunktioner. Alle Bins, der eksporteres af vocBinBase-databasen, rapporteres med en unik databaseidentifikator, kvantificeringsionen, retentionsindekset og det komplette massespektrum kodet som streng. Stofmængder rapporteres som intensiteten af Bin-kvantificeringsmassen. Databaseposter navngives ved hjælp af Adams-biblioteket over flygtige planter, og hyperlinkede PubChem-identifikatorer er inkluderet for identificerede forbindelser.

Bin-identifikation

Bin-identifikation understøttes af Adams-biblioteket med massespektrer og retentionsindeksdata for over 2.000 rensede flygtige planter og æteriske oliekomponenter , verificeret for mange forbindelser ved hjælp af autentiske standarder i vores laboratorium. Inden Adams-biblioteket blev uploadet til Bellerophon med henblik på Bin-matching, blev biblioteket konverteret fra HP Chemstation-formatet til NIST-biblioteksformatet ved hjælp af Lib2NIST-download, der er tilgængelig på NIST’s websted (http://chemdata.nist.gov). Desuden blev de alkanbaserede Adams RI-værdier konverteret til deres BinBase FAME RI-ækvivalenter. RI-konverteringen mellem Adams- og Fiehn-kromatografiske varianter (forskellig programmering af GC-oventemperatur og kolonneproducent) blev udført med et polynomium af 2. orden og er angivet på http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Alle identificerede flygtige stoffer i vocBinBase er annoteret med PubChem-kemiske identifikatorer og strukturkodende InChI-hashnøgler for at muliggøre krydsreferencer til kemidatabaser og strukturinformationsværktøjer.

Kvaliteten af RI-konverteringen blev testet ved at injicere autentiske referencestandarder, der findes i Adams-biblioteket, under standarddriftsparametre. En sammenligning af de beregnede værdier med eksperimentelt bestemte værdier for 70 referenceforbindelser gav en korrelation på 0,9995 med en standardfejl på 3,380 RI-enheder (standardafvigelse af residualfejl, RIberegnet-RIeksperimentel). En sammenligning af beregnede og eksperimentelle værdier for 130 Adams-biblioteksannotationer gav lignende værdier (r2 = 0,9994, SE = 3,320 RI-enheder). Et plot af den absolutte RI-afvigelse (RIcalculated-RIexperimental) for de 70 standarder og 130 biblioteksannotationer viste, at 61 % af de injicerede forbindelser lå inden for en standardfejl, og 58 % af de annoterede forbindelser lå inden for en standardfejl af den beregnede værdi. Se Additional File 2, figur S2 for de grafiske data.

Databasens indhold

På nuværende tidspunkt indeholder databasen spektrer fra 3.435 prøver, der repræsenterer 18 arter. På trods af de 1,7 millioner importerede, fuldt dekonvoluterede spektrer indeholder vocBinBase-databasen i øjeblikket kun 1537 unikke Bins. Af alle importerede spektrer opfylder 45 % ikke algoritmens tærskelværdier og kasseres; sådanne spektrer er støjende og inkonsekvente. Jo lavere tærskler brugerne indstiller for peakdetektion i ChromaTOF (f.eks. ved at sænke kriterierne for peakfinding fra s/n>20 til s/n>3), jo flere peaks vil blive fundet. De fleste af de tilsvarende spektrer med toppe ville blive kasseret af BinBase-algoritmen som for støjende og ikke blive rapporteret i output-arkene. SpectConnect-værktøjet, der anvender AMDIS-dekonvolutionsdata fra GC-quadrupol-MS-instrumenter, rapporterede en lignende frekvens af kasserede spektrer. Med de indstillinger, der er anvendt her, opfylder de resterende 55 % af spektrene kvalitetskriterierne og kommenteres og lagres i databasen (figur 5). Ca. 12 % af de annoterede forbindelser er kolonne- og Twister™-afledte polysiloxan-artefakter; disse artefakter annoteres af algoritmen, men indgår ikke i de BinBase-rapporter, der eksporteres til brugerne. Som beskrevet ovenfor er annotationerne baseret på flere kriterier, og visse tærskler er variable afhængigt af forskellige metadata-værdier; den krævede tærskel for MS-sammenfald afhænger af topmængden og renheden (f.eks. kræver en top med lav renhed et mindre stringent MS-sammenfald). En lille procentdel af de annoterede spektrer (4 %) er genereret af meget rene toppe (renhed <0,15) med høj MS-sammenfaldsscore, mens størstedelen af databaseposterne er genereret af rene toppe (renhed<1.5, 46 %) eller ikke rene peaks (renhed>1,5, 39 %).

Figur 5
Figur5

Filtreringseffekt af vocBinBase-algoritmen. Spektre skal opfylde flere kriterier for at blive annoteret og gemt i databasen. 45 % af alle indkomne spektrer opfylder ikke kriterierne og kasseres som støjende og inkonsekvente. De resterende 55% kommenteres og lagres i databasen. 12 % af de annoterede spektrer er kolonne- eller Twister™-polysiloxan-artefakter. En yderligere opdeling af annoterede spektrer baseret på peak renhed, s/n og massespektral lighed er vist.

Af de nuværende 1 537 Bins er 211 blevet identificeret som ægte flygtige stoffer ved hjælp af massespektral-retentionsindeks matching. Derudover blev 161 Bins annoteret som polysiloxan-artefakter (som derfor ikke eksporteres til undersøgelsesresultaternes datablade), og de resterende Bins er endnu uidentificerede. Visualisering af VOC-databasens indhold ved hjælp af spektral lighed (alle Bins) og Tanimoto kemisk lighedskoefficient (identificerede Bins) blev udført ved hjælp af Cytoscape (figur 6). Tanimoto lighedskoefficienten er en lighedsmetrik, der beregner en score, der angiver graden af lighed mellem molekyler, der sammenlignes . Netværksoversigten giver en visuel repræsentation af forbindelserne mellem de 1537 Bins. De identificerede forbindelser er repræsenteret ved røde knuder og de uidentificerede forbindelser som grå knuder. Knuder, der ligger tæt sammen, ligner hinanden mere end de knuder, der kun har en enkelt forbindelse i kanten af netværket. Blå kanter forbinder identificerede flygtige stoffer med en strukturel lighed på mere end 700. Bemærk, at polysiloxanartefakterne klynger sig væk fra forbindelserne på grund af et meget karakteristisk fragmenteringsmønster. Netværksregioner med identificerede forbindelser (røde knuder) er blevet mærket med klasseoplysninger.

Figur 6
Figur6

Visualisering af vocBinBase-databasens indhold. Røde knuder er identificerede forbindelser, grå knuder er uidentificerede forbindelser. Blå kanter forbinder identificerede flygtige stoffer med strukturel lighed større end 700.

Skriv en kommentar