BinBase-massespektraldatabase for flygtige forbindelser

Indsamling og analyse af flygtige prøver

Prøveudtagning af flygtige forbindelser

Protokoller for prøveudtagning af flygtige forbindelser (valg af sorbent og prøveudtagningsmetode) er specifikke for analysandets identitet og prøvekilde og varierer meget afhængigt af forskningsområde og fokus. Ved størstedelen af vores prøvetagning har vi anvendt den polydimethylsiloxan (PDMS)-baserede TwisterTM (GERSTEL, Inc.) på grund af dens høje kapacitet, alsidighed (både headspace- og stir-bar-sorptive ekstraktionsmetoder er mulige) og lette håndtering i feltsituationer (figur 1A). Flygtige forbindelser, der opfanges af TwisterTM, desorberes termisk med henblik på analyse (figur 1B). Selv om TwisterTM har været vores primære sorbent til dato, kan andre sorbenttyper og metoder til udtagning af flygtige stoffer (f.eks, pakkede patroner, SPME, direkte headspace-injektioner og direkte termisk desorption) kan anvendes og er kompatible med dataannotation og Bin-databasering.

Retentionsindeksmarkører

Absolutte retentionstider (RT) for GC-MS-toppe skifter som funktion af kolonneegenskaber (f.eks. kolonnetype, alder, længde, faseforhold, filmtykkelse), og der observeres ofte RT-forskelle mellem prøver eller prøvetyper (figur 1C). Når man udfører store undersøgelser, der strækker sig over måneder eller år, eller sammenligner mange forskellige prøvetyper, er RT-skift uundgåelige. Retentionsindeks (RI) afhjælper dette problem ved at fastlåse retentionstiderne for eluerede forbindelser til faste positioner, der er defineret af markørforbindelser, som er spiket i prøven. Meget forskellige prøver kan samles i en database over flere år ved hjælp af RI-markører.

VocBinBase-algoritmen kræver, at der tilføjes RI-markørforbindelser til alle prøver med henblik på RI-korrektioner. Vi bruger fedtsyremethylestere (FAME’er) som RI-markører i stedet for klassiske retkædede alkaner (Kovats RI), fordi FAME’er udviser elektronioniserings (EI)-fragmentmønstre (især ved høje m/z-værdier), der er bedre egnet til entydig og automatiseret detektion. For at undgå forvirring mellem de FAME-baserede RI-værdier og Kovats-baserede RI-værdier (kulstofantal * 100) har vi vedtaget en særskilt enhedsværdi, og FAME RI-værdierne varierer fra 262,214 for FAME C4 til 980,934 for FAME C24. Til reference er de tilsvarende alkanbaserede RI-værdier for FAME C4 og C24 henholdsvis 726 og 2712. Både FAME’er og alkaner er naturligt forekommende flygtige stoffer, så tilsætningen af RI-blandingen vil forhindre påvisning af de specifikke markørforbindelser, der er tilsat, medmindre der anvendes isotopisk mærkede RI-markører.

RI-blandingen til flygtige prøver omfatter FAME’er med lineære kulstofkædelængder C4, C6, C8, C9, C9, C10, C12, C12, C14, C16, C18, C20, C22 og C24. Der fremstilles en stamblanding i methylenklorid med endelige FAME-koncentrationer på 5 mg/mL (C4), 1,5 mg/mL (C20, C22, C24), 1,2 mg/mL (C6, C8), 0,8 mg/mL (C9, C16, C18) og 0,4 mg/mL (C14-C18). Denne FAME-stamopløsning fortyndes derefter 200 gange i methylpropionat før brug. Den fungerende FAME RI-blanding indføres eksternt i Twister™ i 0,5 uL kapillærer. Kapillærerne fyldes med FAME RI-opløsningen og placeres derefter ved siden af Twister™ i et TDU-transportrør med frittebund til termisk desorption (figur 1B). Kromatogrammer, der illustrerer FAME RI-markørernes gitterlignende karakter i en flygtig prøve af citrusblade, der er spiket ved hjælp af kapillarmetoden, er vist nedenfor (figur 1D).

Instrumentering

Flygtige prøveanalyser udføres på en 6890 GC (Agilent Technologies, Santa Clara, CA) udstyret med en termisk desorptionsenhed (TDU, GERSTEL, Inc, Muehlheim, Tyskland), kryokølet injektionssystemindløb (CIS4, GERSTEL, Inc.) og robotprøvetagere (MPS2, GERSTEL, Inc.), der er forbundet med Pegasus IV time-of-flight-massespektrometeret (Leco, St. Joseph, MI).

Thermisk desorption og injektorparametre

Terme desorberes termisk i TDU’en i splitless mode (50 mL/min strømningshastighed, solvent vent mode) ved en begyndelsestemperatur på 30 °C, der rampes op til 250 °C med en hastighed på 12 °C/sek. og derefter holdes ved den endelige temperatur i 3 min. De desorberede analyter kryofokuseres i CIS4-indløbet med flydende nitrogen (-120 °C). Efter desorption opvarmes indløbet fra -120 til 260 °C med en hastighed på 12 °C/s og holdes ved 260 °C i 3 min.

GC-TOF-MS-indstillinger

GC-TOF-MS-instrumentets indstillinger og programmering er defineret i standardprocedurer for at producere data, der kan auto-annoteres og kompileres på tværs af undersøgelser. Den kromatografiske separation foretages på en Rtx-5SilMS-kolonne med en 10 m integreret vagtsøjle . GC-ovnens temperaturprogram er som følger: begyndelsestemperatur på 45 °C med 2 minutters pause efterfulgt af en 20 °C/min-rampe op til 300 °C med 2 minutters pause efterfulgt af en 20 °C/min-rampe op til 330 °C med 0,5 min. pause. Bæregasstrømmen (99,9999% He) holdes konstant på 1 mL/min. Overføringsledningens temperatur mellem gaskromatografen og massespektrometeret er 280 °C. Massespektre optages ved 25 spektrer/sek. med et masseområde på 35-500 m/z. Detektorspændingen er indstillet til 1800 V og ioniseringsenergien til 70 eV. Ionkildetemperaturen er 250°C.

Binbase-databasekonstruktion

Databasestruktur

BinBase-koden blev udviklet i Java og Groovy og er udelukkende baseret på open source-software. BinBase anvender en flerlaget softwarearkitektur (figur 2). Kernen i BinBase er en SQL-konform database, som lagrer massespektrer (genereret under prøveanalysen), analyseresultater og cachede data (for at forbedre hastigheden). Databaseindholdet er tilgængeligt for klyngen, applikationsserveren og Bellerophon ved hjælp af Java Database Connectivity (JDBC). Denne adgang er indkapslet af Enterprise JavaBeans (EJB) og Hibernate Object Mapping Framework. Den centrale BinBase-konfiguration lagres i applikationsserveren, som også indeholder EJB-, WSDL (Web Service Description Language)-baserede tjenester, JMS (Java Messaging Service) og JMX (Java Management Extensions)-komponenter; tilsammen udgør disse komponenter BinBase Communication Interface (BCI). Disse EJB’er udgør en grænseflade til databasen og giver andre Java-programmer mulighed for at få adgang til databasen, forespørge data og starte beregninger på en defineret, begrænset måde. Hibernate-persistens- og objektmappingslaget gør det muligt at udføre komplekse forespørgsler på en enkel og intuitiv måde og anvendes primært af Bellerophon, BinBase-administrationens grafiske brugergrænseflade (GUI) (se nedenfor). Der blev tilføjet et WSDL-tjenstelag for at overvinde EJB-begrænsninger, så BinBase kan tilgås fra de fleste programmeringssprog. Internt anvendes WSDL-servicelaget også til alle web-front-ends og kommunikation med SetupX/MiniX. JMX-komponenter bruges til at konfigurere hele systemet fra et centralt sted og overvåge systemegenskaber. BCI-modulet spiller en central rolle i systemsikkerheden ved at begrænse brugernes adgang til bestemte tjenester på grundlag af IP-adresse og adgangskode og ved at forhindre DoS-angreb (Denial of Service) eller SQL-injektionsangreb.

BinBase-databaseinstallationskrav

BinBase-systemet kræver en Rocks Linux-klyngebaseret arkitektur til beregning af massespektraldata. Dette er minimalt etableret med et system bestående af to standard-personale computere (pc’er). Den første pc lagrer data (*.netcdf-filer,*.txt-filer og databaseindhold), giver adgang til websider og vedligeholder beregningskøen. Den anden pc udfører beregningerne. En central processorenhed (CPU) med to kerner på 2 GHz og 4 GB RAM er tilstrækkelig til hver af disse pc’er, hvis beregningsbelastningen ikke overstiger flere hundrede prøver om dagen. På grund af sin datalagringsfunktion kræver den første pc 1-2 TB lagerplads og to 1 GB-netkort. En mindre harddisk (200 GB) og et enkelt netværkskort er tilstrækkeligt til den anden pc. Vores nuværende konfiguration på Genome Cente’ hver og én hovedknude med et solid state disk-baseret lagringsarray for at forbedre adgangen til databasen.

BinBase-databasen er tilgængelig for offentligheden under LGPL 2.0-licensen (http://binbase.sourceforge.net) og er tilgængelig ved hjælp af forskellige web-front-ends og rige klientapplikationer samt et webservicelag. Den dokumentation, der er nødvendig for installation og administration af systemet, findes også på dette websted.

Bellerophon

Den grafiske brugergrænseflade (GUI) Bellerophon i front-end’en er det centrale administrationsværktøj for BinBase og bruges til Bin-administration, databasesøgning og konfiguration af retentionsindeks. Bellerophon er en Eclipse 3 SWT-baseret RCP-applikation (Rich Client Platform). Den indeholder visualiseringsmuligheder baseret på JFreeChart og understøtter databaseforespørgsler via en Hibernate-ramme. Hibernate-rammen understøtter mapping af databasetabeller til objekter. Dynamiske SWT-tabeller og visualiseringer oprettes fra disse objekter via Java Reflection-API og XDoclet.

SetupX

SetupX er en database til undersøgelsesdesign, hvis primære funktioner omfatter indfangning af eksperimentelle metadata til klassegenerering, randomisering og planlægning af GC-TOF-MS-sekvenser og lagring af annoterede GC-TOF-MS-data sammen med alle andre datafiler, der er forbundet med et eksperiment (f.eks. fotografier, assay-regneark, andre instrumentelle datafiler). Nærmere oplysninger om SetupX-strukturen er beskrevet . Vi har udviklet en slankere version af denne database, MiniX. Brugernes anmodninger om BinBase-annotationer via MiniX-webstedet aktiverer MiniX BinBase-eksportfunktionen via EJB og JMS. BinBase anmoder desuden om eksperimentelle klasseoplysninger fra MiniX via EJB’er. MiniX er et open source-projekt og kan downloades og installeres under LGPL 2.0-licensen (http://code.google.com/p/minix/).

vocBinBase-filteringsalgoritme

VocBinBase-algoritmen tager de dekonvoluterede spektrer og metadata, der leveres af Leco ChromaTOF-softwaren, samt prøveoplysninger fra undersøgelsesdesigndatabasen SetupX/MiniX og anvender et flerstrenget filtreringssystem, der enten annoterer spektrer til eksisterende databaseposter (“Bins”), opretter og tilføjer nye Bins til databasen, hvis alle kvalitetskriterier er opfyldt, eller kasserer spektrer af lav kvalitet for at bevare databasens integritet (se Additional File 1, figur S1). Hver databasepost eller “Bin” repræsenterer en unik forbindelse, der har matchet alle massespektrale, instrumentelle og klasse-metadatatærskler. Bins er minimalt defineret ved følgende egenskaber: massespektrum, retentionsindeks (RI), kvantificeringsmasse, liste over unikke masser og et unikt identifikationsnummer.

Dataforbehandling

Rå data forbehandles af Leco ChromaTOF-softwaren og gemmes som ChromaTOF-specifikke *.peg-filer, generiske *.txt-resultater og som generiske ANDI MS *.cdf-filer. ChromaTOF (v. 2.32) databehandlingsparametre, der er specificeret i forbehandlingstrinene, omfatter indstilling af basislinjen lige over støj (værdi = 1), ingen udglatning og et signal/støjforhold på mindst 20. *.txt-filerne eksporteres til en filserver med henblik på yderligere behandling af algoritmen. vocBinBase-algoritmen er kompatibel med ChromaTOF-softwareversioner 2.32 til den aktuelle version, 4.33.

Spektral validering

Efter import af alle dekonvoluterede spektrer af alle kromatogrammer i en biologisk undersøgelse (*.csv-format), kontrolleres spektrerne for tilstedeværelsen og hyppigheden af den unikke ion (i forhold til basistoppen), tilstedeværelsen af alle apex-masser (masser, der deler den maksimale intensitet med peakmaksimum for den unikke ion) og for antallet af toppe, der overskrider apex-intensitetstærskelværdierne. Spektral validering er det første datakvalitetsfilter; kromatogrammer med overbelastede toppe og dekonvolutionsfejl anvendes kun til peak matching, men ikke til Bin-generering.

Retentionsindeksberegninger baseret på fedtsyremethylestere

BinBase-algoritmen til korrektion af retentionsindeks anvender først et basistopfilter på alle spektrer for at lokalisere FAME RI-markørerne (der anvendes ingen retentionstidsinformationer). Fra denne filtrerede liste anvendes FAME-toppen med den højeste massespektrale lighedsscore som referencepunkt, hvorfra afstandsmålinger anvendes på højere og lavere retentionstider for at lokalisere alle andre RI-markører. Når alle de nødvendige FAME-markører er fundet, beregnes en korrektionskurve ved hjælp af en lineær regression for de to første og to sidste standarder og en polynomial regression af femte orden for de standarder, der ligger imellem. Den polynomiale regression anvendes inden for det kalibrerede område for at tage hensyn til de absolutte og relative retentionstidsforskydninger, som adskiller sig fra lineære regressioner ved tidlige og sene retentionstider. Da polynomier af høj grad er dårlige til ekstrapolering, anvendes lineær regression til ekstrapolering uden for RI-markørområdet. I tilfælde af at der ikke findes alle tidlige og sene RI-markører, er genereringen af nye Bins deaktiveret, men det er stadig muligt at matche eksisterende Bins.

De parametre, der blev anvendt til at finde RI-markører for flygtige prøver, krævede en væsentlig ændring i forhold til dem, der blev anvendt i metabolit-algoritmerne. Matchindstillinger og basistopmønstre måtte omdefineres for at tage højde for udvidelsen af FAME’erne til at omfatte C4 og C6 samt ændringen i m/z-området fra 85-500 til 35-500. Denne udvidelse af m/z-området til lavere værdier er absolut nødvendig for de flygtige forbindelser, da de ikke er TMS-derivatiserede, og m/z-området 35-85 giver vigtige fragmentdata til hjælp for identifikation af forbindelser. For at undgå at miste data af høj kvalitet, hvor FAME’er ikke var i specifikation, blev eksisterende algoritmer ændret, så det blev muligt at anvende en korrektionskurve fra en tidligere eller senere prøve, der er optaget samme dag, på den pågældende prøve. Hvis der ikke blev fundet sådanne gyldige RI-data, blev søgevinduerne udvidet til op til ti dage; ellers genereres der en delkurve ved hjælp af de RI-markører, der er fundet i den enkelte prøve. I alle disse tilfælde er Bin-generering deaktiveret, men alle eksisterende Bins tildeles.

Peak-annotation ved BinBase-algoritmen

De ChromaTOF-metadata, der anvendes i peak-annotation ved BinBase-algoritmen, omfatter massespektral lighed, peak renhed (et skøn over antallet, nærheden og ligheden af co-eluterende peaks), retentionsindeks, signal/støjforhold, unik ion, apex-ioner og unikt masse-til-base peak-forhold. Yderligere metadata, der rapporteres af ChromaTOF-softwaren (f.eks. peakhøjde, areal %), anvendes ikke af algoritmen. Efter RI-korrektion (beskrevet ovenfor) kommenteres spektrerne sekventielt efter faldende topintensitet. For en given top indstiller algoritmen et RI-vindue (± 2 000 FAME RI-enheder, ~2 sek.) og anvender et unikt ionmatchfilter til at matche enten den unikke ion eller apexing-ionerne i den dekonvoluterede top for at generere en liste over mulige Bin-tilknytninger. Med blot disse to parametre opnås en høj grad af filtrering. For eksempel en forbindelse med en FAME RI-værdi på 446700 og den unikke ion m/z 93, idet RI-filterets begrænsninger reducerer antallet af massespektrumsammenligninger fra 1 537 poster til otte potentielle hits. Den unikke ion begrænsning reducerer yderligere de mulige Bin-matches fra otte hits til to kandidater (figur 3). Først på dette stadium anvendes et massespektral lighedsfilter, som anvender variable tærskler baseret på peak-signal/støjforhold og peakrenhed. En rigelig, velopløst top kræver en højere massespektral lighedsscore for en vellykket annotation end en lille eller co-eluterende top.

I realiteten kan der defineres forskellige tærskelværdier for hver parameter for forskellige peaks. I det ovenfor illustrerede eksempel (figur 3) er toppen rimelig ren (peak purity = 0,1137), og der kræves en høj massespektral lighedsscore for Bin-matching. På grundlag af disse endelige filtreringskriterier og massespektrallighedsscorerne for linalool (917) og terpinolen (<500) er den endelige tildeling af forbindelsen i dette eksempel linalool. I dette særlige eksempel er der faktisk tre Bins inden for vinduet ± 2000 FAME RI-enheder, hvoraf to har en unik ionværdi på m/z 93. Denne anden Bin med den unikke ion m/z 93 er faktisk terpinolen.

På dette stadium i annotationen kan der være mere end én Bin-tildeling tilbage (f.eks. stereoisomerer, der kan elueres inden for det søgte RI-vindue). Isomeren med den tættest matchende RI annoteres derefter, medmindre en alternativ Bin har en betydeligt større lighedsscore. Spektre, der filtreres fra i isomerfiltret, kan stadig være i stand til at matche andre tilstødende Bin’er og føres derfor tilbage til annotationsalgoritmen.

Ny Bin-generering – sporing af ukendte forbindelser

Hvis spektret ikke matcher en eksisterende Bin, genererer BinBase-algoritmen en ny Bin, hvis specifikke, meget strenge kriterier er opfyldt. For det første skal det pågældende spektrum bestå strenge massespektralkvalitetstærskler baseret på renhed (renhedsværdi < 1,0) og intensitet (S/N > 25). Tærskelværdierne for det bin-genererende massespektralfilter er strengere end for lighedsfilteret for at sikre, at kun rigelige og rene spektrer bliver til nye bin’er. For det andet skal en potentiel ny Bin passere et eksperimentelt klassefilter, før den kan valideres. Dette filter kræver, at en ny Bin påvises i mindst 80 % af alle prøver af en eksperimentel klasse for at sikre, at den er en ægte flygtig og ikke en uheldig kontaminant. Alle database-Bins blev genereret af algoritmen som beskrevet ud fra data indsamlet i laboratorie- og felteksperimenter.

Post-matching og udskiftninger

Når alle spektrer for alle eksperimentelle klasser er blevet annoteret, udarbejdes en omfattende Bin-liste, der omfatter alle Bins, der er fundet i hele eksperimentet. Derefter matches alle spektrer igen i forhold til Bin-listen (post-matching), således at alle Bins, herunder eventuelle nyoprettede Bins, søges i alle prøver. I dette trin kan spektrer i prøver, som ikke bestod de strengere MS-tærskelværdier, der kræves til Bin-generering, bestå de tærskelværdier, der kræves til Bin-annotation.

I nogle tilfælde påvises en Bin ikke positivt i alle kromatogrammer, enten fordi den er fraværende eller er lavt forekommende (ægte negativ), eller fordi den er til stede, men kvalitetskriterierne er ikke tilstrækkelige til at muliggøre en tildeling (falsk negativ). Dette vil resultere i en nulværdi i datamatrixen, hvilket vanskeliggør efterfølgende statistiske analyser. Der er udarbejdet en strategi, som er programmeret i algoritmen til at beregne en erstatningsværdi i disse tilfælde. Først bestemmer algoritmen den gennemsnitlige retentionstid for hver metabolit i analysesekvensen ved at beregne det gennemsnitlige retentionsindeks for prøverne og omdanne det tilbage til retentionstiden ved hjælp af retentionsindeksets korrektionskurve. Derefter åbnes de rå, ubehandlede kromatogrammer (netCDF- eller ANDI MS-filformater), og den maksimale ionintensitet ved det valgte kvantificeringsionspor for hver manglende flygtige forbindelse ved ±2s omkring målretentionstiden rapporteres minus den lokale baggrundsstøj for den pågældende målion ved ±5s omkring målretentionstiden. Den baggrundssubtraherede ionintensitet angives i resultattavlen med farvekodning for at angive resultaterne som en “second-pass”-tildeling. Validering af erstatningsalgoritmen blev udført ved at sammenligne manuelle annotationer af erstattede værdier i prøvesæt med deres algoritmeerstatningsværdier.

vocBinBase Report

Alle Bins, der er detekteret i mindst 80 % af en eksperimentel klasse, er inkluderet i mappen med resultatrapporter. Desuden indeholder rapportmappen en resultatfil for alle Bins, der er påvist i mindst 50 % af en forsøgsklasse. Forskere kan bruge resultatet på 50 % til at supplere datasættet på 80 % med flere identificerede metabolitter eller til at evaluere de mindre sikkert fundne eller sjældne toppe. Hver post i den eksporterede Bin-tabel rapporteres som intensiteten af Bin-kvantificeringsmassen, der som standard er den unikke ion, selv om denne værdi manuelt kan ændres til en hvilken som helst ion i spektret af databaseadministratoren. Vi bruger peakhøjder og ikke peakområder af flere grunde. Peakhøjder er at foretrække frem for peakarealer for små peaks, fordi basislinjeindstillinger påvirker peakarealerne mere for små peaks end for større peaks. Desuden giver tophøjder baseret på definerede unikke ioner et mere stabilt mål end andre parametre som f.eks. dTIC eller TIC, fordi antallet og dermed den kombinerede intensitet af detekterede ioner vil variere ved analyse af en given forbindelse i forskellige kromatogrammer, afhængigt af topmængden og renheden.

Alle Bins, der eksporteres af vocBinBase-databasen, rapporteres med en unik databaseidentifikator, kvantificeringsionen, retentionsindeksværdien og det komplette massespektrum kodet som en streng (figur 4). Databaseposter navngives ved hjælp af Adams plantebibliotek for flygtige stoffer (beskrevet nedenfor). Forbindelser, der ikke stammer fra planter, herunder pesticider, blødgøringsmidler og andre forurenende stoffer, anføres ved hjælp af NIST-RI-biblioteket. Kendte artefakter i forbindelse med kolonneafsmitning er annoteret i vocBinBase, men eksporteres ikke til brugerne i resultatrapporterne (m/z 207, 221, 281, 355). Databaseadministratorer kan manuelt udelukke (eller inkludere) peaks i listen over rapporterede Bins. Twister™-baserede artefakter udvælges f.eks. manuelt til udelukkelse i resultattabeller. Resultatdataark produceres som XLS- og TXT-formater (eller XML, hvis det er nødvendigt). Når Bins er identificeret, rapporteres de også med deres kemiske navn og PubChem-identifikator.