Haihtuvien yhdisteiden BinBase-massaspektritietokanta

Haihtuvien yhdisteiden näytteiden keruu ja analysointi

Haihtuvien yhdisteiden näytteenotto

Haihtuvien yhdisteiden näytteenottoprotokollat (sorbenttimateriaalin valinta ja näytteenottomenetelmä) riippuvat analyytti-identiteetistä ja näytteenlähteestä, ja ne vaihtelevat suuresti tutkimusalasta ja -kohteesta. Suurimmassa osassa näytteenotostamme on käytetty polydimetyylisiloksaanipohjaista (PDMS) TwisterTM (GERSTEL, Inc.) -näytteenottolaitetta sen suuren kapasiteetin, monipuolisuuden (sekä headspace- että stir-bar-sorptiouuttotavat ovat mahdollisia) ja helppokäyttöisyyden vuoksi kenttäolosuhteissa (kuva 1A). TwisterTM:n talteen ottamat haihtuvat yhdisteet desorboidaan termisesti analysointia varten (kuva 1B). Vaikka TwisterTM on tähän mennessä ollut ensisijainen sorbenttimme, muita sorbenttityyppejä ja haihtuvien aineiden näytteenottomenetelmiä (esim, pakattu patruuna, SPME, suorat headspace-injektiot ja suora terminen desorptio) voidaan käyttää, ja ne ovat yhteensopivia tietojen merkitsemisen ja Bin-tietokannan kanssa.

Kuvio 1
kuvio1

Haihtuvat yhdisteet otetaan talteen Twister™-tekniikan avulla, ja ne detektoidaan GC-TOF-MS:llä, jossa käytetään ajassa muuttumatonta FAME:hen perustuvaa pidättymisindeksin verkkoa. (A) Näytteen kerääminen. Haihtuvat yhdisteet vangitaan 1 cm:n pituisiin PDMS-pinnoitettuihin Twistereihin™. (Kuva on GERSTEL, Inc:n toimittama). (B) Kaavio tiedonkeruulaitteistosta (ei mittakaavassa). Altistuneet Twisters™ siirretään lasisiin kuljetusputkiin yhdessä ulkoisen retentioindeksimarkkeriliuoksen (C4-C26 rasvahappometyyliesterit, FAME) kanssa 0,5 ml:n lasikapillaareissa. Haihtuvat aineet vapautetaan Twistereistä™ lämpödesorptioyksikössä (TDU). Desorboituneet haihtuvat aineet ja FAME:t fokusoidaan uudelleen nestemäisellä typellä jäähdytettyyn CIS4-syöttölaitteeseen, minkä jälkeen ne haihtuvat uudelleen, jotta ne voidaan erottaa lämpötilan mukaan kaasukromatografiakolonnissa (GC-kolonni) elektroni-ionisaation lentoaikamassaspektrometristä detektiota (TOF MS) ja ensisijaista tietojenkäsittelyä varten ChromaTOF-ohjelmistolla. (C) Retentioaikasiirtymät. Pitkien käyttöjaksojen aikana yhdisteiden absoluuttiset retentioajat (RT) ajautuvat kolonnin käytöstä johtuen. Kuvassa on metyylieikosanoaatin (C20 FAME) RT-siirtymä kuudesta erillisestä näytteestä kahden vuoden aikana tehdyssä tutkimuksessa, joka kattoi 1 500 näytettä. Yhden kuukauden käytön aikana tapahtui 3 sekunnin siirtymiä, kun taas pylvään vaihdon jälkeen havaittiin 6 sekunnin siirtymä. (D) Muunnos retentioindeksiksi. FAME-retentioindeksimerkkien (m/z 74, 5-kertainen suurennos, sininen jälki) lisääminen jokaiseen haihtuvien aineiden profiiliin (kokonaisionikromatogrammi, punainen jälki) luo vakaan FAME-verkoston, jonka avulla vaihteleva ”aika” muunnetaan muuttumattomiksi ”indeksi”-yksiköiksi. Muita kromatogrammien kohdistuksia ei tarvita.

Retentioindeksimarkkerit

GC-MS-piikkien absoluuttiset retentioajat (RT) siirtyvät kolonnin ominaisuuksien (esim. kolonnityyppi, -ikä, -pituus, -faasisuhde, kalvonpaksuus) funktiona, ja RT-eroja havaitaan usein näytteiden tai näytetyyppien välillä (kuva 1C). Kun tehdään laajoja, kuukausia tai vuosia kestäviä tutkimuksia tai verrataan monia eri näytetyyppejä, RT-siirtymät ovat väistämättömiä. Retentioindeksit (RI) ratkaisevat tämän ongelman lukitsemalla eluoituneiden yhdisteiden retentioajat kiinteisiin positioihin, jotka on määritelty näytteeseen lisätyillä merkkiaineilla. Hyvin erilaisia näytteitä voidaan koota tietokantaan vuosien ajan käyttämällä RI-markkereita.

VocBinBase-algoritmi edellyttää RI-markkeriyhdisteiden lisäämistä kaikkiin näytteisiin RI-korjauksia varten. Käytämme rasvahappometyyliestereitä (FAME) RI-markkereina klassisten suoraketjuisten alkaanien (Kovatsin RI) sijaan, koska FAME-yhdisteiden elektroni-ionisaatio (EI) -fragmenttikuviot (erityisesti korkeilla m/z-arvoilla) soveltuvat paremmin yksiselitteiseen ja automatisoituun havaitsemiseen. Välttääksemme sekaannuksia FAME-pohjaisten RI-arvojen ja Kovats-pohjaisten RI-arvojen (hiililuku * 100) välillä, olemme ottaneet käyttöön erottelevan yksikköarvon, ja FAME RI-arvot vaihtelevat 262,214:stä FAME C4:lle 980,934:ään FAME C24:lle. Vertailun vuoksi vastaavat alkaanipohjaiset RI-arvot FAME-yhdisteille C4 ovat 726 ja C24 2712. Sekä FAME:t että alkaanit ovat luonnossa esiintyviä haihtuvia aineita , joten RI-seoksen lisääminen estää lisättyjen spesifisten merkkiaineyhdisteiden havaitsemisen, ellei käytetä isotooppisesti leimattuja RI-merkkiaineita.

Haihtuvien näytteiden RI-seos sisältää FAME:itä, joiden lineaariset hiiliketjun pituudet ovat C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22 ja C24. Varastoseos valmistetaan metyleenikloridiin, jonka lopulliset FAME-pitoisuudet ovat 5 mg/ml (C4), 1,5 mg/ml (C20, C22, C24), 1,2 mg/ml (C6, C8), 0,8 mg/ml (C9, C16, C18) ja 0,4 mg/ml (C14-C18). Tämä FAME-kantaliuos laimennetaan sitten 200-kertaiseksi metyylipropionaatilla ennen käyttöä. FAME RI -työsekoitus syötetään ulkoisesti Twister™ -laitteeseen 0,5 uL:n kapillaareissa. Kapillaarit täytetään FAME RI -liuoksella ja asetetaan sitten Twister™:n rinnalle frittipohjaiseen TDU-kuljetusputkeen lämpödesorptiota varten (kuva 1B). Kromatogrammit, jotka havainnollistavat FAME RI -merkkiaineiden ruudukkomaisen luonteen sitrushedelmän lehtien haihtuvassa näytteessä, joka on piikitetty kapillaarimenetelmällä, on esitetty alla (kuva 1D).

Laitteisto

Haihtuvien näytteiden analyysit suoritetaan 6890 GC:llä (Agilent Technologies, Santa Clara, CA), joka on varustettu lämpödesorptioyksiköllä (terminen desorptioyksikkö (Thermal Desorption Unit, TDU, TDU), Muehlheim, Saksa), kryojäähdytetyllä injektiojärjestelmän sisääntulolla (CIS4, GERSTEL, Inc.) ja robottinäytteenottimella (MPS2, GERSTEL, Inc.), joka on liitetty Pegasus IV -valoaikamassaspektrometriin (Leco, St. Joseph, MI).

Lämpödesorptio- ja injektoriparametrit

Altistetut Twisterit desorboidaan lämpödesorptiolla TDU:ssa splitless-tilassa (50 ml/min virtausnopeus, liuottimen poistotila) 30 °C:n alkulämpötilassa, joka nostetaan 250 °C:een 12 °C/sekunnin nopeudella, ja pidetään sitten loppulämpötilassa 3 minuutin ajan. Desorboituneet analyytit kryofokusoidaan CIS4-sisäänmenossa nestemäisellä typellä (-120 °C). Desorptioinnin jälkeen sisääntuloa lämmitetään -120°C:sta 260°C:seen nopeudella 12°C/s ja pidetään 260°C:ssa 3 minuuttia.

GC-TOF-MS-asetukset

GC-TOF-MS-laitteen asetukset ja ohjelmointi määritellään vakiotoimintamenetelmissä, jotta tuotetaan dataa, joka voidaan automaattisesti annotoida ja koota yhteen eri tutkimuksissa. Kromatografinen erottelu suoritetaan Rtx-5SilMS-kolonnilla, jossa on 10 m:n integroitu suojapylväs. GC-uunin lämpötilaohjelma on seuraava: alkulämpötila 45 °C ja 2 minuutin pito, jonka jälkeen 20 °C/min ramppi 300 °C:seen ja 2 minuutin pito, jonka jälkeen 20 °C/min ramppi 330 °C:seen ja 0,5 minuutin pito. Kantokaasun (99,9999 % He) virtaus pidetään vakiona 1 ml/min. Kaasukromatografin ja massaspektrometrin välisen siirtolinjan lämpötila on 280 °C. Massaspektrit otetaan 25 spektriä/sekunnissa ja niiden massa-alue on 35-500 m/z. Detektorijännite asetetaan 1800 V:iin ja ionisaatioenergia 70 eV:iin. Ionilähteen lämpötila on 250°C.

Binbase-tietokannan rakentaminen

Tietokannan rakenne

BinBase-koodi on kehitetty Java- ja Groovy-kielellä, ja se perustuu kokonaan avoimen lähdekoodin ohjelmistoihin. BinBase käyttää monikerroksista ohjelmistoarkkitehtuuria (kuva 2). BinBasen ytimenä on SQL-muotoinen tietokanta, johon tallennetaan massaspektrit (jotka syntyvät näytteen analysoinnin aikana), analyysitulokset ja välimuistiin tallennetut tiedot (nopeuden parantamiseksi). Klusteri, sovelluspalvelin ja Bellerophon käyttävät tietokannan sisältöä JDBC:n (Java Database Connectivity) avulla. Tämä käyttö on kapseloitu Enterprise JavaBeansin (EJB) ja Hibernate Object mapping frameworkin avulla. BinBase-keskuskonfiguraatio tallennetaan sovelluspalvelimelle, jossa on myös EJB-, WSDL- (Web Service Description Language), JMS- (Java Messaging Service) ja JMX (Java Management Extensions) -komponentteja, jotka yhdessä muodostavat BinBase-viestintärajapinnan (BCI). Nämä EJB:t tarjoavat rajapinnan tietokantaan, ja niiden avulla muut Java-ohjelmat voivat käyttää tietokantaa, kysyä tietoja ja käynnistää laskutoimituksia määritellyllä, rajoitetulla tavalla. Hibernate-pysyvyys- ja objektikartoituskerros mahdollistaa monimutkaisten kyselyjen suorittamisen yksinkertaisella ja intuitiivisella tavalla, ja sitä käytetään ensisijaisesti Bellerophonissa, BinBase-hallinnan graafisessa käyttöliittymässä (ks. jäljempänä). WSDL-palvelukerros lisättiin EJB:n rajoitusten voittamiseksi, jotta BinBasea voidaan käyttää useimmilla ohjelmointikielillä. Sisäisesti WSDL-palvelukerrosta käytetään myös kaikissa verkkopäätteissä ja viestinnässä SetupX/MiniX:n kanssa. JMX-komponentteja käytetään koko järjestelmän konfigurointiin keskitetysti ja järjestelmän ominaisuuksien seurantaan. BCI-moduulilla on keskeinen rooli järjestelmän turvallisuudessa rajoittamalla käyttäjien pääsyä tiettyihin palveluihin IP-osoitteen ja salasanan perusteella ja estämällä palvelunestohyökkäykset (DoS) tai SQL-injektiohyökkäykset.

Kuva 2
kuvio2

VokBinBase-tietokannan monikerroksinen arkkitehtuuri.

BinBase-tietokannan asennusvaatimukset

BinBase-järjestelmä vaatii Rocks Linux -klusteripohjaisen arkkitehtuurin, jotta se voi laskea massaspektritiedot. Tämä perustetaan minimissään järjestelmään, joka koostuu kahdesta tavallisesta henkilökohtaisesta tietokoneesta (PC). Ensimmäinen PC tallentaa tiedot (*.netcdf-tiedostot,*.txt-tiedostot ja tietokannan sisällön), tarjoaa pääsyn www-sivuille ja ylläpitää laskentajonoa. Toinen tietokone suorittaa laskutoimitukset. Kaksiytiminen 2 GHz:n keskusyksikkö (CPU) ja 4 GB RAM-muistia riittävät kummallekin PC:lle, jos laskentakuorma ei ylitä useita satoja näytteitä päivässä. Tietojen tallennustoiminnon vuoksi ensimmäinen tietokone tarvitsee 1-2 TB tallennustilaa ja kaksi 1 GB:n verkkokorttia. Toiseen tietokoneeseen riittää pienempi kiintolevy (200 Gt) ja yksi verkkokortti. Tämänhetkinen kokoonpanomme Genome Cente’ssä’ kussakin ja yhdessä pääsolmupisteessä on kiinteälevypohjainen tallennusjärjestelmä, joka parantaa tietokannan saatavuutta.

BinBase-tietokanta on yleisön saatavilla LGPL 2.0 -lisenssillä (http://binbase.sourceforge.net), ja siihen pääsee käsiksi erilaisten web-käyttöliittymien ja rikkaiden asiakassovellusten sekä verkkopalvelukerroksen avulla. Järjestelmän asennukseen ja hallintaan tarvittava dokumentaatio löytyy myös tältä verkkosivulta.

Bellerophon

Graafinen käyttöliittymä (GUI) Bellerophon on BinBasen keskeinen hallintatyökalu, ja sitä käytetään Binien hallintaan, tietokannan selaamiseen ja säilytysindeksin määrittelyyn. Bellerophon on Eclipse 3 SWT-pohjainen RCP-sovellus (Rich Client Platform). Se sisältää JFreeChartiin perustuvat visualisointiominaisuudet ja tukee tietokantakyselyjä Hibernate-kehyksen kautta. Hibernate-kehys tukee tietokantataulujen kuvaamista objekteihin. Näistä objekteista luodaan dynaamisia SWT-taulukoita ja visualisointeja Java Reflection-API:n ja XDocletin avulla.

SetupX

SetupX on tutkimussuunnittelutietokanta, jonka tärkeimpiin tehtäviin kuuluu kokeellisen metatiedon kerääminen luokkien luomiseksi, GC-TOF-MS-sekvenssien satunnaistaminen ja aikatauluttaminen sekä annotoitujen GC-TOF-MS-tietojen ja kaikkien muiden kokeeseen liittyvien datatiedostojen (esim. valokuvat, analyysin laskenta-arvotiedostotiedot, muut instrumenttidatatatiedostot) tallentaminen. SetupX:n rakennetta koskevat yksityiskohdat on kuvattu . Olemme kehittäneet tästä tietokannasta kevyemmän version, MiniX:n. Käyttäjän pyynnöt BinBase-merkintöjä varten MiniX-sivuston kautta aktivoivat MiniX BinBase -vientitoiminnon EJB:n ja JMS:n avulla. BinBase pyytää lisäksi kokeellisia luokkatietoja MiniX:stä EJB:n kautta. MiniX on avoimen lähdekoodin projekti, ja se voidaan ladata ja asentaa LGPL 2.0 -lisenssin (http://code.google.com/p/minix/) nojalla.

vocBinBase-suodatusalgoritmi

VocBinBase-algoritmi ottaa Leco ChromaTOF -ohjelmiston toimittamat dekonvoluutioidut spektrit ja metatiedot sekä näytetiedot tutkimussuunnitelmatietokannasta SetupX/MiniX ja soveltaa moniportaista suodatusjärjestelmää, joka joko huomauttaa spektrejä olemassa oleviin tietokantamerkintöihin (”Bins”), luo ja lisää tietokantaan uusia Binejä, jos kaikki laatukriteerit täyttyvät, tai hylkää heikkolaatuiset spektrit tietokannan eheyden säilyttämiseksi (ks. lisätiedosto 1, kuva S1). Kukin tietokantamerkintä tai ”Bin” edustaa ainutlaatuista yhdistettä, joka on täyttänyt kaikki massaspektri-, instrumentti- ja luokkametatietokynnykset. Binit määritellään minimissään seuraavilla ominaisuuksilla: massaspektri, retentioindeksi (RI), kvantifiointimassa, luettelo yksilöllisistä massoista ja yksilöllinen tunnistenumero.

Datan esikäsittely

Raaka-aineisto esikäsitellään Leco ChromaTOF -ohjelmistolla ja tallennetaan ChromaTOF-spesifisinä *.peg-tiedostoina, geneerisinä *.txt-tuloksina ja geneerisinä ANDI-MS *.cdf-tiedostoina. ChromaTOF (v. 2.32) -datan käsittelyparametreihin, jotka on määritetty esikäsittelyvaiheissa, kuuluu perusviivan asettaminen juuri kohinan yläpuolelle (arvo = 1), ei tasoitusta ja signaali-kohinasuhde on vähintään 20. *.txt-tiedostot viedään tiedostopalvelimelle algoritmin jatkokäsittelyä varten. vocBinBase-algoritmi on yhteensopiva ChromaTOF-ohjelmiston versioiden 2.32 ja 4.33 välillä.

Spektrinen validointi

Tuonnin jälkeen tuodaan kaikkien biologisen tutkimuksen kaikkien kromatogrammien dekonvoluutioidut spektrit (*.csv-muodossa), spektrit tarkistetaan yksilöllisen ionin läsnäolon ja runsauden (suhteessa peruspiikkiin), kaikkien apex-massojen (massat, joilla on sama maksimi-intensiteetti kuin yksilöllisen ionin piikin maksimi-intensiteetillä) läsnäolon ja sellaisten piikkien lukumäärän osalta, jotka ylittävät apex-intensiteettikynnykset. Spektrin validointi on ensimmäinen datan laatusuodatin; kromatogrammeja, joissa on ylikuormitettuja piikkejä ja dekonvoluutiovirheitä, käytetään vain piikkien täsmäytykseen, mutta ei Binin muodostamiseen.

Rasvahappometyyliestereihin perustuvat retentioindeksilaskelmat

Retentioindeksin korjauksen BinBase-algoritmi soveltaa ensin peruspiikkisuodatinta kaikkeen spektriin FAME:n RI-merkkiaineiden paikallistamiseksi (retentioaikaa koskevaa tietoa ei käytetä). Tästä suodatetusta luettelosta FAME-piikkiä, jolla on korkein massaspektrin samankaltaisuuspistemäärä, käytetään vertailupisteenä, johon sovelletaan etäisyysmittoja korkeampiin ja matalampiin retentioaikoihin kaikkien muiden RI-merkkien paikantamiseksi. Kun kaikki tarvittavat FAME-markkerit on löydetty, lasketaan korjauskäyrä käyttämällä lineaarista regressiota kahdelle ensimmäiselle ja kahdelle viimeiselle standardille ja viidennen kertaluvun polynomiregressiota niiden väliin jääville standardeille. Polynomiregressiota sovelletaan kalibroidulla alueella absoluuttisten ja suhteellisten retentioaikasiirtymien huomioon ottamiseksi, jotka eroavat lineaarisista regressioista varhaisilla ja myöhäisillä retentioajoilla. Koska korkea-asteiset polynomit toimivat huonosti ekstrapoloinnissa, lineaarista regressiota käytetään ekstrapolointiin RI-markkerialueen ulkopuolelle. Jos kaikkia varhaisia ja myöhäisiä RI-markkereita ei löydy, uusien Bins-yksiköiden luominen estetään, mutta olemassa olevien Bins-yksiköiden yhteensovittaminen on edelleen mahdollista.

Haihtuvien näytteiden RI-markkereiden löytämiseen käytetyt parametrit vaativat huomattavia muutoksia metaboliittialgoritmeissa käytettyihin parametreihin verrattuna. Täsmäytysasetukset ja peruspiikkikuviot oli määriteltävä uudelleen, jotta voitiin ottaa huomioon FAME-yhdisteiden laajentaminen C4- ja C6-yhdisteisiin sekä m/z-alueen muuttaminen 85-500:stä 35-500:een. Tämä m/z-alueen laajentaminen alempiin arvoihin on ehdottoman välttämätöntä haihtuvien yhdisteiden osalta, koska ne eivät ole TMS-derivatisoituja ja 35-85 m/z-alue tarjoaa tärkeää fragmenttitietoa yhdisteiden tunnistamisen helpottamiseksi. Jotta vältettäisiin sellaisten korkealaatuisten tietojen menettäminen, joissa FAME-yhdisteet eivät olleet spesifioituja, olemassa olevia algoritmeja muutettiin siten, että edellisen tai myöhemmän samana päivänä otetun näytteen korjauskäyrää voitiin soveltaa kyseiseen näytteeseen. Jos tällaisia kelvollisia RI-tietoja ei löytynyt, hakuikkunoita pidennettiin kymmeneen päivään asti; muussa tapauksessa luodaan osittainen käyrä käyttäen yksittäisestä näytteestä löydettyjä RI-markkereita. Kaikissa näissä tapauksissa Binien luominen ei ole käytössä, mutta kaikki olemassa olevat Binit määritetään.

Piikkien merkitseminen BinBase-algoritmilla

BinBase-algoritmin piikkien merkitsemisessä käyttämiä ChromaTOF-metatietoja ovat mm. massaspektrin samankaltaisuus, piikkien puhtaus (arvio rinnakkaisten piikkien määrästä, läheisyydestä ja samankaltaisuudesta), retentio-indeksi, signaali-kohinasuhde, yksilöllinen ioni, huippuionit ja yksilöllinen massan ja peruspiikin välinen suhde. Algoritmi ei käytä ChromaTOF-ohjelmiston ilmoittamia muita metatietoja (esim. piikin korkeus, pinta-ala %). Edellä kuvatun RI-korjauksen jälkeen spektrit merkitään peräkkäin laskevan piikin intensiteetin mukaan. Algoritmi asettaa tietylle piikille RI-ikkunan (± 2 000 FAME RI -yksikköä, ~ 2 sekuntia) ja käyttää yksilöllisen ionin vastaavuussuodatinta, joka vastaa joko dekonvoluutioidun piikin yksilöllistä ionia tai apexing-ioneja luodakseen luettelon mahdollisista Bin-luokituksista. Vain näillä kahdella parametrilla saavutetaan korkea suodatusaste. Esimerkiksi yhdisteen, jonka FAME RI-arvo on 446700 ja yksilöllinen ioni m/z 93, RI-suodatinrajoitukset vähentävät massaspektrivertailujen määrän 1537 merkinnästä kahdeksaan mahdolliseen osumaan. Yksilöllisen ionin rajoitus vähentää edelleen mahdollisia Bin-tapauksia kahdeksasta osumasta kahteen ehdokkaaseen (kuva 3). Vasta tässä vaiheessa sovelletaan massaspektrin samankaltaisuussuodatinta, jossa käytetään muuttuvia kynnysarvoja, jotka perustuvat piikin signaali-kohinasuhteeseen ja piikin puhtauteen. Runsas, hyvin resolvoitunut piikki vaatii korkeamman massaspektrisen samankaltaisuuspisteytyksen onnistuneen annotoinnin onnistumiseksi kuin pieni tai rinnakkaispiikki.

Kuvio 3
Kuvio3

Esimerkki, jossa havainnollistetaan suodatusalgoritmia. Haavoittuneen appelsiinin lehden headspacesta kerätyt haihtuvat tiedot ovat monimutkaisia (A), ja päällekkäisten piikkien erottamiseksi tarvitaan spektrin dekonvoluutiota. Näytetään päällekkäin 7:n 465:stä mitatusta massaeluutioprofiilista (m/z 93, 111, 114, 115, 132, 136, 150) ajalta 400-412 sekuntia (B). Algoritmiin syötetään dekonvoluutioidut massaspektrit ja piikkien metatiedot. Kaksi ensimmäistä suodatinta käyttävät RI-tietoa ja yksilöllistä ionitietoa. Nämä ovat erittäin tehokkaita kaventamaan tietokannan täsmäämismahdollisuuksia, kuten näkyy piikin #122 kohdalla (C).

Kullekin parametrille voidaan määritellä erilaiset kynnysarvot eri piikkejä varten. Edellä esitetyssä esimerkissä (kuva 3) piikki on kohtuullisen puhdas (piikin puhtaus = 0,1137), ja Bin-sovittamiseen tarvitaan korkea massaspektrin samankaltaisuuspistemäärä. Näiden lopullisten suodatuskriteerien sekä linaloolin (917) ja terpinoleenin (<500) massaspektrin samankaltaisuuspisteiden perusteella lopullinen yhdisteen määritys tässä esimerkissä on linalooli. Tässä esimerkissä on itse asiassa kolme Biniä ± 2000 FAME RI -yksikköikkunan sisällä, joista kahdella on yksilöllinen ioniarvo m/z 93. Tämä toinen Bin, jolla on yksilöllinen ioni m/z 93, on itse asiassa terpinoleeni.

Tässä annotaatiovaiheessa voi jäädä jäljelle useampi kuin yksi Bin-luokitus (esim. stereoisomeerit, jotka saattavat eluoitua haku-RI-ikkunassa). Tämän jälkeen annotoidaan se isomeeri, jonka RI on lähimpänä toisiaan, ellei vaihtoehtoisella Binillä ole huomattavasti suurempaa samankaltaisuuspistemäärää. Spektrit, jotka suodatetaan pois isomeerisuodattimella, saattavat silti sopia muihin viereisiin Binseihin, joten ne syötetään takaisin annotaatioalgoritmiin.

Uuden Binssin luominen – tuntemattomien yhdisteiden seuranta

Jos spektri ei sovi olemassa olevaan Binsiin, BinBase-algoritmi luo uuden Binssin, jos tietyt, erittäin tiukat kriteerit täyttyvät. Ensinnäkin kyseisen spektrin on läpäistävä tiukat massaspektrin laatukynnykset, jotka perustuvat puhtauteen (puhtausarvo < 1,0) ja intensiteettiin (S/N > 25). Bin-massaspektrisuodattimen kynnysarvot ovat tiukemmat kuin samankaltaisuussuodattimen kynnysarvot sen varmistamiseksi, että vain runsaista ja puhtaista spektreistä tulee uusia Binejä. Toiseksi mahdollisen uuden Binin on läpäistävä kokeellinen luokkasuodatin ennen validointia. Tämä suodatin edellyttää, että uusi bin havaitaan vähintään 80 prosentissa kaikista kokeellisen luokan näytteistä, jotta voidaan varmistaa, että se on aito haihtuva aine eikä mikään epäpuhdas kontaminaatti. Kaikki tietokannan Binit luotiin algoritmilla kuvatulla tavalla laboratorio- ja kenttäkokeissa kerätyistä tiedoista.

Post-matching and replacements

Kun kaikkien kokeellisten luokkien kaikki spektrit on kommentoitu, kootaan kattava Bin-luettelo, joka sisältää kaikki kokeessa löydetyt Binit. Sitten kaikkia spektrejä verrataan jälleen Bin-luetteloon (post-matching), jotta kaikki Binsit, mukaan lukien uudet Binsit, etsitään kaikista näytteistä. Tässä vaiheessa sellaisten näytteiden spektrit, jotka eivät läpäisseet Binin luomiseen vaadittavia tiukempia MS-kynnysarvoja, voivat läpäistä Bin-merkintää varten vaadittavat kynnysarvot.

Joissakin tapauksissa Biniä ei havaita positiivisesti kaikissa kromatogrammeissa joko siksi, että se puuttuu tai sitä on vähän (tosi negatiivinen), tai se on läsnä, mutta laatukriteerit eivät riitä määrityksen tekemiseen (väärä negatiivinen). Tämä johtaa nolla-arvoon tietomatriisissa, mikä vaikeuttaa myöhempiä tilastollisia analyysejä. Algoritmiin on kehitetty ja ohjelmoitu strategia korvaavan arvon laskemiseksi näissä tapauksissa. Aluksi algoritmi määrittää kunkin metaboliitin keskimääräisen retentioajan analyysisekvenssin aikana laskemalla näytteiden keskimääräisen retentioindeksin ja muuntamalla sen takaisin retentioajaksi retentioindeksin korjauskäyrän avulla. Seuraavaksi avataan käsittelemättömät, käsittelemättömät kromatogrammit (netCDF- tai ANDI MS-tiedostomuodot) ja ilmoitetaan kunkin puuttuvan haihtuvan yhdisteen maksimaalinen ioni-intensiteetti valitun kvantifiointi-ionijäljen kohdalla ±2s:n etäisyydellä kohde-ionin retentioajasta, josta on vähennetty paikallinen taustakohina ±5s:n etäisyydellä kohde-ionista. Taustasta vähennetty ionien intensiteetti ilmoitetaan tulostaulukossa värikoodilla, joka ilmaisee, että kyseessä on ”second-pass”-määritys. Korvausalgoritmin validointi suoritettiin vertaamalla näytejoukkojen korvattujen arvojen manuaalisia merkintöjä niiden algoritmikorvausarvoihin.

vocBinBase Report

Tulosraporttikansioon sisällytetään kaikki vähintään 80 %:ssa kokeellisesta luokasta havaitut binit. Lisäksi raporttikansiossa on tulostiedosto kaikista Bineistä, jotka on havaittu vähintään 50 %:ssa kokeellisesta luokasta. Tutkijat voivat käyttää 50 %:n tulosta täydentääkseen 80 %:n tietokokonaisuutta useammilla tunnistetuilla metaboliiteilla tai arvioidakseen vähemmän varmasti löydettyjä tai harvinaisia piikkejä. Jokainen viedyn Bin-taulukon merkintä raportoidaan Bin-kvantifiointimassan intensiteettinä, joka on oletusarvoisesti yksilöllinen ioni, vaikka tietokannan ylläpitäjä voi muuttaa tämän arvon manuaalisesti mihin tahansa spektrin ioniin. Käytämme piikkien korkeuksia emmekä piikkien pinta-aloja useista syistä. Piikkien korkeudet ovat piikkien pinta-aloja parempia pienille piikeille, koska perusviiva-asetukset vaikuttavat piikkien pinta-aloihin enemmän pienille piikeille kuin suuremmille piikeille. Lisäksi määritettyihin yksilöllisiin ioneihin perustuvat piikkien korkeudet ovat vakaampi mittari kuin muut parametrit, kuten dTIC tai TIC, koska analysoitaessa tiettyä yhdistettä eri kromatogrammeissa havaittujen ionien määrä ja siten myös niiden yhdistetty intensiteetti vaihtelevat piikin runsaudesta ja puhtaudesta riippuen.

Kaikki vocBinBase-tietokannan viemät Bins-piikit raportoidaan yksilöllisen tietokantatunnisteen, kvantitointi-ionin, retentioindeksin arvon ja täydellisen massiivispektrin kera merkkijonona koodattuna (kuva 4). Tietokannan merkinnät nimetään käyttäen Adamsin kasvien haihtuvien aineiden kirjastoa (kuvattu jäljempänä). Yhdisteet, jotka eivät ole kasviperäisiä, mukaan lukien torjunta-aineet, pehmittimet ja muut epäpuhtaudet, merkitään käyttämällä NIST-RI-kirjastoa. Tunnetut pylväsvuotoon liittyvät artefaktit merkitään vocBinBase-tietokantaan, mutta niitä ei viedä käyttäjille tulosraportteihin (m/z 207, 221, 281, 355). Tietokannan ylläpitäjät voivat manuaalisesti jättää piikit pois (tai sisällyttää ne) raportoitujen Bins-piikkien luettelosta. Esimerkiksi Twister™-pohjaiset artefaktit valitaan manuaalisesti poissuljettaviksi tulostaulukoissa. Tulostietotaulukot tuotetaan XLS- ja TXT-muodossa (tai tarvittaessa XML-muodossa). Kun Bins on tunnistettu, raportoidaan myös niiden kemiallinen nimi ja PubChem-tunniste.

Kuvio 4
kuvio4

Näyte vocBinBase-raportista, jossa korostetaan raportin ominaisuuksia. Kaikista vocBinBase-tietokannasta viedyistä Bineistä raportoidaan yksilöllinen tietokantatunniste, kvantifiointi-ioni, retentioindeksi ja koko massaspektri koodattuna merkkijonona. Yhdisteiden runsaudet ilmoitetaan binin kvantifiointimassan intensiteettinä. Tietokannan merkinnät on nimetty käyttäen Adamsin kasvien haihtuvien aineiden kirjastoa, ja tunnistetuille yhdisteille on liitetty hyperlinkit PubChem-tunnisteisiin.

Bin-tunnistus

Bin-tunnistusta tukee Adamsin kirjasto, joka sisältää massaspektri- ja retentioindeksitietoja yli 2000:lle puhdistetulle kasvien haihtuvalle aineelle ja eteerisen öljyn aineosalle , ja joka on todennettu monien yhdisteiden osalta käyttämällä aitoja standardeja laboratoriossamme. Ennen Adams-kirjaston lataamista Bellerophoniin Bin-tunnistusta varten kirjasto muunnettiin HP Chemstation -muodosta NIST-kirjaston muotoon NIST:n verkkosivuilta ladattavalla Lib2NIST-ohjelmalla (http://chemdata.nist.gov). Lisäksi alkaanipohjaiset Adamsin RI-arvot muunnettiin BinBase FAME RI -ekvivalentiksi. Adamsin ja Fiehnin kromatografisten varianttien (eri GC-uunin lämpötilan ohjelmointi ja kolonnin valmistaja) välinen RI-muunnos tehtiin 2. kertaluvun polynomilla, ja ne on esitetty kohdassa http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Kaikki vocBinBase-tietokannassa tunnistetut haihtuvat aineet on merkitty PubChem-kemiallisilla tunnisteilla ja rakennetta koodaavilla InChI-hash-avaimilla, jotta ristiviittaukset kemian tietokantoihin ja rakennetietotyökaluihin ovat mahdollisia.

RI-muunnoksen laatua testattiin ruiskuttamalla Adamsin kirjastossa olevia autenttisia referenssistandardeja vakioiduissa toimintaparametreissa. Laskettujen arvojen ja kokeellisesti määritettyjen arvojen vertailu 70 viiteyhdisteen osalta tuotti korrelaation 0,9995, jonka keskivirhe oli 3380 RI-yksikköä (jäännösvirheen keskihajonta, RIcalculated-RIexperimental). Laskettujen ja kokeellisten arvojen vertailu 130 Adamsin kirjastomerkinnän osalta tuotti samanlaisia arvoja (r2 = 0,9994, SE = 3 320 RI-yksikköä). Absoluuttisen RI-poikkeaman (RIcalculated-RIexperimental) kuvaaja 70:lle standardille ja 130:lle kirjastomerkinnälle osoitti, että 61 prosenttia injektoiduista yhdisteistä oli yhden standardivirheen sisällä ja 58 prosenttia merkityistä yhdisteistä oli yhden standardivirheen sisällä lasketusta arvosta. Katso lisätiedoston 2 kuvasta S2 graafiset tiedot.

Tietokannan sisältö

Tietokanta sisältää tällä hetkellä spektrejä 3 435 näytteestä, jotka edustavat 18 lajia. Huolimatta 1,7 miljoonasta tuodusta, täysin dekonvoluutioidusta spektristä vocBinBase-tietokanta sisältää tällä hetkellä vain 1537 yksilöllistä Biniä. Kaikista tuoduista spektreistä 45 prosenttia ei täytä algoritmin kynnysarvoja ja hylätään; tällaiset spektrit ovat kohinaisia ja epäjohdonmukaisia. Mitä alhaisemmiksi käyttäjät asettavat piikkien havaitsemisen kynnysarvot ChromaTOF:ssä (esim. alentamalla piikkien löytämiskriteerit s/n>20:sta s/n>3:een), sitä enemmän piikkejä havaittaisiin. BinBase-algoritmi hylkäisi suurimman osan vastaavista piikkispektreistä liian meluisina, eikä niitä raportoitaisi tulosteissa. SpectConnect-työkalu, joka käyttää GC-kvadrupoli-MS-laitteiden AMDIS-dekonvoluutiotietoja, raportoi samankaltaisen spektrien hylkäämisasteen. Tässä käytetyillä asetuksilla loput 55 prosenttia spektreistä täyttää laatukriteerit ja ne merkitään ja tallennetaan tietokantaan (kuva 5). Noin 12 % annotoiduista yhdisteistä on pylväs- ja Twister™-peräisiä polysiloksaaniartefakteja; algoritmi annotoi nämä artefaktit, mutta ne eivät sisälly käyttäjille vietäviin BinBase-raportteihin. Kuten edellä on kuvattu, annotaatiot perustuvat useisiin kriteereihin, ja tietyt kynnysarvot vaihtelevat eri metatietoarvojen mukaan; vaadittu MS-analyysin samankaltaisuuskynnysarvo riippuu piikin runsaudesta ja puhtaudesta (esim. matalapuhdas piikki edellyttää vähemmän tiukkaa MS-analyysin samankaltaisuutta). Pieni osa annotoiduista spektreistä (4 %) muodostuu erittäin puhtaista piikeistä (puhtaus <0,15), joilla on korkea MS- samankaltaisuuspistemäärä, kun taas suurin osa tietokantamerkinnöistä muodostuu puhtaista piikeistä (puhtaus <1.5, 46 %) tai ei-puhtaista piikeistä (puhtaus>1,5, 39 %).

Kuvio 5
kuvio5

VokBinBase-algoritmin suodatuksen vaikutus. Spektrien on täytettävä useita kriteerejä, jotta ne voidaan annotoida ja tallentaa tietokantaan. Kaikista saapuvista spektreistä 45 % ei täytä kriteerejä, ja ne hylätään meluisina ja epäjohdonmukaisina. Loput 55 % merkitään ja tallennetaan tietokantaan. 12 % annotoiduista spektreistä on pylväs- tai Twister™-polysiloksaaniartefakteja. Annotoitujen spektrien jaottelu piikin puhtauden, s/n:n ja massaspektrin samankaltaisuuden perusteella on esitetty.

Tämänhetkisestä 1 537 biinistä 211 on tunnistettu aidoiksi haihtuviksi aineiksi massaspektrin ja retentioindeksin yhteensopivuuden avulla. Lisäksi 161 Biniä annotoitiin polysiloksaaniartefakteiksi (joita ei siis viedä tutkimustulosten tietolomakkeisiin), ja loput Biinit ovat vielä tunnistamattomia. VOC-tietokannan sisällön visualisointi spektrisen samankaltaisuuden (kaikki Bins) ja Tanimoton kemiallisen samankaltaisuuskertoimen (tunnistetut Bins) avulla tehtiin Cytoscape-ohjelmalla (kuva 6). Tanimoton samankaltaisuuskerroin on samankaltaisuusmittari, joka laskee pistemäärän, joka osoittaa vertailtavien molekyylien samankaltaisuuden tason. Verkon yleiskatsaus tarjoaa visuaalisen esityksen 1537 Binsin välisistä suhteista. Tunnistetut yhdisteet esitetään punaisina solmuina ja tunnistamattomat yhdisteet harmaina solmuina. Tiiviisti yhteen klusteroituneet solmut ovat samankaltaisempia kuin solmut, joilla on vain yksi yhteys verkon reunalla. Siniset reunat yhdistävät tunnistetut haihtuvat aineet, joiden rakenteellinen samankaltaisuus on yli 700. Huomaa, että polysiloksaaniartifaktit klusteroituvat poispäin yhdisteistä, mikä johtuu hyvin erityisestä fragmentaatiomallista. Verkkoalueet, joilla on tunnistettuja yhdisteitä (punaiset solmut), on merkitty luokkatiedoilla.

Kuva 6
kuva6

Visualisointi vocBinBase-tietokannan sisällöstä. Punaiset solmut ovat tunnistettuja yhdisteitä, harmaat solmut tunnistamattomia yhdisteitä. Siniset reunat yhdistävät tunnistetut haihtuvat aineet, joiden rakenteellinen samankaltaisuus on suurempi kuin 700.

Jätä kommentti