Az illékony vegyületek BinBase tömegspektrum-adatbázisa

Az illékony minták gyűjtése és elemzése

Az illékony vegyületek mintavétele

Az illékony vegyületek mintavételi protokolljai (a szorbens kiválasztása és a mintavételi módszer) az analit azonosságára és a mintaforrásra jellemzőek, és a kutatási területtől és a fókusztól függően nagyban változnak. A legtöbb mintavételezésünk során a polidimetil-sziloxán (PDMS) alapú TwisterTM (GERSTEL, Inc.) készüléket alkalmaztuk nagy kapacitása, sokoldalúsága (mind headspace, mind stir-bar szorpciós extrakciós mód lehetséges) és könnyű kezelhetősége miatt terepi körülmények között (1A. ábra). A TwisterTM által befogott illékony vegyületek az elemzéshez termikusan deszorbeálódnak (1B. ábra). Bár eddig a TwisterTM volt az elsődleges szorbensünk, más típusú szorbensek és illékony anyagokat tartalmazó mintavételi módszerek (pl, csomagolt patron, SPME, közvetlen headspace-injektálás és közvetlen termikus deszorpció) is alkalmazhatók, és kompatibilisek az adatok annotálásával és a Bin-adatbázisok létrehozásával.

1. ábra
1. ábra

Az illékony vegyületeket a Twister™-technológiával rögzítjük és GC-TOF-MS segítségével, időben nem változó FAME-alapú retenciós indexráccsal detektáljuk. (A) Mintavétel. Az illékony vegyületeket 1 cm hosszú PDMS-bevonatú Twister™-eken fogjuk be. (Az ábrát a GERSTEL, Inc. bocsátotta rendelkezésre). (B) Az adatgyűjtő műszerek sémája (nem méretarányos). A kitett Twisters™-eket 0,5 ml-es üvegkapillárisokban lévő külső retenciós index-markerek (C4-C26 zsírsav-metilészterek, FAME-k) oldatával együtt üveg szállítócsövekbe helyezzük. Az illékony anyagok egy termikus deszorpciós egységben (TDU) távoznak a Twisterekből™. A deszorbeált illékony anyagokat és a FAME-eket a folyékony nitrogénnel hűtött CIS4 bemenetben újra fókuszáljuk, majd újra volatilizáljuk a hőmérséklet-szabályozott elválasztáshoz egy gázkromatográfiás (GC) oszlopon az elektronionizációs repülési idejű tömegspektrometriás detektáláshoz (TOF MS) és a ChromaTOF szoftverrel történő elsődleges adatfeldolgozáshoz. (C) Retenciós időeltolódások. Hosszú üzemidő alatt a vegyületek abszolút retenciós ideje (RT) az oszlophasználat miatt eltolódik. Itt látható a metil-eikozanoát (C20 FAME) RT eltolódása hat különálló mintából egy kétéves, 1500 mintára kiterjedő vizsgálat során. Egy hónapos működés során 3 másodperces eltolódás történt, míg egy oszlopcsere után 6 másodperces eltolódás volt megfigyelhető. (D) Átváltás retenciós indexre. A FAME retenciós index markerek (m/z 74, 5-szeres nagyítás, kék nyomvonal) hozzáadása minden illékony profilhoz (teljes ionkromatogram, piros nyomvonal) létrehozza a FAME-ok stabil rácsát, hogy a változó “időt” változatlan “index” egységgé alakítsa át. Nincs szükség további kromatogram-illesztésekre.

Megmaradási index markerek

A GC-MS-csúcsok abszolút retenciós ideje (RT) az oszlop tulajdonságainak (pl. oszlop típusa, kora, hossza, fázisarány, filmvastagság) függvényében eltolódik, és gyakran megfigyelhetőek RT-különbségek a minták vagy mintatípusok között (1C ábra). Nagy, hónapokon vagy éveken átívelő vizsgálatok elvégzésekor vagy sok különböző mintatípus összehasonlításakor az RT eltolódások elkerülhetetlenek. A retenciós indexek (RI) megoldják ezt a problémát azáltal, hogy az eluált vegyületek retenciós idejét a mintába kevert markervegyületek által meghatározott fix pozíciókhoz rögzítik. A nagymértékben különböző minták éveken keresztül összeállíthatók egy adatbázisban az RI markerek használatával.

A vocBinBase algoritmus a RI korrekciókhoz minden mintához RI marker vegyületeket kell hozzáadni. A klasszikus egyenes láncú alkánok (Kovats RI) helyett zsírsav-metilésztereket (FAME-k) használunk RI-markerként, mivel a FAME-k elektronionizációs (EI) fragmentummintázatot mutatnak (különösen a magas m/z értékeknél), amelyek jobban alkalmasak az egyértelmű és automatizált kimutatásra. A FAME-alapú RI-értékek és a Kovats-alapú RI-értékek (szénszám * 100) közötti összetévesztés elkerülése érdekében megkülönböztető egységértéket fogadtunk el, és a FAME RI-értékek a FAME C4 esetében 262,214-től a FAME C24 esetében 980,934-ig terjednek. Referenciaként a C4 és C24 FAME-ek megfelelő alkánalapú RI-értékei 726, illetve 2712 értékek. Mind a FAME-k, mind az alkánok a természetben előforduló illékony anyagok, így az RI-keverék hozzáadása megakadályozza a hozzáadott specifikus markervegyületek kimutatását, kivéve, ha izotóposan jelölt RI-markereket használnak.

Az illékony minták RI-keveréke a C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22 és C24 hosszúságú lineáris szénláncú FAME-ket tartalmazza. Az alapkeveréket metilén-kloridban készítik el 5 mg/ml (C4), 1,5 mg/ml (C20, C22, C24), 1,2 mg/ml (C6, C8), 0,8 mg/ml (C9, C16, C18) és 0,4 mg/ml (C14-C18) végső FAME-koncentrációval. Ezt a FAME törzsoldatot felhasználás előtt 200-szorosára hígítjuk metilpropionátban. A FAME RI munkakeveréket 0,5 uL-es kapillárisokban kívülről bevezetjük a Twister™ készülékbe. A kapillárisokat megtöltjük a FAME RI oldattal, majd a Twister™ mellett egy frit aljú TDU szállítócsőben helyezzük el a termikus deszorpcióhoz (1B. ábra). Az alábbiakban a FAME RI markerek rácsszerűségét szemléltető kromatogramok láthatók egy kapilláris módszerrel spiccelt citruslevél illékony mintában (1D ábra).

Készülék

Az illékony minták elemzését egy 6890 GC-n (Agilent Technologies, Santa Clara, CA) végezzük, amely termikus deszorpciós egységgel (TDU, TDU, GERSTEL, Inc, Muehlheim, Németország), kriohűtött injektáló rendszer bemenetével (CIS4, GERSTEL, Inc.) és robotizált mintavevővel (MPS2, GERSTEL, Inc.) felszerelt Pegasus IV repülési idejű tömegspektrométerhez (Leco, St. Joseph, MI) csatlakoztatva.

Thermikus deszorpció és injektor paraméterek

Az exponált Twisterek termikus deszorpciója a TDU-ban történik splitless üzemmódban (50 ml/perc áramlási sebesség, oldószer vent üzemmód) 30°C-os kezdeti hőmérsékleten, amelyet 12°C/sec sebességgel 250°C-ra emelnek, majd 3 percig tartják a végső hőmérsékleten. A deszorbeált analiteket a CIS4 bemenetén folyékony nitrogénnel (-120°C) kriofókuszáljuk. A deszorpciót követően a bemenetet 12°C/s sebességgel -120°C-ról 260°C-ra melegítjük, majd 3 percig 260°C-on tartjuk.

GC-TOF-MS beállítások

A GC-TOF-MS műszer beállításait és programozását szabványos működési eljárásokban határozzuk meg annak érdekében, hogy olyan adatokat állítsunk elő, amelyek automatikusan kommentálhatók és a vizsgálatok során összesíthetők. A kromatográfiás elválasztás egy Rtx-5SilMS oszlopon történik, 10 m-es integrált védőoszloppal . A GC sütő hőmérsékleti programja a következő: 45 °C kezdeti hőmérséklet 2 perces tartással, majd 20 °C/perc rámpa 300 °C-ra, 2 perces tartással, majd 20 °C/perc rámpa 330 °C-ra, 0,5 perces tartással. A vivőgáz (99,9999% He) áramlását állandóan 1 ml/perc értéken tartjuk. A gázkromatográf és a tömegspektrométer közötti átvezető vezeték hőmérséklete 280 °C. A tömegspektrumok felvétele 25 spektrum/sec sebességgel történik 35-500 m/z tömegtartományban. A detektorfeszültséget 1800 V-ra, az ionizációs energiát pedig 70 eV-ra állítottuk be. Az ionforrás hőmérséklete 250°C.

Binbase adatbázis felépítése

Adatbázis felépítése

A BinBase kódja Java és Groovy nyelven készült, és teljes egészében nyílt forráskódú szoftveren alapul. A BinBase többrétegű szoftverarchitektúrát alkalmaz (2. ábra). A BinBase magját egy SQL-konform adatbázis alkotja, amely a (mintaelemzés során keletkező) tömegspektrumokat, az elemzési eredményeket és a gyorsítótárban tárolt adatokat (a nagyobb sebesség érdekében) tárolja. Az adatbázis tartalmát a klaszter, az alkalmazáskiszolgáló és a Bellerophon a Java Database Connectivity (JDBC) segítségével éri el. Ezt a hozzáférést az Enterprise JavaBeans (EJB) és a Hibernate objektum-leképező keretrendszer kapszulázza. A BinBase központi konfigurációját az alkalmazáskiszolgáló tárolja, amely EJB, WSDL (Web Service Description Language) alapú szolgáltatásokat, JMS (Java Messaging Service) és JMX (Java Management Extensions) komponenseket is tartalmaz; ezek együttesen alkotják a BinBase kommunikációs felületet (BCI). Ezek az EJB-k interfészt biztosítanak az adatbázishoz, és lehetővé teszik más Java-programok számára, hogy meghatározott, korlátozott módon hozzáférjenek az adatbázishoz, adatokat kérdezzenek le és számításokat indítsanak. A Hibernate perszisztencia- és objektum-leképezési réteg lehetővé teszi az összetett lekérdezések egyszerű, intuitív módon történő végrehajtását, és elsősorban a Bellerophon, a BinBase adminisztrációs grafikus felhasználói felület (GUI) használja (lásd alább). Egy WSDL szolgáltatási réteggel egészült ki az EJB korlátainak leküzdése érdekében, hogy a BinBase a legtöbb programozási nyelvből elérhető legyen. Belsőleg a WSDL szolgáltatási réteget használják az összes webes front-endhez és a SetupX/MiniX-szel való kommunikációhoz is. A JMX komponenseket a teljes rendszer központi helyen történő konfigurálására és a rendszer tulajdonságainak felügyeletére használják. A BCI modul kulcsszerepet játszik a rendszer biztonságában azáltal, hogy IP-cím és jelszó alapján korlátozza a felhasználók hozzáférését bizonyos szolgáltatásokhoz, valamint megakadályozza a szolgáltatásmegtagadási (DoS) támadásokat vagy az SQL-injekciós támadásokat.

2. ábra
2. ábra

A vocBinBase adatbázis többszintű felépítése.

BinBase adatbázis telepítési követelményei

A BinBase rendszer a tömegspektrumadatok kiszámításához Rocks Linux fürt alapú architektúrát igényel. Ez minimálisan két szabványos személyi számítógépből (PC) álló rendszerrel létesíthető. Az első PC tárolja az adatokat (*.netcdf fájlok,*.txt fájlok és az adatbázis tartalma), hozzáférést biztosít a weboldalakhoz, és karbantartja a számítási várólistát. A második PC végzi a számításokat. Mindkét PC számára elegendő egy kétmagos, 2 GHz-es központi feldolgozó egység (CPU) és 4 GB RAM, ha a számítási terhelés nem haladja meg a napi több száz mintát. Az adattárolási funkció miatt az első PC-nek 1-2 TB tárhelyre és két 1 GB-os hálózati kártyára van szüksége. A második PC számára elegendő egy kisebb merevlemez (200 GB) és egy hálózati kártya. A Genome Cente’ jelenlegi konfigurációnkban minden és egy fejcsomópont egy szilárdtestlemez-alapú tárolótömböt tartalmaz a jobb adatbázis-hozzáférés érdekében.

A BinBase adatbázis az LGPL 2.0 licenc (http://binbase.sourceforge.net) alatt áll a nyilvánosság rendelkezésére, és különböző webes front-endek és gazdag kliensalkalmazások, valamint egy webservice réteg segítségével érhető el. A rendszer telepítéséhez és adminisztrációjához szükséges dokumentáció szintén ezen a weboldalon található.

Bellerophon

A front-end grafikus felhasználói felület (GUI) Bellerophon a BinBase központi adminisztrációs eszköze, amely a Binek kezelésére, az adatbázis böngészésére és a megőrzési index konfigurálására szolgál. A Bellerophon egy Eclipse 3 SWT-alapú Rich Client Platform (RCP) alkalmazás. JFreeChart alapú vizualizációs képességeket tartalmaz, és támogatja az adatbázis-lekérdezéseket egy Hibernate keretrendszeren keresztül. A Hibernate keretrendszer támogatja az adatbázis táblák objektumokhoz való leképezését. Ezekből az objektumokból dinamikus SWT-táblák és vizualizációk jönnek létre a Java Reflection-API és az XDoclet segítségével.

SetupX

A SetupX egy vizsgálattervezési adatbázis, amelynek elsődleges funkciói közé tartozik a kísérleti metaadatok rögzítése az osztálygeneráláshoz, a GC-TOF-MS szekvenciák randomizálása és ütemezése, valamint az annotált GC-TOF-MS adatok tárolása a kísérlethez kapcsolódó összes többi adatfájllal együtt (pl. fényképek, vizsgálati táblázatok, egyéb műszeres adatfájlok). A SetupX szerkezetére vonatkozó részleteket már leírtuk. Kifejlesztettük ennek az adatbázisnak egy karcsúbb változatát, a MiniX-et. A felhasználók BinBase megjegyzésekre vonatkozó kérései a MiniX weboldalon keresztül aktiválják a MiniX BinBase export funkcióját EJB és JMS segítségével. A BinBase emellett EJB-ken keresztül kísérleti osztályinformációkat kér a MiniX-től. A MiniX nyílt forráskódú projekt, és az LGPL 2.0 licenc (http://code.google.com/p/minix/) alatt letölthető és telepíthető.

vocBinBase szűrőalgoritmus

A vocBinBase algoritmus a Leco ChromaTOF szoftver által szolgáltatott dekonvolvált spektrumokat és metaadatokat, valamint a SetupX/MiniX vizsgálati tervezési adatbázisból származó mintainformációkat veszi, és egy többszintű szűrőrendszert alkalmaz, amely vagy a spektrumokat a meglévő adatbázis-bejegyzésekhez (“Bins”) fűzi hozzá, új Bins-eket hoz létre és ad hozzá az adatbázishoz, ha minden minőségi kritérium teljesül, vagy az adatbázis integritásának megőrzése érdekében elveti a gyenge minőségű spektrumokat (lásd az 1. kiegészítő fájl S1. ábráját). Minden egyes adatbázis-bejegyzés vagy “Bin” egy egyedi vegyületet képvisel, amely megfelelt az összes tömegspektrális, műszeres és osztály metaadat küszöbértéknek. A tárolókat minimálisan a következő tulajdonságok határozzák meg: tömegspektrum, retenciós index (RI), mennyiségi tömeg, az egyedi tömegek listája és egy egyedi azonosító szám.

Adatok előfeldolgozása

A nyers adatokat a Leco ChromaTOF szoftver előfeldolgozza, és ChromaTOF-specifikus *.peg fájlokként, általános *.txt eredményekként és általános ANDI MS *.cdf fájlokként tárolja. A ChromaTOF (v. 2.32) adatfeldolgozási paraméterei az előfeldolgozási lépések során a következők: az alapvonal beállítása éppen a zajszint fölé (érték = 1), nincs simítás, és a jel-zaj viszony legalább 20-as. A *.txt fájlokat az algoritmus általi további feldolgozás céljából egy fájlszerverre exportáljuk. A vocBinBase algoritmus kompatibilis a ChromaTOF szoftver 2.32-es verziójától a jelenlegi 4.33-as verzióig.

Spektrális validálás

A biológiai vizsgálat összes kromatogramjának dekonvolvált spektrumának importálása után (*.csv formátumban), a spektrumok ellenőrzése az egyedi ion jelenlétére és gyakoriságára (az alapcsúcshoz viszonyítva), az összes apex tömeg jelenlétére (olyan tömegek, amelyek intenzitásmaximuma megegyezik az egyedi ion csúcsmaximumával), valamint az apex intenzitási küszöbértékeket meghaladó csúcsok számára. A spektrális validálás az első adatminőségi szűrő; a túlterhelt csúcsokat és dekonvolúciós hibákat tartalmazó kromatogramokat csak a csúcsillesztéshez használjuk, de a Bin generáláshoz nem.

Retenciós index számítások zsírsav-metilészterek alapján

A BinBase algoritmus a retenciós index korrekciójához először egy alapcsúcs szűrőt alkalmaz az összes spektrumra a FAME RI markerek felkutatására (nem használunk retenciós idő információt). Ebből a szűrt listából a legmagasabb tömegspektrális hasonlósági pontszámmal rendelkező FAME-csúcsot használjuk referenciapontként, amelytől a távolságméréseket a magasabb és alacsonyabb retenciós időkre alkalmazzuk az összes többi RI-marker megtalálásához. Miután az összes szükséges FAME-markert megtaláltuk, az első két és az utolsó két standardra lineáris regresszióval, a közte lévő standardokra pedig ötödrendű polinomiális regresszióval korrekciós görbét számolunk. A polinomiális regressziót a kalibrált tartományon belül alkalmazzák, hogy figyelembe vegyék az abszolút és relatív retenciós időeltolódásokat, amelyek eltérnek a lineáris regressziótól a korai és a késői retenciós időknél. Mivel a magas fokú polinomok rosszul teljesítenek az extrapolációban, a lineáris regressziót használják az RI-marker tartományon kívüli extrapolációhoz. Abban az esetben, ha nem található meg az összes korai és késői RI-marker, az új Bins generálása letiltásra kerül, de a meglévő Bins megfeleltetése továbbra is lehetséges.

Az illékony minták RI-markereinek megtalálásához használt paraméterek jelentős módosításokat igényeltek a metabolit algoritmusokban használtakhoz képest. Az illeszkedési beállításokat és az alapcsúcs-mintázatokat újra kellett definiálni, hogy alkalmazkodjanak a FAME-ek C4-gyel és C6-tal való kibővítéséhez, valamint az m/z-tartomány 85-500-ról 35-500-ra történő megváltoztatásához. Az m/z-tartomány alacsonyabb értékekre való kiterjesztése feltétlenül szükséges az illékony vegyületek esetében, mivel ezek nem TMS-derivatizáltak, és a 35-85 m/z-tartomány fontos fragmentumadatokat szolgáltat a vegyületek azonosításához. Az olyan jó minőségű adatok elvesztésének elkerülése érdekében, amelyekben a FAME-k nem voltak specifikálva, a meglévő algoritmusokat úgy módosították, hogy lehetővé tegyék egy korábbi vagy későbbi, ugyanazon a napon vett minta korrekciós görbéjének alkalmazását a kérdéses mintára. Ha nem találtak ilyen érvényes RI-adatokat, a keresési ablakokat tíz napig meghosszabbították; ellenkező esetben a magányos mintában talált RI-markerek felhasználásával részleges görbét hoztak létre. Mindezekben az esetekben a Bin generálás le van tiltva, de az összes meglévő Bins hozzárendelésre kerül.

Peak annotáció a BinBase algoritmus által

A BinBase algoritmus által a csúcsok annotálásához használt ChromaTOF metaadatok közé tartozik a tömegspektrális hasonlóság, a csúcs tisztasága (a koeluláló csúcsok számának, közelségének és hasonlóságának becslése), retenciós index, jel-zaj arány, egyedi ion, csúcsionok és egyedi tömeg-bázis csúcs arány. A ChromaTOF szoftver által jelentett további metaadatokat (pl. csúcsmagasság, terület %) az algoritmus nem használja fel. A (fent leírt) RI-korrekciót követően a spektrumokat a csökkenő csúcsintenzitás szerint egymás után jegyzeteljük. Egy adott csúcshoz az algoritmus beállít egy RI-ablakot (± 2000 FAME RI-egység, ~2 mp), és egy egyedi ionillesztési szűrőt használ a dekonvolutált csúcs egyedi ionjának vagy a csúcsot alkotó ionoknak a megfeleltetésére, hogy létrehozza a lehetséges Bin-hozzárendelések listáját. Mindössze ezzel a két paraméterrel nagyfokú szűrés érhető el. Például egy 446700-as FAME RI értékű vegyület és az egyedi ion m/z 93, az RI-szűrő korlátozások a tömegspektrum-összehasonlítások számát 1537 bejegyzésről nyolc lehetséges találatra csökkentik. Az egyedi ion megkötés tovább csökkenti a lehetséges Bin egyezéseket nyolc találatról két jelöltre (3. ábra). Csak ebben a szakaszban kerül alkalmazásra a tömegspektrum-hasonlósági szűrő, amely a csúcsok jel-zaj aránya és a csúcstisztaság alapján változó küszöbértékeket használ. Egy bőséges, jól felbontott csúcs magasabb tömegspektrális hasonlósági pontszámot igényel a sikeres annotációhoz, mint egy kicsi vagy társfelbontású csúcs.

3. ábra
3. ábra

A szűrő algoritmust bemutató példa. Egy sérült narancslevél fejteréből gyűjtött illékony adatok összetettek (A), és az átfedő csúcsok feloldásához spektrális dekonvolúcióra van szükség. A 465 mért tömegelúciós profilból 7 (m/z 93, 111, 114, 115, 132, 136, 150) 400-412 másodperc közötti átfedése látható (B). A dekonvolvált tömegspektrumokat és a csúcsok metaadatait az algoritmusba tápláljuk. Az első két szűrő a RI-információt és az egyedi ioninformációt használja. Ezek nagyon hatékonyan szűkítik az adatbázis-illesztési lehetőségeket, amint az a 122. csúcs esetében látható (C).

A különböző csúcsok esetében az egyes paraméterekhez különböző küszöbértékek határozhatók meg. A fent bemutatott példában (3. ábra) a csúcs meglehetősen tiszta (csúcstisztaság = 0,1137), és a Bin-illesztéshez magas tömegspektrális hasonlósági pontszám szükséges. E végső szűrési kritériumok és a linalool (917) és a terpinolén (<500) tömegspektrális hasonlósági pontszámai alapján a végső vegyület-hozzárendelés ebben a példában a linalool. Ebben a konkrét példában valójában három Bins van a ± 2000 FAME RI egység ablakon belül, amelyek közül kettőnek az m/z 93 egyedi ionértéke van. Ez a második Bin az egyedi m/z 93 ionértékkel valójában a terpinolén.

Az annotációnak ebben a szakaszában egynél több Bin hozzárendelés maradhat (pl. sztereoizomerek, amelyek a keresési RI-ablakon belül eluálódhatnak). Ezután a legközelebbi RI-vel rendelkező izomer kerül annotálásra, kivéve, ha egy alternatív Bin jelentősen nagyobb hasonlósági pontszámmal rendelkezik. Az izomer-szűrő által kiszűrt spektrumok még mindig megfelelhetnek más szomszédos Bin-eknek, és ezért visszakerülnek az annotációs algoritmusba.

Új Bin generálása – ismeretlen vegyületek követése

Amennyiben a spektrum nem felel meg egy meglévő Bin-nek, a BinBase algoritmus egy új Bin-t generál, ha meghatározott, nagyon szigorú kritériumok teljesülnek. Először is, a kérdéses spektrumnak meg kell felelnie a tisztaság (tisztasági érték < 1,0) és az intenzitás (S/N > 25) alapján meghatározott szigorú tömegspektrum-minőségi küszöbértékeknek. A Bin-generáló tömegspektrumszűrő küszöbértékei szigorúbbak, mint a hasonlósági szűrőé, annak biztosítása érdekében, hogy csak a bőséges és tiszta spektrumok váljanak új Bin-ekké. Másodszor, egy potenciális új Bin-nek át kell esnie egy kísérleti osztályszűrőn, mielőtt validálásra kerülne. Ez a szűrő megköveteli, hogy egy új Bin egy kísérleti osztály összes mintájának legalább 80%-ában kimutatható legyen, annak biztosítása érdekében, hogy valódi illékony anyagként és ne hamis szennyező anyagként azonosítható legyen. Az összes adatbázis Bins-t az algoritmus a leírtak szerint generálta a laboratóriumi és terepi kísérletekben gyűjtött adatokból.

Az utólagos illesztés és helyettesítés

Mihelyt az összes kísérleti osztály összes spektrumát megjegyeztük, egy átfogó Bin-listát állítunk össze, amely tartalmazza a kísérlet során talált összes Bins-t. Ezután az összes spektrumot ismét összevetjük a Bin-listával (post-matching) annak érdekében, hogy az összes Bin-t, beleértve az újonnan létrehozott Bins-eket is, minden mintában keressük. Ebben a lépésben azok a mintákban lévő spektrumok, amelyek nem feleltek meg a Bin generálásához szükséges szigorúbb MS küszöbértékeknek, megfelelhetnek a Bin annotáláshoz szükséges küszöbértékeknek.

Egyes esetekben egy Bin nem minden kromatogramon mutatható ki pozitívan, vagy azért, mert hiányzik vagy alacsony a mennyisége (valódi negatív), vagy azért, mert jelen van, de a minőségi kritériumok nem elegendőek a hozzárendeléshez (hamis negatív). Ez nulla értéket eredményez az adatmátrixban, ami akadályozza a későbbi statisztikai elemzéseket. Olyan stratégiát dolgoztunk ki és programoztunk be az algoritmusba, amely ezekben az esetekben helyettesítő értéket számol ki. Először az algoritmus meghatározza az egyes metabolitok átlagos retenciós idejét az analitikai szekvencia során azáltal, hogy kiszámítja a minták átlagos retenciós indexét, és azt a retenciós index korrekciós görbe segítségével visszavezeti a retenciós időre. Ezután a nyers, feldolgozatlan kromatogramokat (netCDF vagy ANDI MS fájlformátumok) megnyitjuk, és minden egyes hiányzó illékony vegyület maximális ionintenzitását a célretenciós idő körül ±2s-ban a kiválasztott kvantitatív ionnyomnál a célretenciós idő körül ±5s-ban az adott célionra vonatkozó helyi háttérzajjal csökkentve jelentjük. A háttérből kivont ionintenzitást az eredménytáblázatban színkódolással jelezzük, hogy az eredményeket “második lépéses” hozzárendelésnek tekintsük. A helyettesítő algoritmus validálása úgy történt, hogy a mintakészletekben a helyettesített értékek kézi annotációit összehasonlítottuk az algoritmus által helyettesített értékekkel.

vocBinBase Report

Az eredményjelentés mappában szerepel minden olyan Bins, amelyet egy kísérleti osztály legalább 80%-ában detektáltak. Ezenkívül a jelentés mappa tartalmazza a kísérleti osztály legalább 50%-ában észlelt összes Bins eredményfájlt. Az 50%-os eredményt a kutatók arra használhatják, hogy a 80%-os adathalmazt több azonosított anyagcseretermékkel egészítsék ki, vagy hogy értékeljék a kevésbé biztosan talált vagy ritka csúcsokat. Az exportált Bin táblázat minden egyes bejegyzése a Bin számszerűsítő tömegének intenzitásaként kerül jelentésre, amely alapértelmezés szerint az egyedi ion, bár ezt az értéket az adatbázis-adminisztrátor manuálisan megváltoztathatja a spektrum bármelyik ionjára. Több okból is a csúcsmagasságokat és nem a csúcsterületeket használjuk. A csúcsmagasságok a kis csúcsok esetében előnyösebbek, mint a csúcsterületek, mivel az alapvonal-beállítások a kis csúcsok esetében jobban befolyásolják a csúcsterületeket, mint a nagyobb csúcsok esetében. Ezenkívül a meghatározott egyedi ionokon alapuló csúcsmagasságok stabilabb mérőszámot biztosítanak, mint más paraméterek, például a dTIC vagy a TIC, mivel egy adott vegyület különböző kromatogramokban történő elemzése esetén a detektált ionok száma és így a kombinált intenzitás is eltér a csúcsok gyakoriságától és tisztaságától függően.

A vocBinBase adatbázis által exportált összes Bins egy egyedi adatbázis-azonosítóval, a mennyiségi meghatározó ionnal, a retenciós index értékével és a teljes tömegspektrummal kódolva, sztringként (4. ábra). Az adatbázis-bejegyzések elnevezése az Adams növényi illékony anyagok könyvtárának használatával történik (lásd alább). A nem növényi eredetű vegyületeket, beleértve a peszticideket, lágyítószereket és egyéb szennyeződéseket, a NIST-RI könyvtár segítségével jegyzetelik. Az oszlopvérzéssel kapcsolatos ismert artefaktumok a vocBinBase-ben megjegyzésre kerülnek, de nem kerülnek exportálásra a felhasználók számára az eredményjelentésekben (m/z 207, 221, 281, 355). Az adatbázis-adminisztrátorok manuálisan kizárhatják (vagy felvehetik) a csúcsokat a jelentett Bins-ek listájára. Például a Twister™-alapú leleteket manuálisan választják ki a kizárásra az eredménytáblázatokban. Az eredményadatlapok XLS és TXT formátumban (vagy szükség esetén XML formátumban) készülnek. Az azonosítást követően a Bins a kémiai nevükkel és PubChem azonosítójukkal is jelentésre kerülnek.

4. ábra
4. ábra

Minta vocBinBase jelentés a jelentés jellemzőit kiemelve. A vocBinBase adatbázis által exportált minden Bins jelentésben szerepel egy egyedi adatbázis-azonosító, a kvantitatív ion, a retenciós index és a teljes tömegspektrum stringként kódolva. A vegyületek abundanciáját a Bin számszerűsítő tömegének intenzitásaként jelentik. Az adatbázis bejegyzései az Adams növényi illékony anyagok könyvtárának felhasználásával vannak megnevezve, és az azonosított vegyületekhez hiperhivatkozással ellátott PubChem azonosítók tartoznak.

Bin azonosítás

A Bin azonosítását az Adams könyvtár tömegspektrumai és retenciós index adatai támogatják több mint 2000 tisztított növényi illékony anyag és illóolaj komponens esetében, amelyeket számos vegyület esetében laboratóriumunkban hiteles standardok segítségével ellenőriztünk. Mielőtt az Adams-könyvtárat feltöltöttük a Bellerophonba a Bin-illesztéshez, a könyvtárat a HP Chemstation formátumból NIST könyvtárformátumba konvertáltuk a NIST weboldalán elérhető Lib2NIST letöltéssel (http://chemdata.nist.gov). Ezenkívül az alkánalapú Adams RI-értékeket a BinBase FAME RI-egyenértékükre konvertáltuk. Az Adams és a Fiehn kromatográfiás változatok közötti RI-átváltást (különböző GC kemencehőmérséklet-programozás és oszlopgyártó) egy másodrendű polinommal végeztük el, és a http://fiehnlab.ucdavis.edu/projects/VocBinBase/ alatt találhatók. A vocBinBase-ben minden azonosított illékony anyagot PubChem kémiai azonosítókkal és szerkezetkódoló InChI hash-kulcsokkal annotáltunk, hogy lehetővé tegyük a keresztreferenciákat a kémiai adatbázisokhoz és a szerkezeti információs eszközökhöz.

A RI konverzió minőségét az Adams könyvtárban jelen lévő autentikus referencia standardok befecskendezésével teszteltük standard működési paraméterek mellett. A számított értékek összehasonlítása a kísérletileg meghatározott értékekkel 70 referencia vegyület esetében 0,9995-ös korrelációt eredményezett 3380 RI egységnyi standard hibával (a maradék hiba standard eltérése, RIcalculated-RIexperimental). A számított és a kísérleti értékek összehasonlítása 130 Adams könyvtárjegyzet esetében hasonló értékeket eredményezett (r2 = 0,9994, SE = 3320 RI egység). Az abszolút RI-eltérés (RIkalkulált-RIkísérleti) ábrázolása a 70 standard és 130 könyvtári jegyzet esetében azt mutatta, hogy a beadott vegyületek 61%-a egy standard hibán belül volt, és a jegyzetelt vegyületek 58%-a a számított érték egy standard hibáján belül volt. A grafikonos adatokat lásd a 2. kiegészítő fájl S2. ábráján.

Az adatbázis tartalma

Az adatbázis jelenleg 18 fajt képviselő 3435 minta spektrumát tartalmazza. Az 1,7 millió importált, teljesen dekonvolvált spektrum ellenére a vocBinBase adatbázis jelenleg csak 1537 egyedi Bint tartalmaz. Az összes importált spektrum 45%-a nem felel meg az algoritmus küszöbértékeinek, és elvetésre kerül; az ilyen spektrumok zajosak és ellentmondásosak. Minél alacsonyabb küszöbértékeket állítanak be a felhasználók a ChromaTOF-ban a csúcsok detektálásához (pl. a csúcskeresési kritériumokat s/n>20-ról s/n>3-ra csökkentik), annál több csúcsot detektálnának. A BinBase algoritmus a megfelelő csúcsspektrumok többségét túl zajosként elvetné, és nem jelentené a kimeneti lapokon. A spektrumok elvetésének hasonló arányát jelentette a GC-kvadrupolos MS-műszerek AMDIS dekonvolúciós adatait használó SpectConnect eszköz is. Az itt használt beállítások mellett a spektrumok fennmaradó 55%-a megfelel a minőségi kritériumoknak, és a spektrumok megjegyzéseket kapnak és tárolásra kerülnek az adatbázisban (5. ábra). Az annotált vegyületek körülbelül 12%-a oszlop- és Twister™-eredetű polisziloxán lelet; ezeket a leleteket az algoritmus annotálja, de nem szerepelnek a felhasználók számára exportált BinBase jelentésekben. A fent leírtak szerint az annotációk több kritériumon alapulnak, és bizonyos küszöbértékek a különböző metaadatok értékeitől függően változhatnak; a szükséges MS-hasonlósági küszöbérték a csúcsok gyakoriságától és tisztaságától függ (pl. egy alacsony tisztaságú csúcs kevésbé szigorú MS-hasonlósági egyezést igényel). Az annotált spektrumok kis százalékát (4%) nagyon tiszta csúcsok (tisztaság <0,15) generálják magas MS hasonlósági pontszámmal, míg az adatbázis-bejegyzések többségét tiszta csúcsok generálják (tisztaság<1.5, 46%) vagy nem tiszta csúcsokból (tisztaság>1,5, 39%) származnak.

5. ábra
ábra5

A vocBinBase algoritmus szűrő hatása. A spektrumoknak több kritériumnak is meg kell felelniük ahhoz, hogy annotálásra és az adatbázisban tárolásra kerüljenek. A beérkező spektrumok 45%-a nem felel meg a kritériumoknak, és mint zajos és inkonzisztens spektrumokat elvetésre kerülnek. A fennmaradó 55%-ot annotálják és tárolják az adatbázisban. Az annotált spektrumok 12%-a oszlop vagy Twister™ polisziloxán lelet. Az annotált spektrumok további bontása a csúcstisztaság, az s/n és a tömegspektrális hasonlóság alapján látható.

A jelenlegi 1537 tárolóból 211-et azonosítottak valódi illékony anyagként a tömegspektrum-retentációs index megfeleltetésével. Ezenkívül 161 Bins-t polisziloxán leletként annotáltak (amelyek ezért nem kerülnek exportálásra a vizsgálati eredmény-adatlapokra), a fennmaradó Bins pedig még nem azonosított. A VOC-adatbázis tartalmának vizualizálása a spektrális hasonlóság (minden Bins) és a Tanimoto kémiai hasonlósági együttható (azonosított Bins) segítségével a Cytoscape segítségével történt (6. ábra). A Tanimoto hasonlósági együttható egy hasonlósági metrika, amely az összehasonlított molekulák közötti hasonlóság szintjét jelző pontszámot számítja ki . A hálózat áttekintése az 1537 Bins közötti kapcsolatok vizuális megjelenítését biztosítja. Az azonosított vegyületeket piros csomópontok, az azonosítatlan vegyületeket pedig szürke csomópontok jelölik. A szorosan egymás mellé csoportosított csomópontok jobban hasonlítanak egymásra, mint azok a csomópontok, amelyeknek csak egyetlen kapcsolatuk van a hálózat szélén. A kék élek összekötik a 700-nál nagyobb szerkezeti hasonlósággal rendelkező azonosított illékony anyagokat. Vegyük észre, hogy a polisziloxán leletek a vegyületektől távolabb klasztereződnek, a nagyon jellegzetes fragmentációs mintázat miatt. Az azonosított vegyületeket tartalmazó hálózati régiók (piros csomópontok) osztályinformációkkal lettek felcímkézve.

6. ábra
6. ábra

A vocBinBase adatbázis tartalmának vizualizációja. A piros csomópontok az azonosított vegyületek, a szürke csomópontok az azonosítatlan vegyületek. A kék élek összekötik a 700-nál nagyobb szerkezeti hasonlósággal rendelkező azonosított illékony anyagokat.

Szólj hozzá!