Baza de date privind spectrul de masă BinBase a compușilor volatili | BMC Bioinformatics

Colectarea și analiza probelor de compuși volatili

Prelevarea probelor de compuși volatili

Protocoalele de prelevare a probelor de compuși volatili (alegerea sorbentului și metoda de prelevare a probelor) sunt specifice identității analitului și sursei probei și variază foarte mult în funcție de domeniul de cercetare și de obiectiv. Cea mai mare parte a prelevării noastre de probe a utilizat TwisterTM (GERSTEL, Inc.) pe bază de polidimetilsiloxan (PDMS), datorită capacității sale ridicate, versatilității (sunt posibile atât modul de extracție prin sorbire în headspace, cât și cel de extracție prin sorbire cu bară de agitare) și ușurinței de manipulare pe teren (figura 1A). Compușii volatili capturați de TwisterTM sunt desorbiți termic pentru analiză (figura 1B). Deși TwistersTM a fost principalul nostru sorbent până în prezent, alte tipuri de sorbenți și metode de eșantionare a volatililor (de ex, cartuș împachetat, SPME, injecții directe în spațiul de cap și desorbție termică directă) pot fi utilizate și sunt compatibile cu adnotarea datelor și cu bazele de date Bin.

Markere de indice de retenție

Timpurile de retenție absolute (RT) ale vârfurilor GC-MS se deplasează în funcție de proprietățile coloanei (de exemplu, tipul de coloană, vârsta, lungimea, raportul de fază, grosimea peliculei), iar diferențele de RT sunt observate frecvent între probe sau tipuri de probe (figura 1C). Atunci când se efectuează studii de amploare care se întind pe parcursul a luni sau ani, sau când se compară mai multe tipuri de probe diferite, decalajele RT sunt inevitabile. Indicii de retenție (RI) depășesc această problemă prin blocarea timpilor de retenție ai compușilor eluați pe poziții fixe definite de compușii markeri injectați în probă. Eșantioane foarte diferite pot fi compilate într-o bază de date de-a lungul anilor cu ajutorul markerilor RI.

Algoritmul vocBinBase necesită adăugarea de compuși markeri RI la toate eșantioanele pentru corecțiile RI. Noi folosim esteri metilici ai acizilor grași (FAME) ca markeri RI, mai degrabă decât alcanii clasici cu lanț drept (Kovats RI), deoarece FAME prezintă modele de fragmente de ionizare electronică (EI) (în special la valori m/z ridicate) mai potrivite pentru o detecție automată și lipsită de ambiguitate. Pentru a evita confuzia între valorile RI bazate pe FAME și valorile RI bazate pe Kovats (numărul de carbon * 100), am adoptat o valoare unitară distinctivă, iar valorile RI ale FAME variază de la 262,214 pentru FAME C4 la 980,934 pentru FAME C24. Pentru referință, valorile RI corespunzătoare bazate pe alcani pentru FAME C4 și C24 sunt 726 și, respectiv, 2712. Atât FAME-urile, cât și alcanii sunt substanțe volatile naturale , astfel încât adăugarea amestecului RI va împiedica detectarea compușilor markeri specifici adăugați, cu excepția cazului în care se folosesc markeri RI marcați izotopic.

Mestecul RI pentru probele volatile include FAME-uri cu lungimi de catenă carbonică liniară C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22 și C24. Se prepară un amestec stoc în clorură de metilen cu concentrații finale de FAME de 5 mg/mL (C4), 1,5 mg/mL (C20, C22, C24), 1,2 mg/mL (C6, C8), 0,8 mg/mL (C9, C16, C18) și 0,4 mg/mL (C14-C18). Această soluție stoc de FAME este apoi diluată de 200 de ori în propionat de metil înainte de utilizare. Amestecul de lucru FAME RI se introduce în exteriorul Twister™ în capilare de 0,5 uL. Capilarele se umplu cu soluția FAME RI și apoi se plasează alături de Twister™ într-un tub de transport TDU cu fund de frită pentru desorbție termică (figura 1B). Mai jos sunt prezentate cromatograme care ilustrează natura de tip grilă a markerilor FAME RI într-o probă volatilă de frunze de citrice îmbogățită prin metoda capilară (figura 1D).

Instrumentație

Analizele probelor volatile se efectuează pe un GC 6890 (Agilent Technologies, Santa Clara, CA) echipat cu o unitate de desorbție termică (TDU, GERSTEL, Inc, Muehlheim, Germania), un sistem de injecție cu răcire criogenică la intrare (CIS4, GERSTEL, Inc.) și un prelevator robotizat (MPS2, GERSTEL, Inc.) interfațat cu spectrometrul de masă Pegasus IV time-of-flight (Leco, St. Joseph, MI).

Parametri de desorbție termică și parametrii injectorului

Twisterii expuși sunt desorbiți termic în TDU în modul splitless (debit de 50 ml/min, modul de aerisire a solventului) la o temperatură inițială de 30°C, cu rampa de creștere la 250°C la o rată de 12°C/sec și apoi menținuți la temperatura finală timp de 3 min. Analiții desorbiți sunt criofocalizați în intrarea CIS4 cu azot lichid (-120°C). După desorbție, intrarea este încălzită de la -120 la 260°C cu o viteză de 12°C/s și menținută la 260°C timp de 3 min.

Configurarea și programarea instrumentului CG-TOF-MS

Configurarea și programarea instrumentului CG-TOF-MS sunt definite în procedurile standard de operare pentru a produce date care pot fi auto-analizate și compilate în cadrul studiilor. Separarea cromatografică se realizează pe o coloană Rtx-5SilMS cu o coloană de gardă integrată de 10 m . Programul de temperatură al cuptorului GC este următorul: temperatura inițială de 45 °C cu o menținere de 2 minute, urmată de o rampă de 20 °C/min până la 300 °C cu o menținere de 2 minute, urmată de o rampă de 20 °C/min până la 330 °C cu o menținere de 0,5 minute. Fluxul de gaz purtător (99,9999% He) este menținut constant la 1 ml/min. Temperatura liniei de transfer între cromatograful cu gaz și spectrometrul de masă este de 280°C. Spectrele de masă sunt achiziționate la 25 de spectre/sec cu un interval de masă de 35-500 m/z. Tensiunea detectorului este setată la 1800 V, iar energia de ionizare la 70 eV. Temperatura sursei de ioni este de 250°C.

Construcția bazei de date Binbase

Structura bazei de date

Codul BinBase a fost dezvoltat în Java și Groovy și se bazează în întregime pe software open-source. BinBase utilizează o arhitectură software cu mai multe niveluri (figura 2). În centrul BinBase se află o bază de date conformă cu SQL care stochează spectrele de masă (generate în timpul analizei probelor), rezultatele analizei și datele din memoria cache (pentru o viteză îmbunătățită). Conținutul bazei de date este accesat de cluster, de serverul de aplicații și de Bellerophon prin intermediul Java Database Connectivity (JDBC). Acest acces este încapsulat de Enterprise JavaBeans (EJB) și de cadrul de cartografiere a obiectelor Hibernate. Configurația centrală BinBase este stocată în serverul de aplicații, care găzduiește, de asemenea, servicii bazate pe EJB, WSDL (Web Service Description Language), JMS (Java Messaging Service) și componente JMX (Java Management Extensions); împreună, acestea alcătuiesc interfața de comunicare BinBase (BCI). Aceste EJB oferă o interfață cu baza de date și permit altor programe Java să acceseze baza de date, să interogheze datele și să pornească calcule într-un mod definit și restrâns. Stratul de persistență și de cartografiere a obiectelor Hibernate permite executarea de interogări complexe într-un mod simplu și intuitiv și este utilizat în principal de Bellerophon, interfața grafică de administrare BinBase (GUI) (a se vedea mai jos). A fost adăugat un strat de servicii WSDL pentru a depăși limitările EJB, astfel încât BinBase să poată fi accesat din majoritatea limbajelor de programare. La nivel intern, stratul de servicii WSDL este, de asemenea, utilizat pentru toate front-end-urile web și pentru comunicațiile cu SetupX/MiniX. Componentele JMX sunt utilizate pentru a configura întregul sistem de la o locație centrală și pentru a monitoriza proprietățile sistemului. Modulul BCI joacă un rol esențial în securitatea sistemului prin limitarea accesului utilizatorilor la anumite servicii pe baza adresei IP și a parolei și prin prevenirea atacurilor de refuz de serviciu (DoS) sau a atacurilor de injecție SQL.

Cerințele de instalare a bazei de date BinBase

Sistemul BinBase necesită o arhitectură bazată pe cluster Rocks Linux pentru a calcula datele spectrale de masă. Aceasta se stabilește în mod minimal cu un sistem format din două calculatoare personale (PC) standard. Primul PC stochează datele (fișiere *.netcdf, fișiere *.txt și conținutul bazei de date), oferă acces la paginile web și menține coada de calcul. Al doilea PC efectuează calculele. O unitate centrală de procesare (CPU) dual core de 2 GHz și 4 GB de memorie RAM sunt suficiente pentru fiecare dintre aceste PC-uri în cazul în care sarcina de calcul nu depășește câteva sute de eșantioane pe zi. Din cauza funcției sale de stocare a datelor, primul PC necesită 1-2 TB de stocare și două plăci de rețea de 1 GB. Un hard disk mai mic (200 GB) și o singură placă de rețea sunt suficiente pentru cel de-al doilea PC. Configurația noastră actuală de la Genome Cente’ fiecare și un nod de cap cu o matrice de stocare bazată pe discuri solide pentru un acces îmbunătățit la baza de date.

Baza de date BinBase este disponibilă publicului sub licența LGPL 2.0 (http://binbase.sourceforge.net) și este accesibilă folosind diferite front-end-uri web și aplicații client bogate, precum și un strat de servicii web. Documentația necesară pentru instalarea și administrarea sistemului se găsește, de asemenea, pe acest site web.

Bellerophon

Interfața grafică front-end pentru utilizatori (GUI) Bellerophon este instrumentul central de administrare pentru BinBase și este utilizată pentru gestionarea Bin, navigarea în baza de date și configurarea indicilor de retenție. Bellerophon este o aplicație RCP (rich client platform) bazată pe Eclipse 3 SWT. Aceasta include capacități de vizualizare bazate pe JFreeChart și acceptă interogări ale bazei de date prin intermediul unui cadru Hibernate. Cadrul Hibernate suportă cartografierea tabelelor din baza de date în obiecte. Tabelele SWT dinamice și vizualizările sunt create din aceste obiecte prin intermediul Java Reflection-API și XDoclet.

SetupX

SetupX este o bază de date de proiectare a studiilor ale cărei funcții principale includ capturarea metadatelor experimentale pentru generarea de clase, randomizarea și programarea secvențelor GC-TOF-MS și stocarea datelor GC-TOF-MS adnotate împreună cu toate celelalte fișiere de date legate de un experiment (de exemplu, fotografii, foi de calcul pentru analize, alte fișiere de date instrumentale). Detaliile privind structura SetupX au fost descrise . Noi am dezvoltat o versiune mai simplă a acestei baze de date, MiniX. Solicitările utilizatorilor pentru adnotări BinBase prin intermediul site-ului MiniX activează funcția de export MiniX BinBase prin EJB și JMS. BinBase solicită în plus informații despre clasele experimentale de la MiniX prin EJB. MiniX este un proiect open source și poate fi descărcat și instalat sub licența LGPL 2.0 (http://code.google.com/p/minix/).

algoritmul de filtrare vocBinBase

Algoritmul vocBinBase preia spectrele deconvoluționate și metadatele furnizate de software-ul Leco ChromaTOF, precum și informațiile despre eșantioane din baza de date de proiectare a studiilor SetupX/MiniX și aplică un sistem de filtrare pe mai multe niveluri care fie adnotează spectrele la intrările existente în baza de date („Bins”), creează și adaugă noi Bins la baza de date în cazul în care sunt îndeplinite toate criteriile de calitate, sau elimină spectrele de calitate scăzută pentru a menține integritatea bazei de date (a se vedea fișierul suplimentar 1, figura S1). Fiecare intrare în baza de date sau „Bin” reprezintă un compus unic care a corespuns tuturor pragurilor de metadate spectrale de masă, instrumentale și de clasă. Bins sunt definite minimal prin următoarele proprietăți: spectru de masă, indice de retenție (RI), masă de cuantificare, listă de mase unice și un număr unic de identificare.

Preprocesarea datelor

Datele brute sunt preprocesate de software-ul Leco ChromaTOF și stocate ca fișiere *.peg specifice ChromaTOF, rezultate generice *.txt și ca fișiere generice ANDI MS *.cdf. Parametrii de procesare a datelor ChromaTOF (v. 2.32) specificați în etapele de preprocesare includ setarea liniei de bază chiar deasupra zgomotului (valoare = 1), nicio netezire și un raport semnal-zgomot de minimum 20. Fișierele *.txt sunt exportate pe un server de fișiere în vederea prelucrării ulterioare de către algoritm. Algoritmul vocBinBase este compatibil cu versiunile de software ChromaTOF de la 2.32 până la versiunea actuală, 4.33.

Spectral validation

După importarea tuturor spectrelor deconvoluate ale tuturor cromatogramelor unui studiu biologic (*.format csv), spectrele sunt verificate pentru prezența și abundența ionului unic (în raport cu vârful de bază), prezența tuturor maselor apex (mase care împart intensitatea maximă cu intensitatea maximă a vârfului ionului unic) și pentru numărul de vârfuri care depășesc pragurile de intensitate apex. Validarea spectrală este primul filtru de calitate a datelor; cromatogramele cu vârfuri supraîncărcate și cu erori de deconvoluție sunt utilizate doar pentru potrivirea vârfurilor, dar nu și pentru generarea Bin.

Calcularea indicelui de retenție pe baza esterilor metilici ai acizilor grași

Algoritmul BinBase pentru corecția indicelui de retenție aplică mai întâi un filtru al vârfului de bază la toate spectrele pentru a localiza markerii RI FAME (nu se utilizează informații privind timpul de retenție). Din această listă filtrată, vârful FAME cu cel mai mare scor de similaritate a spectrului de masă este utilizat ca punct de referință de la care se aplică măsuri de distanță la timpii de retenție mai mari și mai mici pentru a localiza toți ceilalți markeri RI. După ce sunt găsiți toți markerii FAME necesari, se calculează o curbă de corecție folosind o regresie liniară pentru primele două și ultimele două standarde și o regresie polinomială de ordinul cinci pentru standardele intermediare. Regresia polinomială se aplică în intervalul calibrat pentru a ține seama de decalajele absolute și relative ale timpului de retenție, care diferă de regresiile liniare la timpii de retenție timpurii și la cei tardivi. Deoarece polinoamele de grad înalt au performanțe slabe la extrapolare, se utilizează regresia liniară pentru a extrapola în afara intervalului markerului RI. În cazul în care nu sunt găsiți toți markerii RI cu eluzie timpurie și târzie, generarea de noi Bins este dezactivată, dar potrivirea Bins-urilor existente este încă viabilă.

Parametrii utilizați pentru a găsi markerii RI pentru probele volatile au necesitat o modificare substanțială față de cei utilizați în algoritmii pentru metaboliți. Setările de potrivire și modelele vârfurilor de bază au trebuit să fie redefinite pentru a se adapta la extinderea FAME-urilor pentru a include C4 și C6, precum și la modificarea intervalului m/z de la 85-500 la 35-500. Această extindere a intervalului m/z la valori mai mici este absolut necesară pentru compușii volatili, deoarece aceștia nu sunt derivați de TMS, iar intervalul 35-85 m/z oferă date importante privind fragmentele pentru a ajuta la identificarea compușilor. Pentru a evita pierderea datelor de înaltă calitate în care FAME-urile nu se aflau în specificații, algoritmii existenți au fost modificați pentru a permite aplicarea unei curbe de corecție a unui eșantion anterior sau ulterior, achiziționat în aceeași zi, la eșantionul în cauză. În cazul în care nu s-au găsit astfel de date RI valide, ferestrele de căutare au fost extinse până la zece zile; în caz contrar, se generează o curbă parțială utilizând markerii RI găsiți în eșantionul solitar. În toate aceste cazuri, generarea Bin este dezactivată, dar sunt atribuite toate Bins-urile existente.

Anotarea vârfurilor de către algoritmul BinBase

Metadatele ChromaTOF utilizate în adnotarea vârfurilor de către algoritmul BinBase includ similaritatea spectrală de masă, puritatea vârfurilor (o estimare a numărului, proximității și similitudinii vârfurilor de coeluzionare), indicele de retenție, raportul semnal-zgomot, ionul unic, ionii de vârf și raportul dintre masa unică și masa de bază a vârfurilor. Metadatele suplimentare raportate de software-ul ChromaTOF (de exemplu, înălțimea vârfului, suprafața %) nu sunt utilizate de algoritm. După corecția RI (descrisă mai sus), spectrele sunt adnotate secvențial în funcție de intensitatea descrescătoare a vârfurilor. Pentru un anumit vârf, algoritmul stabilește o fereastră RI (± 2 000 de unități RI FAME, ~ 2 secunde) și utilizează un filtru de potrivire a ionilor unici pentru a se potrivi fie cu ionul unic, fie cu ionii de vârf ai vârfului deconvoluit pentru a genera o listă de posibile atribuiri Bin. Cu doar acești doi parametri, se obține un grad ridicat de filtrare. De exemplu, pentru un compus cu o valoare RI FAME de 446700 și un ion unic m/z 93, constrângerile filtrului RI reduc numărul de comparații de spectre de masă de la 1 537 de intrări la opt rezultate potențiale. Constrângerea ionului unic reduce și mai mult posibilele potriviri Bin de la opt rezultate la doi candidați (figura 3). Abia în această etapă se aplică un filtru de similaritate a spectrelor de masă, care utilizează praguri variabile bazate pe raportul semnal/zgomot al vârfurilor și pe puritatea vârfurilor. Un vârf abundent și bine rezolvat necesită un scor de similaritate spectrală de masă mai mare pentru o adnotare reușită decât un vârf mic sau coeluzionant.

În fapt, pot fi definite praguri diferite pentru fiecare parametru pentru diferite vârfuri. În exemplul ilustrat mai sus (figura 3), vârful este rezonabil de pur (puritatea vârfului = 0,1137) și este necesar un scor ridicat de similaritate a spectrului de masă pentru potrivirea Bin. Pe baza acestor criterii finale de filtrare și a scorurilor de similaritate spectrală de masă pentru linalol (917) și terpinolen (<500), atribuirea finală a compusului în acest exemplu este linalol. În acest exemplu particular, există, de fapt, trei Bins în cadrul ferestrei de ± 2000 de unități FAME RI, două dintre acestea având o valoare unică a ionului de m/z 93. Acest al doilea Bin cu valoarea unică a ionului m/z 93 este, de fapt, terpinolen.

În acest stadiu al adnotării, pot rămâne mai mult de o atribuire Bin (de exemplu, stereoizomeri care ar putea elua în cadrul ferestrei RI de căutare). Se notează apoi izomerul cu cea mai apropiată potrivire RI, cu excepția cazului în care un Bin alternativ are un scor de similaritate semnificativ mai mare. Spectrele care sunt filtrate în filtrul de izomeri ar putea fi încă capabile să se potrivească cu alte Bin-uri vecine și, prin urmare, sunt reintroduse în algoritmul de adnotare.

New Bin generation – tracking unknown compounds

În cazul în care spectrul nu se potrivește cu un Bin existent, algoritmul BinBase generează un nou Bin dacă sunt îndeplinite criterii specifice, foarte stricte. În primul rând, spectrul în cauză trebuie să treacă praguri stricte de calitate a spectrului de masă bazate pe puritate (valoare de puritate < 1,0) și intensitate (S/N > 25). Pragurile pentru filtrul spectral de masă care generează Bin sunt mai stricte decât cele pentru filtrul de similaritate, pentru a se asigura că numai spectrele abundente și pure devin noi Bins. În al doilea rând, un potențial nou Bin trebuie să treacă un filtru de clasă experimentală înainte de a fi validat. Acest filtru cere ca un nou Bin să fie detectat în cel puțin 80 % din toate eșantioanele unei clase experimentale pentru a se asigura identitatea sa ca fiind un volatil autentic și nu un contaminant fals. Toate Bin-urile din baza de date au fost generate de algoritm, așa cum a fost descris, din datele colectate în experimentele de laborator și de teren.

Post-matching and replacements

După ce toate spectrele din toate clasele experimentale au fost adnotate, se compilează o listă cuprinzătoare de Bin-uri, care include toate Bin-urile găsite în cadrul experimentului. Apoi, toate spectrele sunt din nou comparate cu lista Bin (post-matching) pentru ca toate Bins, inclusiv toate Bins nou generate, să fie căutate în toate probele. În această etapă, spectrele din eșantioane care nu au trecut pragurile MS mai stricte necesare pentru generarea Bin-ului pot trece pragurile necesare pentru adnotarea Bin-ului.

În unele cazuri, un Bin nu este detectat pozitiv în toate cromatogramele, fie pentru că este absent sau este puțin abundent (adevărat negativ), fie pentru că este prezent, dar criteriile de calitate nu sunt suficiente pentru a permite atribuirea (fals negativ). Acest lucru ar avea ca rezultat o valoare zero în matricea de date, ceea ce îngreunează analizele statistice ulterioare. A fost elaborată și programată în algoritm o strategie pentru a calcula o valoare de înlocuire în aceste cazuri. În primul rând, algoritmul determină timpul mediu de retenție pentru fiecare metabolit de-a lungul secvenței analitice, calculând indicele mediu de retenție pentru probe și transformându-l înapoi în timp de retenție cu ajutorul curbei de corecție a indicelui de retenție. În continuare, se deschid cromatogramele brute, neprocesate (formate de fișiere MS netCDF sau ANDI) și se raportează intensitatea maximă a ionilor la urma ionică de cuantificare selectată pentru fiecare compus volatil lipsă la ±2s în jurul timpului de retenție țintă, minus zgomotul de fond local pentru acel ion țintă la ±5s în jurul timpului de retenție țintă. Intensitatea ionică de fond sustrasă este raportată în tabelul de rezultate, cu un cod de culoare pentru a indica rezultatele ca fiind o atribuire de „a doua trecere”. Validarea algoritmului de înlocuire a fost realizată prin compararea adnotărilor manuale ale valorilor înlocuite în seturile de eșantioane cu valorile de înlocuire ale algoritmului acestora.

vocBinBase Report

Toate Bins detectate în cel puțin 80 % dintr-o clasă experimentală sunt incluse în dosarul raportului de rezultate. În plus, dosarul de rapoarte conține un fișier de rezultate pentru toate Bins detectate în cel puțin 50% dintr-o clasă experimentală. Rezultatul de 50% poate fi utilizat de cercetători pentru a completa setul de date de 80% cu mai mulți metaboliți identificați sau pentru a evalua vârfurile mai puțin găsite cu încredere sau rare. Fiecare intrare din tabelul Bin exportat este raportată ca intensitate a masei cuantificatorului Bin, care este în mod implicit ionul unic, deși această valoare poate fi schimbată manual cu orice ion din spectru de către administratorul bazei de date. Utilizăm înălțimile vârfurilor și nu ariile vârfurilor din mai multe motive. Înălțimile vârfurilor sunt preferabile ariilor vârfurilor pentru vârfurile mici, deoarece setările liniei de bază au un impact mai mare asupra ariilor vârfurilor pentru vârfurile mici decât pentru vârfurile mai mari. În plus, înălțimile vârfurilor bazate pe ioni unici definiți oferă o măsură mai stabilă decât alți parametri, cum ar fi dTIC sau TIC, deoarece pentru analiza unui anumit compus în diferite cromatograme, numărul și, prin urmare, intensitatea combinată a ionilor detectați va diferi, în funcție de abundența și puritatea vârfurilor.

Toate Bins exportate de baza de date vocBinBase sunt raportate cu un identificator unic al bazei de date, cu ionul de cuantificare, cu valoarea indicelui de retenție și cu spectrul de masă complet codificat ca un șir de caractere (figura 4). Intrările din baza de date sunt denumite utilizând biblioteca de volatile vegetale Adams (descrisă mai jos). Compușii care nu sunt derivați din plante, inclusiv pesticide, plastifianți și alți contaminanți, sunt adnotați cu ajutorul bibliotecii NIST-RI. Artefactele cunoscute legate de sângerarea coloanei sunt adnotate în vocBinBase, dar nu sunt exportate către utilizatori în rapoartele de rezultate (m/z 207, 221, 281, 355). Administratorii bazei de date pot exclude (sau include) manual vârfuri în lista de Bins raportate. De exemplu, artefactele bazate pe Twister™ sunt selectate manual pentru excludere în tabelele de rezultate. Fișele de date ale rezultatelor sunt produse în format XLS și TXT (sau XML, dacă este necesar). Odată identificate, Bins sunt, de asemenea, raportate cu denumirea lor chimică și identificatorul PubChem.

Identificare Bin

Identificarea Bin este susținută de biblioteca Adams de spectre de masă și date privind indicele de retenție pentru peste 2.000 de volatile vegetale purificate și componente de uleiuri esențiale , verificate pentru mulți compuși folosind standarde autentice în laboratorul nostru. Înainte de încărcarea bibliotecii Adams în Bellerophon pentru potrivirea Bin, biblioteca a fost convertită din formatul HP Chemstation în formatul bibliotecii NIST prin descărcarea Lib2NIST disponibilă pe site-ul web al NIST (http://chemdata.nist.gov). În plus, valorile RI Adams bazate pe alcani au fost convertite în echivalentul lor BinBase FAME RI. Conversia RI între variantele cromatografice Adams și Fiehn (programarea diferită a temperaturii cuptorului GC și producătorul coloanei) a fost realizată cu un polinom de ordinul 2 și sunt prezentate la http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Toate substanțele volatile identificate în vocBinBase sunt adnotate cu identificatori chimici PubChem și chei hash InChI de codificare a structurii pentru a permite referințe încrucișate cu bazele de date chimice și instrumentele de informare structurală.

Calitatea conversiei RI a fost testată prin injectarea de standarde de referință autentice prezente în biblioteca Adams în parametrii de funcționare standard. O comparație a valorilor calculate cu valorile determinate experimental pentru 70 de compuși de referință a dus la o corelație de 0,9995 cu o eroare standard de 3,380 unități RI (abaterea standard a erorii reziduale, RIcalculat-RIexperimental). O comparație a valorilor calculate și experimentale pentru 130 de adnotări ale bibliotecii Adams a dat valori similare (r2 = 0,9994, SE = 3,320 unități RI). O reprezentare grafică a abaterii absolute a RI (RIcalculated-RIexperimental) pentru cele 70 de standarde și 130 de adnotări ale bibliotecii a arătat că 61% dintre compușii injectați s-au încadrat în limita unei erori standard, iar 58% dintre compușii adnotați s-au încadrat în limita unei erori standard a valorii calculate. A se vedea Fișierul suplimentar 2, figura S2 pentru datele reprezentate grafic.

Contenutul bazei de date

În prezent, baza de date conține spectre de la 3.435 de probe reprezentând 18 specii. În ciuda celor 1,7 milioane de spectre importate, complet deconvoluționate, baza de date vocBinBase conține în prezent doar 1537 de Bins unici. Dintre toate spectrele importate, 45 % nu îndeplinesc pragurile algoritmului și sunt eliminate; astfel de spectre sunt zgomotoase și inconsistente. Cu cât utilizatorii stabilesc praguri mai mici pentru detectarea vârfurilor în ChromaTOF (de exemplu, scăzând criteriile de găsire a vârfurilor de la s/n>20 la s/n>3), cu atât mai multe vârfuri ar fi detectate. Majoritatea spectrelor de vârfuri corespunzătoare ar fi eliminate de algoritmul BinBase ca fiind prea zgomotoase și nu ar fi raportate în fișele de ieșire. O rată similară de respingere a spectrelor a fost raportată de instrumentul SpectConnect care utilizează datele de deconvoluție AMDIS ale instrumentelor GC-quadrupol MS. În cadrul setărilor utilizate aici, restul de 55% din spectre îndeplinesc criteriile de calitate și sunt adnotate și stocate în baza de date (figura 5). Aproximativ 12% dintre compușii adnotați sunt artefacte polisiloxanice derivate din coloane și Twister™; aceste artefacte sunt adnotate de algoritm, dar nu sunt incluse în rapoartele BinBase exportate pentru utilizatori. După cum s-a descris mai sus, adnotările se bazează pe mai multe criterii, iar anumite praguri sunt variabile în funcție de diverse valori ale metadatelor; pragul de similaritate MS necesar depinde de abundența și puritatea vârfurilor (de exemplu, un vârf cu puritate scăzută necesită o potrivire mai puțin strictă a similarității MS). Un procent mic de spectre adnotate (4 %) este generat de vârfuri foarte pure (puritate <0,15) cu un scor de similaritate MS ridicat, în timp ce majoritatea intrărilor în baza de date sunt generate de vârfuri pure (puritate<1.5, 46%) sau vârfuri care nu sunt pure (puritate>1,5, 39%).

Din cele 1.537 de Bins actuale, 211 au fost identificate ca fiind substanțe volatile autentice prin potrivirea spectrului de masă cu indicele de reținere. În plus, 161 Bins au fost adnotate ca artefacte polisiloxanice (care, prin urmare, nu sunt exportate în fișele de date privind rezultatele studiilor), iar restul Bins nu sunt încă identificate. Vizualizarea conținutului bazei de date VOC utilizând similaritatea spectrală (toate Bins) și coeficientul de similaritate chimică Tanimoto (Bins identificate) a fost realizată cu ajutorul Cytoscape (Figura 6). Coeficientul de similaritate Tanimoto este o metrică de similaritate care calculează un scor care indică nivelul de similaritate între moleculele comparate . Prezentarea generală a rețelei oferă o reprezentare vizuală a relațiilor dintre cele 1537 de Bins. Compușii identificați sunt reprezentați prin noduri roșii, iar compușii neidentificați prin noduri gri. Nodurile grupate strâns împreună sunt mai asemănătoare decât nodurile cu o singură conexiune la marginea rețelei. Marginile albastre leagă volatilele identificate cu o similaritate structurală mai mare de 700. Rețineți că artefactele polisiloxanice se grupează departe de compuși, datorită modelului de fragmentare foarte distinctiv. Regiunile rețelei cu compuși identificați (noduri roșii) au fost etichetate cu informații despre clasă.