Il database spettrale di massa dei composti volatili BinBase

Raccolta e analisi dei campioni volatili

Campionamento dei composti volatili

I protocolli di campionamento dei composti volatili (scelta del sorbente e metodo di campionamento) sono specifici dell’identità dell’analita e della fonte del campione, e variano ampiamente a seconda dell’area di ricerca e dell’obiettivo. La maggior parte del nostro campionamento ha impiegato il polidimetilsilossano (PDMS)-based TwisterTM (GERSTEL, Inc.) a causa della sua elevata capacità, versatilità (sia spazio di testa e stir-bar modalità di estrazione sorptive possibile) e la facilità di gestione nelle impostazioni di campo (Figura 1A). I composti volatili catturati dal TwisterTM sono desorbiti termicamente per l’analisi (Figura 1B). Anche se TwistersTM sono stati il nostro sorbente principale fino ad oggi, altri tipi di sorbente e metodi di campionamento volatili (ad es,

Figura 1
figura1

I composti volatili sono catturati utilizzando la tecnologia Twister™ e rilevati tramite GC-TOF-MS con una griglia di indice di ritenzione basata sul FAME invariante nel tempo. (A) Raccolta del campione. I composti volatili sono intrappolati su Twisters™ rivestiti in PDMS lunghi 1 cm. (Figura fornita da GERSTEL, Inc.). (B) Schema della strumentazione di acquisizione dati (non in scala). I Twisters™ esposti sono trasferiti in tubi di trasporto di vetro insieme a una soluzione esterna di marcatori dell’indice di ritenzione (C4-C26 esteri metilici degli acidi grassi, FAME) in capillari di vetro da 0,5 ml. I volatili vengono rilasciati dai Twisters™ in un’unità di desorbimento termico (TDU). Volatili desorbiti e FAMEs sono rifocalizzati in azoto liquido raffreddato ingresso CIS4, poi ri-volatilized per la temperatura-ramped separazione su una gascromatografia (GC) colonna per ionizzazione elettronica tempo di rilevamento spettrometria di massa di volo (TOF MS) e l’elaborazione dei dati primari sul software ChromaTOF. (C) Spostamenti del tempo di ritenzione. Per lunghi periodi di funzionamento, i tempi di ritenzione assoluti (RT) dei composti vanno alla deriva a causa dell’uso della colonna. Qui è mostrato lo spostamento RT per eicosanoato di metile (C20 FAME) da sei campioni separati durante uno studio di due anni che copre 1.500 campioni. Si sono verificati spostamenti di 3 secondi durante un mese di funzionamento, mentre uno spostamento di 6 secondi è stato osservato dopo un cambio di colonna. (D) Conversione in indice di ritenzione. L’aggiunta di marcatori dell’indice di ritenzione dei FAME (m/z 74, ingrandito 5 volte, traccia blu) a ogni profilo volatile (cromatogramma degli ioni totali, traccia rossa) stabilisce una griglia stabile di FAME per convertire il “tempo” variabile in unità di “indice” invariabili. Non sono necessari ulteriori allineamenti dei cromatogrammi.

Marcatori dell’indice di ritenzione

I tempi di ritenzione assoluti (RT) dei picchi GC-MS si spostano in funzione delle proprietà della colonna (ad esempio, tipo di colonna, età, lunghezza, rapporto di fase, spessore del film) e le differenze RT sono spesso osservate tra campioni o tipi di campioni (Figura 1C). Quando si eseguono studi di grandi dimensioni che durano mesi o anni, o si confrontano molti tipi di campioni diversi, gli spostamenti di RT sono inevitabili. Gli indici di ritenzione (RI) superano questo problema bloccando i tempi di ritenzione dei composti eluiti a posizioni fisse definite da composti marker inseriti nel campione. Campioni molto diversi possono essere compilati in un database per anni con l’uso di marcatori RI.

L’algoritmo vocBinBase richiede l’aggiunta di composti marcatori RI a tutti i campioni per le correzioni RI. Usiamo gli esteri metilici degli acidi grassi (FAME) come marcatori RI piuttosto che i classici alcani a catena diritta (Kovats RI) perché i FAME presentano schemi di frammenti di ionizzazione elettronica (EI) (specialmente ad alti valori m/z) più adatti per un rilevamento univoco e automatico. Per evitare confusione tra i valori RI basati sui FAME e i valori RI basati su Kovats (numero di carbonio * 100), abbiamo adottato un valore di unità distintivo e i valori RI dei FAME vanno da 262.214 per il FAME C4 a 980.934 per il FAME C24. Per riferimento, i corrispondenti valori RI degli alcani per i FAME C4 e C24 sono rispettivamente 726 e 2712. Sia i FAME che gli alcani sono volatili naturali, quindi l’aggiunta della miscela RI impedirà il rilevamento dei composti marcatori specifici aggiunti, a meno che non vengano utilizzati marcatori RI marcati isotopicamente.

La miscela RI per i campioni volatili include FAME con catene di carbonio di lunghezza lineare C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22 e C24. Una miscela stock viene preparata in cloruro di metilene con concentrazioni finali di FAME di 5 mg/mL (C4), 1,5 mg/mL (C20, C22, C24), 1,2 mg/mL (C6, C8), 0,8 mg/mL (C9, C16, C18) e 0,4 mg/mL (C14-C18). Questa soluzione stock di FAME viene poi diluita 200 volte in propionato di metile prima dell’uso. La miscela di lavoro FAME RI viene introdotta esternamente al Twister™ in capillari da 0,5 uL. I capillari sono riempiti con la soluzione FAME RI e poi posti accanto al Twister™ in un tubo di trasporto TDU con fondo in fritta per il desorbimento termico (Figura 1B). I cromatogrammi che illustrano la natura reticolare dei marcatori FAME RI in un campione volatile di foglie di agrumi sottoposto a iniezione con il metodo capillare sono mostrati di seguito (Figura 1D).

Strumentazione

Le analisi dei campioni volatili sono effettuate su un GC 6890 (Agilent Technologies, Santa Clara, CA) dotato di un’unità di desorbimento termico (TDU, GERSTEL, Inc, Muehlheim, Germania), sistema d’iniezione crio-raffreddato in ingresso (CIS4, GERSTEL, Inc.) e campionatore robotizzato (MPS2, GERSTEL, Inc.) interfacciato allo spettrometro di massa Pegasus IV time-of-flight (Leco, St. Joseph, MI).

Parametri di desorbimento termico e iniettore

Esposti Twisters sono desorbiti termicamente nel TDU in modalità splitless (50 mL/min di flusso, modalità di sfiato solvente) ad una temperatura iniziale di 30 ° C, rampa a 250 ° C ad una velocità di 12 ° C / sec, e poi tenuto alla temperatura finale per 3 minuti. Gli analiti desorbiti sono criofocalizzati nell’ingresso CIS4 con azoto liquido (-120°C). Dopo il desorbimento l’ingresso viene riscaldato da -120 a 260°C ad una velocità di 12°C/s e mantenuto a 260°C per 3 min.

GC-TOF-MS impostazioni

GC-TOF-MS impostazioni dello strumento e la programmazione sono definiti in procedure operative standard al fine di produrre dati che possono essere auto-annotati e compilati attraverso studi. La separazione cromatografica viene eseguita su una colonna Rtx-5SilMS con una colonna di guardia integrata da 10 m. Il programma di temperatura del forno GC è il seguente: temperatura iniziale di 45°C con una pausa di 2 minuti seguita da una rampa di 20 °C/min fino a 300°C con una pausa di 2 minuti seguita da una rampa di 20 °C/min fino a 330°C con una pausa di 0,5 minuti. Il flusso del gas di trasporto (99,9999% He) è mantenuto costante a 1 mL/min. La temperatura della linea di trasferimento tra il gascromatografo e lo spettrometro di massa è di 280°C. Gli spettri di massa vengono acquisiti a 25 spettri/sec con un range di massa di 35-500 m/z. La tensione del rivelatore è impostata a 1800 V e l’energia di ionizzazione a 70 eV. La temperatura della sorgente ionica è di 250°C.

Costruzione del database Binbase

Struttura del database

Il codice di BinBase è stato sviluppato in Java e Groovy, ed è basato interamente su software open-source. BinBase impiega un’architettura software multistrato (Figura 2). Al centro di BinBase c’è un database conforme a SQL che memorizza gli spettri di massa (generati durante l’analisi del campione), i risultati dell’analisi e i dati nella cache (per migliorare la velocità). I contenuti del database sono accessibili dal cluster, dall’application server e da Bellerophon usando Java Database Connectivity (JDBC). Questo accesso è incapsulato da Enterprise JavaBeans (EJB) e dal framework Hibernate Object mapping. La configurazione centrale di BinBase è memorizzata nell’Application Server, che ospita anche EJB, servizi basati su WSDL (Web Service Description Language), JMS (Java Messaging Service), e componenti JMX (Java Management Extensions); insieme questi comprendono la BinBase Communication Interface (BCI). Questi EJB forniscono un’interfaccia al database e permettono ad altri programmi Java di accedere al database, interrogare i dati e avviare calcoli in un modo definito e limitato. Lo strato di persistenza e mappatura degli oggetti Hibernate permette l’esecuzione di query complesse in modo semplice e intuitivo ed è usato principalmente da Bellerophon, l’interfaccia utente grafica (GUI) di amministrazione di BinBase (vedi sotto). Un livello di servizio WSDL è stato aggiunto per superare le limitazioni di EJB in modo che BinBase sia accessibile dalla maggior parte dei linguaggi di programmazione. Internamente, il livello di servizio WSDL è anche usato per tutti i front-end web e le comunicazioni con SetupX/MiniX. I componenti JMX sono usati per configurare l’intero sistema in una posizione centrale e monitorare le proprietà del sistema. Il modulo BCI gioca un ruolo chiave nella sicurezza del sistema, limitando l’accesso dell’utente a particolari servizi in base all’indirizzo IP e alla password, e prevenendo gli attacchi denial of service (DoS) o gli attacchi SQL injection.

Figura 2
figura2

Architettura multilivello del database vocBinBase.

Requisiti di installazione del database BinBase

Il sistema BinBase richiede un’architettura basata su cluster Rocks Linux per calcolare i dati spettrali di massa. Questo è minimamente stabilito con un sistema composto da due personal computer (PC) standard. Il primo PC memorizza i dati (file *.netcdf, file *.txt e contenuto del database), fornisce l’accesso alle pagine web e mantiene la coda di calcolo. Il secondo PC esegue i calcoli. Un’unità di elaborazione centrale (CPU) dual core da 2 GHz e 4 GB di RAM sono sufficienti per ciascuno di questi PC se il carico di calcolo non supera alcune centinaia di campioni al giorno. A causa della sua funzione di memorizzazione dei dati, il primo PC richiede 1-2 TB di memoria e due schede di rete da 1 GB. Un disco rigido più piccolo (200 GB) e una sola scheda di rete sono sufficienti per il secondo PC. La nostra attuale configurazione al Genome Cente’ ogni e un nodo di testa con un array di archiviazione basato su disco allo stato solido per un migliore accesso al database.

Il database BinBase è disponibile al pubblico sotto la licenza LGPL 2.0 (http://binbase.sourceforge.net), ed è accessibile utilizzando diversi front-end web e applicazioni rich client così come uno strato webservice. La documentazione necessaria per l’installazione e l’amministrazione del sistema si trova anche su questo sito web.

Bellerophon

L’interfaccia grafica utente (GUI) Bellerophon è lo strumento di amministrazione centrale per BinBase ed è usata per la gestione dei Bin, la navigazione nel database e la configurazione degli indici di conservazione. Bellerophon è un’applicazione rich client platform (RCP) basata su Eclipse 3 SWT. Include capacità di visualizzazione basate su JFreeChart e supporta le query al database tramite un framework Hibernate. Il framework Hibernate supporta la mappatura delle tabelle del database agli oggetti. Le tabelle SWT dinamiche e le visualizzazioni sono create da questi oggetti tramite Java Reflection-API e XDoclet.

SetupX

SetupX è un database per la progettazione di studi le cui funzioni principali includono la cattura di metadati sperimentali per la generazione di classi, la randomizzazione e la programmazione di sequenze GC-TOF-MS, e la memorizzazione di dati GC-TOF-MS annotati insieme a tutti gli altri file di dati collegati a un esperimento (ad esempio, fotografie, fogli di calcolo di analisi, altri file di dati strumentali). I dettagli sulla struttura di SetupX sono stati descritti. Abbiamo sviluppato una versione più snella di questo database, MiniX. Le richieste dell’utente per le annotazioni BinBase attraverso il sito web MiniX attivano la funzione di esportazione MiniX BinBase tramite EJB e JMS. BinBase richiede inoltre informazioni su classi sperimentali da MiniX attraverso EJB. MiniX è un progetto open source e può essere scaricato e installato sotto la licenza LGPL 2.0 (http://code.google.com/p/minix/).

Algoritmo di filtraggiovocBinBase

L’algoritmo vocBinBase prende gli spettri deconvoluti e i metadati forniti dal software Leco ChromaTOF e le informazioni sui campioni dal database del progetto di studio SetupX/MiniX e applica un sistema di filtraggio a più livelli che annota gli spettri alle voci esistenti del database (‘Bins’), crea e aggiunge nuovi Bin al database se tutti i criteri di qualità sono soddisfatti, o scarta gli spettri di bassa qualità per mantenere l’integrità del database (vedi File aggiuntivo 1, figura S1). Ogni voce del database o “Bin” rappresenta un composto unico che ha abbinato tutte le soglie di massa spettrale, strumentale e metadati di classe. Bin sono minimamente definiti dalle seguenti proprietà: spettro di massa, indice di ritenzione (RI), massa di quantificazione, elenco di masse uniche, e un numero identificativo unico.

Preelaborazione dei dati

I dati grezzi sono pre-elaborati dal software Leco ChromaTOF e memorizzati come ChromaTOF-specifici *.peg file, generici *.txt risultati, e come ANDI MS generico *.cdf file. I parametri di elaborazione dei dati ChromaTOF (v. 2.32) specificati nelle fasi di pre-elaborazione includono l’impostazione della linea di base appena al di sopra del rumore (valore = 1), nessuna lisciatura e un rapporto segnale-rumore minimo di 20. I file *.txt sono esportati in un file server per l’ulteriore elaborazione da parte dell’algoritmo. L’algoritmo vocBinBase è compatibile con le versioni del software ChromaTOF dalla 2.32 alla versione attuale, 4.33.

Convalida spettrale

Dopo aver importato tutti gli spettri deconvoluti di tutti i cromatogrammi di uno studio biologico (*.csv), gli spettri vengono controllati per la presenza e l’abbondanza dello ione unico (rispetto al picco di base), la presenza di tutte le masse apicali (masse che condividono l’intensità massima con il picco massimo dello ione unico), e per il numero di picchi che superano le soglie di intensità apicale. La convalida spettrale è il primo filtro di qualità dei dati; i cromatogrammi con picchi sovraccarichi ed errori di deconvoluzione vengono utilizzati solo per la corrispondenza dei picchi, ma non per la generazione di Bin.

Calcoli dell’indice di ritenzione basati sugli esteri metilici degli acidi grassi

L’algoritmo BinBase per la correzione dell’indice di ritenzione applica prima un filtro del picco di base a tutti gli spettri per individuare i marcatori FAME RI (non vengono utilizzate informazioni sul tempo di ritenzione). Da questo elenco filtrato, il picco FAME con il più alto punteggio di somiglianza spettrale di massa viene utilizzato come punto di riferimento da cui vengono applicate le misure di distanza ai tempi di ritenzione superiori e inferiori per individuare tutti gli altri marcatori RI. Una volta trovati tutti i marcatori FAME richiesti, viene calcolata una curva di correzione utilizzando una regressione lineare per i primi due e gli ultimi due standard e una regressione polinomiale del quinto ordine per gli standard intermedi. La regressione polinomiale viene applicata all’interno dell’intervallo calibrato per tenere conto degli spostamenti assoluti e relativi del tempo di ritenzione, che differiscono dalle regressioni lineari ai tempi di ritenzione iniziali e tardivi. Poiché i polinomi di alto grado hanno scarse prestazioni nell’estrapolazione, la regressione lineare viene utilizzata per estrapolare al di fuori dell’intervallo del marcatore RI. Nel caso in cui non si trovino tutti i marcatori RI precoci e tardivi, la generazione di nuovi Bin è disabilitata, ma la corrispondenza dei Bin esistenti è ancora possibile.

I parametri utilizzati per trovare i marcatori RI per i campioni volatili hanno richiesto modifiche sostanziali da quelli utilizzati negli algoritmi dei metaboliti. È stato necessario ridefinire le impostazioni di corrispondenza e i modelli di picco di base per adattarsi all’estensione dei FAME per includere C4 e C6, così come il cambiamento dell’intervallo m/z da 85-500 a 35-500. Questa estensione dell’intervallo m/z a valori più bassi è assolutamente necessaria per i composti volatili, in quanto non sono TMS-derivati e l’intervallo 35-85 m/z fornisce importanti dati di frammento per aiutare l’identificazione del composto. Per evitare di perdere dati di alta qualità in cui i FAME non erano in specifica, gli algoritmi esistenti sono stati modificati per consentire l’applicazione di una curva di correzione di un campione precedente o successivo acquisito nello stesso giorno al campione in questione. Se non sono stati trovati tali dati RI validi, le finestre di ricerca sono state estese fino a dieci giorni; altrimenti, viene generata una curva parziale utilizzando i marcatori RI trovati nel campione solitario. In tutti questi casi, la generazione di Bin è disabilitata, ma tutti i Bin esistenti vengono assegnati.

Annotazione dei picchi da parte dell’algoritmo BinBase

I metadati ChromaTOF utilizzati nell’annotazione dei picchi da parte dell’algoritmo BinBase includono la similarità spettrale di massa, la purezza dei picchi (una stima del numero, della vicinanza e della similarità dei picchi co-eluenti), l’indice di ritenzione, il rapporto segnale/rumore, lo ione unico, gli ioni apice e il rapporto massa unica/ picco base. I metadati aggiuntivi riportati dal software ChromaTOF (ad es. altezza del picco, area %) non vengono utilizzati dall’algoritmo. Dopo la correzione RI (descritta sopra), gli spettri vengono annotati in modo sequenziale per intensità di picco decrescente. Per un dato picco, l’algoritmo imposta una finestra RI (± 2.000 unità RI FAME, ~ 2 sec) e utilizza un filtro di corrispondenza degli ioni unici per abbinare lo ione unico o gli ioni apicali del picco deconvoluto per generare un elenco di possibili assegnazioni Bin. Con solo questi due parametri, si ottiene un alto grado di filtraggio. Per esempio, un composto con un valore FAME RI di 446700 e lo ione unico m/z 93, i vincoli del filtro RI riducono il numero di confronti degli spettri di massa da 1.537 voci a otto potenziali successi. Il vincolo dello ione unico riduce ulteriormente le possibili corrispondenze Bin da otto risultati a due candidati (Figura 3). Solo in questa fase viene applicato un filtro di similarità spettrale di massa, che utilizza soglie variabili basate sul rapporto segnale-rumore del picco e sulla purezza del picco. Un picco abbondante e ben risolto richiede un punteggio di somiglianza spettrale di massa più alto per un’annotazione di successo rispetto a un picco piccolo o co-eluttivo.

Figura 3
figura3

Esempio che dimostra l’algoritmo di filtraggio. I dati volatili raccolti dallo spazio di testa di una foglia d’arancia ferita sono complessi (A) e la deconvoluzione spettrale è necessaria per risolvere i picchi sovrapposti. Un overlay di 7 dei 465 profili di eluizione di massa misurata (m/z 93, 111, 114, 115, 132, 136, 150) è mostrato da 400-412 secondi (B). Gli spettri di massa deconvoluti e i metadati dei picchi sono inseriti nell’algoritmo. I primi due filtri utilizzano le informazioni RI e le informazioni sullo ione unico. Questi sono molto efficaci nel restringere le possibilità di corrispondenza del database, come mostrato per il picco n. 122 (C).

In effetti, è possibile definire soglie diverse per ogni parametro per i diversi picchi. Nell’esempio illustrato sopra (Figura 3), il picco è ragionevolmente puro (purezza del picco = 0,1137) e un alto punteggio di similarità spettrale di massa è richiesto per la corrispondenza Bin. Sulla base di questi criteri di filtraggio finale e dei punteggi di similarità spettrale di massa per il linalolo (917) e il terpinolene (<500), l’assegnazione finale del composto in questo esempio è il linalolo. In questo particolare esempio, ci sono, infatti, tre Bin all’interno della finestra di unità FAME RI ± 2000, due dei quali hanno un valore unico dello ione di m/z 93. Questo secondo Bin con lo ione unico m/z 93 è, infatti, il terpinolene.

A questo punto dell’annotazione, potrebbe rimanere più di un’assegnazione Bin (ad esempio, stereoisomeri che potrebbero eluire all’interno della finestra RI di ricerca). L’isomero con la RI più vicina viene quindi annotato, a meno che un Bin alternativo abbia un punteggio di somiglianza significativamente maggiore. Gli spettri che vengono filtrati dal filtro isomero potrebbero ancora essere in grado di corrispondere ad altri Bin vicini e quindi vengono reinseriti nell’algoritmo di annotazione.

Generazione di nuovi Bin – monitoraggio di composti sconosciuti

Nel caso in cui lo spettro non corrisponda a un Bin esistente, l’algoritmo BinBase genera un nuovo Bin se vengono soddisfatti criteri specifici e molto rigorosi. In primo luogo, lo spettro in questione deve superare severe soglie di qualità spettrale di massa basate sulla purezza (valore di purezza < 1.0) e l’intensità (S/N > 25). Le soglie per il filtro spettrale di massa che genera il Bin sono più severe di quelle per il filtro di somiglianza per garantire che solo gli spettri abbondanti e puri diventino nuovi Bin. In secondo luogo, un potenziale nuovo Bin deve superare un filtro di classe sperimentale prima di essere convalidato. Questo filtro richiede che un nuovo Bin sia rilevato in almeno l’80% di tutti i campioni di una classe sperimentale, al fine di garantire la sua identità come un volatile genuino e non un contaminante spurio. Tutti i Bin del database sono stati generati dall’algoritmo come descritto dai dati raccolti negli esperimenti di laboratorio e sul campo.

Post-matching e sostituzioni

Una volta che tutti gli spettri di tutte le classi sperimentali sono stati annotati, viene compilata una lista completa di Bin che include tutti i Bin trovati nell’esperimento. Poi tutti gli spettri vengono nuovamente confrontati con l’elenco Bin (post-matching) in modo che tutti i Bin, compresi quelli di nuova generazione, vengano cercati in tutti i campioni. In questa fase, gli spettri nei campioni che non hanno superato le soglie MS più rigorose richieste per la generazione di Bin possono superare le soglie richieste per l’annotazione Bin.

In alcuni casi un Bin non viene rilevato positivamente in tutti i cromatogrammi o perché è assente o è poco abbondante (vero negativo), o è presente ma i criteri di qualità non sono sufficienti per consentire l’assegnazione (falso negativo). Questo si traduce in un valore zero nella matrice dei dati, che ostacola le successive analisi statistiche. Una strategia è stata ideata e programmata nell’algoritmo per calcolare un valore di sostituzione in questi casi. Per prima cosa l’algoritmo determina il tempo di ritenzione medio per ogni metabolita sulla sequenza analitica calcolando l’indice di ritenzione medio per i campioni e trasformandolo di nuovo nel tempo di ritenzione utilizzando la curva di correzione dell’indice di ritenzione. Successivamente vengono aperti i cromatogrammi grezzi e non elaborati (formati di file MS netCDF o ANDI) e viene riportata l’intensità ionica massima alla traccia ionica di quantificazione selezionata per ogni composto volatile mancante a ±2s intorno al tempo di ritenzione target, meno il rumore di fondo locale per quello ione target a ±5s intorno al tempo di ritenzione target. L’intensità dello ione di fondo sottratto è riportata nella tabella dei risultati con una codifica a colori per indicare i risultati come un’assegnazione “second-pass”. La convalida dell’algoritmo di sostituzione è stata eseguita confrontando le annotazioni manuali dei valori sostituiti nei set di campioni con i valori di sostituzione dell’algoritmo.

vocBinBase Report

Tutti i bin rilevati in almeno l’80% di una classe sperimentale sono inclusi nella cartella dei risultati. Inoltre, la cartella report contiene un file di risultato per tutti i Bin rilevati in almeno il 50% di una classe sperimentale. Il risultato del 50% può essere utilizzato dai ricercatori per integrare il set di dati dell’80% con più metaboliti identificati o per valutare i picchi meno sicuri o rari. Ogni voce nella tabella Bin esportata è riportata come intensità della massa del quantificatore Bin, che è per impostazione predefinita lo ione unico, anche se questo valore può essere modificato manualmente a qualsiasi ione nello spettro dall’amministratore del database. Usiamo le altezze di picco e non le aree di picco per diverse ragioni. Le altezze di picco sono preferibili alle aree di picco per i picchi piccoli, perché le impostazioni della linea di base hanno un impatto maggiore sulle aree di picco per i picchi piccoli rispetto ai picchi più grandi. Inoltre, le altezze di picco basate su ioni unici definiti forniscono una misura più stabile rispetto ad altri parametri come dTIC o TIC, perché per l’analisi di un dato composto in diversi cromatogrammi, il numero e quindi l’intensità combinata degli ioni rilevati differirà, a seconda dell’abbondanza e della purezza del picco.

Tutti i bins esportati dal database vocBinBase sono riportati con un identificatore unico del database, lo ione di quantificazione, il valore dell’indice di ritenzione e lo spettro di massa completo codificato come una stringa (Figura 4). Le voci del database sono nominati utilizzando la biblioteca volatile pianta Adams (descritto di seguito). I composti che non sono di origine vegetale tra cui pesticidi, plastificanti e altri contaminanti sono annotati utilizzando la libreria NIST-RI. Gli artefatti noti relativi allo spurgo della colonna sono annotati in vocBinBase, ma non sono esportati agli utenti nei report dei risultati (m/z 207, 221, 281, 355). Gli amministratori del database possono escludere (o includere) manualmente i picchi nell’elenco dei Bin riportati. Ad esempio, gli artefatti basati su Twister™ sono selezionati manualmente per l’esclusione nelle tabelle dei risultati. Le tabelle dei risultati sono prodotte nei formati XLS e TXT (o XML se necessario). Una volta identificati, i Bin sono anche riportati con il loro nome chimico e l’identificatore PubChem.

Figura 4
figura4

Campione di rapporto vocBinBase che evidenzia le caratteristiche del rapporto. Tutti i Bin esportati dal database vocBinBase sono riportati con un identificatore unico del database, lo ione di quantificazione, l’indice di ritenzione e lo spettro di massa completo codificato come stringa. Le abbondanze dei composti sono riportate come intensità della massa del quantificatore Bin. Le voci del database sono denominate utilizzando la libreria Adams delle piante volatili e gli identificatori PubChem ipercollegati sono inclusi per i composti identificati.

Identificazione Bin

L’identificazione Bin è supportata dalla libreria Adams di spettri di massa e dati di indice di ritenzione per oltre 2.000 componenti volatili vegetali purificati e oli essenziali, verificati per molti composti utilizzando standard autentici nel nostro laboratorio. Prima di caricare la libreria Adams in Bellerophon per la corrispondenza Bin, la libreria è stata convertita dal formato HP Chemstation al formato della libreria NIST tramite il download di Lib2NIST disponibile sul sito web del NIST (http://chemdata.nist.gov). Inoltre, i valori RI Adams basati sugli alcani sono stati convertiti nel loro equivalente RI BinBase FAME. La conversione RI tra le varianti cromatografiche Adams e Fiehn (diversa programmazione della temperatura del forno GC e produttore della colonna) è stata realizzata con un polinomio del 2° ordine e sono riportati in http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Tutti i volatili identificati in vocBinBase sono annotati con gli identificatori chimici PubChem e le chiavi hash InChI che codificano la struttura per consentire riferimenti incrociati ai database chimici e agli strumenti di informazione strutturale.

La qualità della conversione RI è stata testata iniettando standard di riferimento autentici presenti nella libreria Adams sotto parametri operativi standard. Un confronto dei valori calcolati con i valori determinati sperimentalmente per 70 composti di riferimento ha prodotto una correlazione di 0,9995 con un errore standard di 3.380 unità RI (deviazione standard dell’errore residuo, RI calcolato-RI sperimentale). Un confronto tra i valori calcolati e sperimentali per 130 annotazioni della biblioteca Adams ha prodotto valori simili (r2 = 0.9994, SE = 3.320 unità RI). Un grafico della deviazione assoluta RI (RI calcolato-RI sperimentale) per gli standard 70 e 130 annotazioni biblioteca ha rivelato che il 61% dei composti iniettati erano all’interno di un errore standard, e 58% dei composti annotati caduto entro un errore standard del valore calcolato. Vedi il file aggiuntivo 2, figura S2 per i dati grafici.

Contenuto del database

Al momento il database contiene gli spettri di 3.435 campioni che rappresentano 18 specie. Nonostante gli 1,7 milioni di spettri importati e completamente deconvoluti, il database vocBinBase contiene attualmente solo 1537 Bin unici. Di tutti gli spettri importati, il 45% non soddisfa le soglie dell’algoritmo e viene scartato; tali spettri sono rumorosi e inconsistenti. Quanto più basse sono le soglie impostate dagli utenti per il rilevamento dei picchi in ChromaTOF (ad esempio, abbassando i criteri di ricerca dei picchi da s/n>20 a s/n>3), tanto più picchi saranno rilevati. La maggior parte degli spettri dei picchi corrispondenti verrebbe scartata dall’algoritmo BinBase come troppo rumorosa e non sarebbe riportata nei fogli di output. Un tasso simile di scartare gli spettri è stato segnalato dallo strumento SpectConnect che utilizza i dati di deconvoluzione AMDIS di GC-quadrupolo strumenti MS. Con le impostazioni utilizzate qui, il restante 55% degli spettri soddisfare i criteri di qualità e sono annotati e memorizzati nel database (Figura 5). Circa il 12% dei composti annotati sono artefatti di polisilossano derivati da colonne e Twister™; questi artefatti sono annotati dall’algoritmo ma non sono inclusi nei rapporti BinBase esportati per gli utenti. Come descritto in precedenza, le annotazioni si basano su criteri multipli e alcune soglie sono variabili a seconda di vari valori di metadati; la soglia di similarità MS richiesta dipende dall’abbondanza e dalla purezza del picco (ad esempio, un picco di bassa purezza richiede una corrispondenza di similarità MS meno rigorosa). Una piccola percentuale di spettri annotati (4%) è generata da picchi molto puri (purezza <0,15) con alto punteggio di similarità MS, mentre la maggior parte delle voci del database sono generate da picchi puri (purezza<1.5, 46%) o non puri (purezza>1.5, 39%).

Figura 5
figura5

Effetto di filtraggio dell’algoritmo vocBinBase. Gli spettri devono soddisfare più criteri per essere annotati e memorizzati nel database. Il 45% di tutti gli spettri in arrivo non soddisfano i criteri e vengono scartati come rumorosi e inconsistenti. Il restante 55% viene annotato e memorizzato nel database. Il 12% degli spettri annotati sono artefatti da colonna o polisilossano Twister™. Viene mostrata un’ulteriore suddivisione degli spettri annotati in base alla purezza del picco, al s/n e alla somiglianza dello spettro di massa.

Degli attuali 1.537 bin, 211 sono stati identificati come volatili genuini attraverso la corrispondenza dell’indice di ritenzione spettrale di massa. Inoltre, 161 Bins sono stati annotati come artefatti di polisilossano (che quindi non vengono esportati nei fogli dati dei risultati dello studio), e i Bins rimanenti non sono ancora identificati. La visualizzazione del contenuto del database VOC utilizzando la somiglianza spettrale (tutti i Bins) e il coefficiente di somiglianza chimica Tanimoto (Bins identificati) è stata eseguita utilizzando Cytoscape (Figura 6). Il coefficiente di somiglianza di Tanimoto è una metrica di somiglianza che calcola un punteggio che indica il livello di somiglianza tra le molecole confrontate. La panoramica della rete fornisce una rappresentazione visiva delle relazioni tra i 1537 Bin. I composti identificati sono rappresentati da nodi rossi e i composti non identificati da nodi grigi. I nodi raggruppati strettamente insieme sono più simili di quelli con una sola connessione al bordo della rete. I bordi blu collegano i volatili identificati con similarità strutturale maggiore di 700. Si noti che i polisilossani artefatti si raggruppano lontano dai composti, a causa del modello di frammentazione molto particolare. Le regioni della rete con composti identificati (nodi rossi) sono state etichettate con informazioni sulla classe.

Figura 6
figura6

Visualizzazione del contenuto del database vocBinBase. I nodi rossi sono composti identificati, i nodi grigi sono composti non identificati. I bordi blu collegano i volatili identificati con similarità strutturale maggiore di 700.

Lascia un commento