Recogida y análisis de muestras volátiles
Muestreo de compuestos volátiles
Los protocolos de muestreo de compuestos volátiles (elección del sorbente y método de muestreo) son específicos de la identidad del analito y de la fuente de la muestra, y varían ampliamente dependiendo del área de investigación y del enfoque. En la mayoría de nuestros muestreos se ha empleado el TwisterTM (GERSTEL, Inc.), basado en polidimetilsiloxano (PDMS), debido a su gran capacidad, versatilidad (permite la extracción por sorción de espacio de cabeza y por barra de agitación) y facilidad de manejo en el campo (Figura 1A). Los compuestos volátiles capturados por el TwisterTM se desorben térmicamente para su análisis (Figura 1B). Aunque los TwistersTM han sido nuestro principal sorbente hasta la fecha, otros tipos de sorbentes y métodos de muestreo de volátiles (por ejemplo, cartucho empaquetado, SPME, inyecciones directas en el espacio de cabeza y desorción térmica directa) pueden utilizarse y son compatibles con la anotación de datos y la creación de bases de datos Bin.
Marcadores de índice de retención
Los tiempos de retención absolutos (RT) de los picos de GC-MS se desplazan en función de las propiedades de la columna (por ejemplo, el tipo de columna, la edad, la longitud, la relación de fase, el grosor de la película) y con frecuencia se observan diferencias de RT entre las muestras o los tipos de muestras (Figura 1C). Cuando se realizan grandes estudios que abarcan meses o años, o se comparan muchos tipos de muestras diferentes, los cambios de RT son inevitables. Los índices de retención (IR) superan este problema fijando los tiempos de retención de los compuestos eluidos en posiciones fijas definidas por los compuestos marcadores introducidos en la muestra. Muestras muy diferentes pueden ser compiladas en una base de datos durante años con el uso de marcadores RI.
El algoritmo vocBinBase requiere la adición de compuestos marcadores RI a todas las muestras para las correcciones RI. Utilizamos ésteres metílicos de ácidos grasos (FAMEs) como marcadores de RI en lugar de los clásicos alcanos de cadena recta (Kovats RI) porque los FAMEs presentan patrones de fragmentos de ionización de electrones (EI) (especialmente en valores altos de m/z) más adecuados para una detección inequívoca y automatizada. Para evitar la confusión entre los valores de RI basados en los FAME y los valores de RI basados en Kovats (número de carbono * 100), hemos adoptado un valor unitario distintivo y los valores de RI de los FAME oscilan entre 262.214 para el FAME C4 y 980.934 para el FAME C24. Como referencia, los valores de RI correspondientes a los alcanos para los FAMEs C4 y C24 son 726 y 2712, respectivamente. Tanto los FAMEs como los alcanos son volátiles naturales, por lo que la adición de la mezcla RI impedirá la detección de los compuestos marcadores específicos añadidos a menos que se utilicen marcadores RI marcados isotópicamente.
La mezcla RI para muestras volátiles incluye FAMEs de longitudes de cadena de carbono lineal C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22 y C24. Se prepara una mezcla madre en cloruro de metileno con concentraciones finales de FAME de 5 mg/mL (C4), 1,5 mg/mL (C20, C22, C24), 1,2 mg/mL (C6, C8), 0,8 mg/mL (C9, C16, C18) y 0,4 mg/mL (C14-C18). Esta solución madre de FAME se diluye 200 veces en propionato de metilo antes de su uso. La mezcla FAME RI de trabajo se introduce externamente en el Twister™ en capilares de 0,5 uL. Los capilares se llenan con la solución FAME RI y luego se colocan junto al Twister™ en un tubo de transporte TDU con fondo de frita para la desorción térmica (Figura 1B). A continuación se muestran los cromatogramas que ilustran la naturaleza cuadriculada de los marcadores FAME RI en una muestra de volátiles de hojas de cítricos a la que se le aplicó el método capilar (Figura 1D).
Instrumentación
Los análisis de muestras volátiles se realizan en un GC 6890 (Agilent Technologies, Santa Clara, CA) equipado con una unidad de desorción térmica (TDU, GERSTEL, Inc, Muehlheim, Alemania), una entrada de sistema de inyección criogénica (CIS4, GERSTEL, Inc.) y un muestreador robótico (MPS2, GERSTEL, Inc.) conectado al espectrómetro de masas de tiempo de vuelo Pegasus IV (Leco, St. Joseph, MI).
Parámetros de desorción térmica e inyector
Los Twisters expuestos se desorben térmicamente en la TDU en modo splitless (caudal de 50 mL/min, modo de ventilación del disolvente) a una temperatura inicial de 30°C, con rampa hasta 250°C a una velocidad de 12°C/seg, y luego se mantienen a la temperatura final durante 3 min. Los analitos desorbidos se criofocalizan en la entrada del CIS4 con nitrógeno líquido (-120°C). Después de la desorción, la entrada se calienta de -120 a 260°C a una velocidad de 12°C/s y se mantiene a 260°C durante 3 minutos.
Configuraciones de GC-TOF-MS
Las configuraciones y la programación de los instrumentos de GC-TOF-MS se definen en procedimientos operativos estándar para producir datos que puedan ser auto-anotados y compilados a través de estudios. La separación cromatográfica se realiza en una columna Rtx-5SilMS con una columna de guarda integrada de 10 m . El programa de temperatura del horno de GC es el siguiente: temperatura inicial de 45 °C con una retención de 2 minutos, seguida de una rampa de 20 °C/min hasta 300 °C con una retención de 2 minutos, seguida de una rampa de 20 °C/min hasta 330 °C con una retención de 0,5 minutos. El flujo de gas portador (99,9999% He) se mantiene constante a 1 mL/min. La temperatura de la línea de transferencia entre el cromatógrafo de gases y el espectrómetro de masas es de 280°C. Los espectros de masas se adquieren a 25 espectros/seg con un rango de masas de 35-500 m/z. El voltaje del detector se fija en 1800 V y la energía de ionización en 70 eV. La temperatura de la fuente de iones es de 250°C.
Construcción de la base de datos Binbase
Estructura de la base de datos
El código de BinBase fue desarrollado en Java y Groovy, y está basado completamente en software de código abierto. BinBase emplea una arquitectura de software de varias capas (Figura 2). El núcleo de BinBase es una base de datos SQL que almacena los espectros de masas (generados durante el análisis de la muestra), los resultados del análisis y los datos en caché (para mejorar la velocidad). El clúster, el servidor de aplicaciones y Bellerophon acceden al contenido de la base de datos mediante Java Database Connectivity (JDBC). Este acceso se encapsula mediante Enterprise JavaBeans (EJB) y el marco de mapeo de objetos Hibernate. La configuración central de BinBase se almacena en el servidor de aplicaciones, que también alberga servicios basados en EJB, WSDL (lenguaje de descripción de servicios web), componentes JMS (servicio de mensajería de Java) y JMX (extensiones de gestión de Java); todos ellos conforman la interfaz de comunicación de BinBase (BCI). Estos EJBs proporcionan una interfaz a la base de datos y permiten que otros programas Java accedan a la base de datos, consulten datos e inicien cálculos de una manera definida y restringida. La capa de persistencia y mapeo de objetos de Hibernate permite la ejecución de consultas complejas de forma sencilla e intuitiva y es utilizada principalmente por Bellerophon, la interfaz gráfica de usuario (GUI) de administración de BinBase (véase más adelante). Se añadió una capa de servicio WSDL para superar las limitaciones de EJB, de modo que se pueda acceder a BinBase desde la mayoría de los lenguajes de programación. Internamente, la capa de servicio WSDL también se utiliza para todos los frontales web y las comunicaciones con SetupX/MiniX. Los componentes JMX se utilizan para configurar todo el sistema en una ubicación central y supervisar las propiedades del sistema. El módulo BCI desempeña un papel clave en la seguridad del sistema, limitando el acceso de los usuarios a determinados servicios en función de la dirección IP y la contraseña, y evitando los ataques de denegación de servicio (DoS) o los ataques de inyección SQL.
Requisitos de instalación de la base de datos BinBase
El sistema BinBase requiere una arquitectura basada en el clúster Linux Rocks para calcular los datos espectrales de masas. Esto se establece mínimamente con un sistema formado por dos ordenadores personales (PC) estándar. El primer PC almacena los datos (archivos *.netcdf,*.txt y contenido de la base de datos), proporciona acceso a las páginas web y mantiene la cola de cálculo. El segundo PC realiza los cálculos. Una unidad central de procesamiento (CPU) de doble núcleo a 2 GHz y 4 GB de RAM son suficientes para cada uno de estos PC si la carga de cálculos no supera varios cientos de muestras al día. Debido a su función de almacenamiento de datos, el primer PC requiere 1-2 TB de almacenamiento y dos tarjetas de red de 1 GB. Un disco duro más pequeño (200 GB) y una sola tarjeta de red son suficientes para el segundo PC. Nuestra configuración actual en el Centro del Genoma’ cada uno y un nodo principal con una matriz de almacenamiento basada en discos de estado sólido para mejorar el acceso a la base de datos.
La base de datos BinBase está disponible para el público bajo la licencia LGPL 2.0 (http://binbase.sourceforge.net), y es accesible utilizando diferentes front-ends web y aplicaciones de cliente ricas, así como una capa de servicio web. La documentación necesaria para la instalación y administración del sistema también se encuentra en este sitio web.
Bellerophon
La interfaz gráfica de usuario front-end (GUI) Bellerophon es la herramienta de administración central para BinBase y se utiliza para la gestión de contenedores, la navegación por la base de datos y la configuración del índice de retención. Bellerophon es una aplicación de plataforma de cliente rico (RCP) basada en Eclipse 3 SWT. Incluye capacidades de visualización basadas en JFreeChart y soporta consultas a la base de datos a través de un marco Hibernate. El marco Hibernate admite la asignación de tablas de la base de datos a objetos. Las tablas SWT dinámicas y las visualizaciones se crean a partir de estos objetos a través de Java Reflection-API y XDoclet.
SetupX
SetupX es una base de datos de diseño de estudios cuyas funciones principales incluyen la captura de metadatos experimentales para la generación de clases, la aleatorización y la programación de secuencias GC-TOF-MS, y el almacenamiento de datos GC-TOF-MS anotados junto con todos los demás archivos de datos relacionados con un experimento (por ejemplo, fotografías, hojas de cálculo de ensayos, otros archivos de datos instrumentales). Los detalles sobre la estructura de SetupX se han descrito. Hemos desarrollado una versión más sencilla de esta base de datos, MiniX. Las solicitudes de anotaciones de BinBase por parte del usuario a través del sitio web de MiniX activan la función de exportación de BinBase de MiniX mediante EJB y JMS. Además, BinBase solicita información de clases experimentales a MiniX a través de EJB. MiniX es un proyecto de código abierto y se puede descargar e instalar bajo la licencia LGPL 2.0 (http://code.google.com/p/minix/).
algoritmo de filtrado vocBinBase
El algoritmo vocBinBase toma los espectros deconvolutados y los metadatos proporcionados por el software Leco ChromaTOF, así como la información de la muestra de la base de datos de diseño del estudio SetupX/MiniX, y aplica un sistema de filtrado de varios niveles que, o bien anota los espectros en las entradas existentes de la base de datos (‘Bins’) crea y añade nuevos Bins a la base de datos si se cumplen todos los criterios de calidad, o descarta los espectros de baja calidad para mantener la integridad de la base de datos (véase el archivo adicional 1, figura S1). Cada entrada de la base de datos o «Bin» representa un compuesto único que ha coincidido con todos los umbrales espectrales de masas, instrumentales y de metadatos de clase. Los Bins se definen mínimamente por las siguientes propiedades: espectro de masas, índice de retención (RI), masa de cuantificación, lista de masas únicas y un número identificador único.
Preprocesamiento de datos
Los datos crudos son preprocesados por el software Leco ChromaTOF y almacenados como archivos *.peg específicos de ChromaTOF, resultados genéricos *.txt y como archivos genéricos ANDI MS *.cdf. Los parámetros de procesamiento de datos de ChromaTOF (v. 2.32) especificados en los pasos de preprocesamiento incluyen el ajuste de la línea de base justo por encima del ruido (valor = 1), sin suavizado y con una relación señal/ruido mínima de 20. Los archivos *.txt se exportan a un servidor de archivos para su posterior procesamiento por el algoritmo. El algoritmo vocBinBase es compatible con las versiones del software ChromaTOF desde la 2.32 hasta la versión actual, la 4.33.
Validación espectral
Tras importar todos los espectros desconvolutados de todos los cromatogramas de un estudio biológico (formato *.csv), se comprueba en los espectros la presencia y abundancia del ion único (en relación con el pico base), la presencia de todas las masas del vértice (masas que comparten la intensidad máxima con el pico máximo del ion único) y el número de picos que superan los umbrales de intensidad del vértice. La validación espectral es el primer filtro de calidad de los datos; los cromatogramas con picos sobrecargados y errores de deconvolución se utilizan sólo para la coincidencia de picos, pero no para la generación de Bin.
Cálculos del índice de retención basados en ésteres metílicos de ácidos grasos
El algoritmo BinBase para la corrección del índice de retención aplica primero un filtro de picos base a todos los espectros para localizar los marcadores FAME RI (no se utiliza información de tiempo de retención). A partir de esta lista filtrada, el pico FAME con la mayor puntuación de similitud espectral de masas se utiliza como punto de referencia a partir del cual se aplican medidas de distancia a los tiempos de retención superiores e inferiores para localizar todos los demás marcadores RI. Una vez encontrados todos los marcadores FAME necesarios, se calcula una curva de corrección utilizando una regresión lineal para los dos primeros y los dos últimos estándares y una regresión polinómica de quinto orden para los estándares intermedios. La regresión polinómica se aplica dentro del rango calibrado para tener en cuenta los desplazamientos absolutos y relativos del tiempo de retención, que difieren de las regresiones lineales en los tiempos de retención tempranos y tardíos. Como los polinomios de alto grado se comportan mal en la extrapolación, la regresión lineal se utiliza para extrapolar fuera del rango del marcador RI. En el caso de que no se encuentren todos los marcadores de RI de elución temprana y tardía, se desactiva la generación de nuevos Bins, pero el emparejamiento de los Bins existentes sigue siendo viable.
Los parámetros utilizados para encontrar los marcadores RI para las muestras volátiles requirieron una modificación sustancial de los utilizados en los algoritmos de metabolitos. Hubo que redefinir los ajustes de coincidencia y los patrones de picos base para acomodar la ampliación de los FAMEs para incluir C4 y C6, así como el cambio en el rango de m/z de 85-500 a 35-500. Esta ampliación del rango de m/z a valores más bajos es absolutamente necesaria para los compuestos volátiles, ya que no están derivados del TMS y el rango de 35-85 m/z proporciona importantes datos de fragmentos para ayudar a la identificación de los compuestos. Para evitar la pérdida de datos de alta calidad en los que los FAMEs no estaban en la especificación, se modificaron los algoritmos existentes para permitir la aplicación de una curva de corrección de una muestra anterior o posterior adquirida el mismo día a la muestra en cuestión. Si no se encontraban tales datos de RI válidos, se ampliaban las ventanas de búsqueda hasta diez días; en caso contrario, se generaba una curva parcial utilizando los marcadores de RI encontrados en la muestra solitaria. En todos estos casos, se desactiva la generación de Bin, pero se asignan todos los Bins existentes.
Anotación de picos por el algoritmo BinBase
Los metadatos de ChromaTOF utilizados en la anotación de picos por el algoritmo BinBase incluyen la similitud espectral de masas, la pureza de los picos (una estimación del número, la proximidad y la similitud de los picos coeluyentes), el índice de retención, la relación señal/ruido, el ion único, los iones del ápice y la relación masa única/pico base. El algoritmo no utiliza los metadatos adicionales notificados por el software ChromaTOF (por ejemplo, altura de los picos, porcentaje de área). Tras la corrección de RI (descrita anteriormente), los espectros se anotan secuencialmente por intensidad de pico decreciente. Para un pico determinado, el algoritmo establece una ventana de RI (± 2.000 unidades de RI de FAME, ~2 segundos) y utiliza un filtro de coincidencia de iones únicos para hacer coincidir el ion único o los iones de vértice del pico deconvolucionado para generar una lista de posibles asignaciones de Bin. Con sólo estos dos parámetros se consigue un alto grado de filtrado. Por ejemplo, un compuesto con un valor FAME RI de 446700 y el ion único m/z 93, las restricciones del filtro RI reducen el número de comparaciones de espectros de masas de 1.537 entradas a ocho aciertos potenciales. La restricción del ion único reduce aún más las posibles coincidencias de Bin de ocho aciertos a dos candidatos (Figura 3). Sólo en esta etapa se aplica un filtro de similitud de espectros de masas, que utiliza umbrales variables basados en la relación señal-ruido de los picos y en la pureza de los mismos. Un pico abundante y bien resuelto requiere una puntuación de similitud espectral de masas más alta para una anotación satisfactoria que un pico pequeño o coeluyente.
En efecto, se pueden definir diferentes umbrales para cada parámetro para diferentes picos. En el ejemplo ilustrado anteriormente (Figura 3), el pico es razonablemente puro (pureza del pico = 0,1137) y se requiere una alta puntuación de similitud espectral de masas para la coincidencia de Bin. Basándose en estos criterios finales de filtrado y en las puntuaciones de similitud espectral de masas para el linalol (917) y el terpinoleno (<500), la asignación final del compuesto en este ejemplo es el linalol. En este ejemplo concreto, hay, de hecho, tres Bins dentro de la ventana de la unidad FAME RI de ± 2000, dos de los cuales tienen un valor iónico único de m/z 93. Esta segunda bandeja con el ion único m/z 93 es, de hecho, terpinoleno.
En esta fase de la anotación, puede quedar más de una asignación de bandeja (por ejemplo, estereoisómeros que podrían eluir dentro de la ventana de RI de búsqueda). El isómero con la mayor coincidencia de RI se anota entonces, a menos que un Bin alternativo tenga una puntuación de similitud significativamente mayor. Los espectros que se filtran en el filtro de isómeros aún pueden coincidir con otros Bins vecinos y, por lo tanto, se vuelven a introducir en el algoritmo de anotación.
Generación de nuevos Bin – seguimiento de compuestos desconocidos
En el caso de que el espectro no coincida con un Bin existente, el algoritmo de BinBase genera un nuevo Bin si se cumplen criterios específicos y muy estrictos. En primer lugar, el espectro en cuestión debe superar unos estrictos umbrales de calidad espectral de masas basados en la pureza (valor de pureza < 1,0) y la intensidad (S/N > 25). Los umbrales para el filtro espectral de masas generador de Bins son más estrictos que los del filtro de similitud para garantizar que sólo los espectros abundantes y puros se conviertan en nuevos Bins. En segundo lugar, un nuevo Bin potencial debe pasar un filtro de clase experimental antes de ser validado. Este filtro exige que un nuevo Bin se detecte en al menos el 80% de todas las muestras de una clase experimental para asegurar su identidad como un volátil genuino y no un contaminante espurio. Todos los Bins de la base de datos fueron generados por el algoritmo tal y como se ha descrito a partir de los datos recogidos en los experimentos de laboratorio y de campo.
Post-emparejamiento y sustituciones
Una vez que se han anotado todos los espectros de todas las clases experimentales, se compila una lista completa de Bins que incluye todos los Bins encontrados en el experimento. A continuación, todos los espectros se cotejan de nuevo con la lista de Bins (post-matching) para que todos los Bins, incluyendo cualquier Bins recién generado, se busquen en todas las muestras. En este paso, los espectros de las muestras que no pasaron los umbrales de MS más estrictos requeridos para la generación de Bins pueden pasar los umbrales requeridos para la anotación de Bins.
En algunos casos un Bin no se detecta positivamente en todos los cromatogramas ya sea porque está ausente o es poco abundante (verdadero negativo), o está presente pero los criterios de calidad no son suficientes para permitir la asignación (falso negativo). Esto daría lugar a un valor cero en la matriz de datos, lo que dificulta los análisis estadísticos posteriores. Se ha ideado y programado una estrategia en el algoritmo para calcular un valor de sustitución en estos casos. En primer lugar, el algoritmo determina el tiempo de retención medio de cada metabolito a lo largo de la secuencia analítica calculando el índice de retención medio de las muestras y transformándolo de nuevo en tiempo de retención mediante la curva de corrección del índice de retención. A continuación, se abren los cromatogramas sin procesar (formatos de archivo netCDF o ANDI MS) y se informa de la intensidad máxima de iones en la traza de iones de cuantificación seleccionada para cada compuesto volátil que falte en ±2s alrededor del tiempo de retención objetivo, menos el ruido de fondo local para ese ion objetivo en ±5s alrededor del tiempo de retención objetivo. La intensidad del ion sustraído del fondo se presenta en la tabla de resultados con un código de colores para indicar los resultados como una asignación de «segunda pasada». La validación del algoritmo de reemplazo se llevó a cabo comparando las anotaciones manuales de los valores reemplazados en los conjuntos de muestras con sus valores de reemplazo del algoritmo.
Informe de la base de datos de recipientes
Todos los recipientes detectados en al menos el 80% de una clase experimental se incluyen en la carpeta de informe de resultados. Además, la carpeta de informes contiene un archivo de resultados para todos los Bins detectados en al menos el 50% de una clase experimental. El resultado del 50% puede ser utilizado por los investigadores para complementar el conjunto de datos del 80% con más metabolitos identificados o para evaluar los picos menos seguros o raros. Cada entrada en la tabla Bin exportada se reporta como la intensidad de la masa del cuantificador Bin, que es por defecto el ion único, aunque este valor puede ser cambiado manualmente a cualquier ion en el espectro por el administrador de la base de datos. Utilizamos las alturas de los picos y no las áreas de los picos por varias razones. Las alturas de los picos son preferibles a las áreas de los picos para los picos pequeños, porque los ajustes de la línea de base afectan más a las áreas de los picos pequeños que a los picos más grandes. Además, las alturas de pico basadas en iones únicos definidos proporcionan una medida más estable que otros parámetros como dTIC o TIC, porque para analizar un compuesto dado en diferentes cromatogramas, el número y, por tanto, la intensidad combinada de los iones detectados diferirá, dependiendo de la abundancia y pureza del pico.
Todos los Bins exportados por la base de datos vocBinBase se reportan con un identificador único de la base de datos, el ion de cuantificación, el valor del índice de retención y el espectro de masas completo codificado como una cadena (Figura 4). Las entradas de la base de datos se nombran utilizando la biblioteca de volátiles de plantas de Adams (descrita a continuación). Los compuestos que no son de origen vegetal, incluidos los pesticidas, los plastificantes y otros contaminantes, se anotan utilizando la biblioteca NIST-RI. Los artefactos conocidos relacionados con el sangrado de la columna se anotan en vocBinBase, pero no se exportan a los usuarios en los informes de resultados (m/z 207, 221, 281, 355). Los administradores de la base de datos pueden excluir (o incluir) manualmente los picos en la lista de Bins informados. Por ejemplo, los artefactos basados en Twister™ se seleccionan manualmente para su exclusión en las tablas de resultados. Las hojas de datos de resultados se producen como formatos XLS y TXT (o XML si es necesario). Una vez identificados, los Bins también se reportan con su nombre químico e identificador PubChem.
Identificación de Bin
La identificación de Bin se apoya en la biblioteca de Adams de espectros de masas y datos de índices de retención para más de 2.000 volátiles de plantas purificadas y componentes de aceites esenciales, verificados para muchos compuestos utilizando estándares auténticos en nuestro laboratorio. Antes de cargar la biblioteca Adams en Bellerophon para el cotejo de Bin, la biblioteca se convirtió del formato HP Chemstation al formato de biblioteca NIST mediante la descarga Lib2NIST disponible en el sitio web del NIST (http://chemdata.nist.gov). Además, los valores de RI de Adams basados en el alcano se convirtieron a su equivalente de RI de BinBase FAME. La conversión de RI entre las variantes cromatográficas de Adams y Fiehn (diferente programación de la temperatura del horno de GC y fabricante de la columna) se realizó con un polinomio de 2º orden y se indican en http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Todos los volátiles identificados en vocBinBase están anotados con identificadores químicos PubChem y claves hash InChI de codificación de estructuras para permitir las referencias cruzadas a las bases de datos de química y a las herramientas de información estructural.
La calidad de la conversión de RI se probó inyectando estándares de referencia auténticos presentes en la biblioteca de Adams bajo parámetros operativos estándar. Una comparación de los valores calculados con los valores determinados experimentalmente para 70 compuestos de referencia arrojó una correlación de 0,9995 con un error estándar de 3,380 unidades de RI (desviación estándar del error residual, RIcalculado-RIexperimental). Una comparación de los valores calculados y experimentales para 130 anotaciones de la biblioteca Adams arrojó valores similares (r2 = 0,9994, SE = 3,320 unidades de RI). Un gráfico de la desviación absoluta de RI (RIcalculado-RIexperimental) para los 70 estándares y 130 anotaciones de la biblioteca reveló que el 61% de los compuestos inyectados estaban dentro de un error estándar, y el 58% de los compuestos anotados cayeron dentro de un error estándar del valor calculado. Véase el archivo adicional 2, figura S2 para los datos graficados.
Contenido de la base de datos
Actualmente la base de datos contiene espectros de 3.435 muestras que representan 18 especies. A pesar de los 1,7 millones de espectros importados, completamente deconvolutos, la base de datos vocBinBase actualmente sólo contiene 1537 Bins únicos. De todos los espectros importados, el 45% no cumple los umbrales del algoritmo y se descarta; estos espectros son ruidosos e inconsistentes. Cuanto más bajos sean los umbrales establecidos por los usuarios para la detección de picos en ChromaTOF (por ejemplo, reduciendo los criterios de búsqueda de picos de s/n>20 a s/n>3), más picos se detectarían. La mayoría de los espectros de picos correspondientes serían descartados por el algoritmo BinBase por ser demasiado ruidosos y no se informarían en las hojas de salida. La herramienta SpectConnect, que emplea los datos de deconvolución AMDIS de los instrumentos de GC-cuadrupolo MS, informó de una tasa similar de descarte de espectros. Con la configuración utilizada aquí, el 55% restante de los espectros cumplen los criterios de calidad y se anotan y almacenan en la base de datos (Figura 5). Aproximadamente el 12% de los compuestos anotados son artefactos de polisiloxano derivados de columnas y Twister™; estos artefactos son anotados por el algoritmo pero no se incluyen en los informes de BinBase exportados para los usuarios. Como se ha descrito anteriormente, las anotaciones se basan en múltiples criterios y ciertos umbrales son variables en función de diversos valores de metadatos; el umbral de similitud de EM requerido depende de la abundancia y la pureza del pico (por ejemplo, un pico de baja pureza requiere una coincidencia de similitud de EM menos estricta). Un pequeño porcentaje de los espectros anotados (4%) son generados por picos muy puros (pureza <0,15) con una alta puntuación de similitud MS, mientras que la mayoría de las entradas de la base de datos son generadas por picos puros (pureza<1.5, 46%) o picos no puros (pureza>1,5, 39%).
De los actuales 1.537 Bins, 211 han sido identificados como volátiles genuinos a través de la coincidencia del índice de retención del espectro de masas. Además, 161 Bins fueron anotados como artefactos de polisiloxano (que, por lo tanto, no se exportan a las hojas de datos de resultados del estudio), y los Bins restantes aún no han sido identificados. La visualización del contenido de la base de datos de COV utilizando la similitud espectral (todos los Bins) y el coeficiente de similitud química de Tanimoto (Bins identificados) se realizó utilizando Cytoscape (Figura 6). El coeficiente de similitud de Tanimoto es una métrica de similitud que calcula una puntuación que indica el nivel de similitud entre las moléculas comparadas. La visión general de la red proporciona una representación visual de las relaciones entre los 1537 Bins. Los compuestos identificados se representan con nodos rojos y los no identificados con nodos grises. Los nodos agrupados estrechamente son más similares que los nodos con una sola conexión en el borde de la red. Los bordes azules enlazan los volátiles identificados con una similitud estructural superior a 700. Nótese que los artefactos de polisiloxano se agrupan lejos de los compuestos, debido a un patrón de fragmentación muy distintivo. Las regiones de la red con compuestos identificados (nodos rojos) se han etiquetado con información de clase.