A base de dados binBase de massa espectral composta volátil

Recolha e análise de amostras voláteis

Amostragem de compostos voláteis

Protocolos de amostragem de compostos voláteis (escolha do adsorvente e método de amostragem) são específicos para analisar a identidade e a fonte da amostra, e variam amplamente dependendo da área de pesquisa e do foco. A maioria de nossa amostragem tem empregado o TwisterTM (GERSTEL, Inc.) baseado em polidimetilsiloxano (PDMS) devido a sua alta capacidade, versatilidade (tanto o headspace como os modos de extração sortiva por barra de agitação possíveis) e facilidade de manuseio em campo (Figura 1A). Os compostos voláteis capturados pelo TwisterTM são dessorados termicamente para análise (Figura 1B). Embora o TwisterTM tenha sido nosso sorvente primário até a data, outros tipos de sorventes e métodos de amostragem voláteis (por exemplo cartucho embalado, SPME, injeções diretas de headspace e dessorção térmica direta) podem ser usados e são compatíveis com a anotação de dados e banco de dados Bin.

>

Figure 1
>

figure1

Compostos voláteis são capturados usando a tecnologia Twister™ e detectados pelo GC-TOF-MS com uma grelha de índice de retenção baseada em FAME com tempo variável. (A) Coleta de amostras. Os compostos voláteis são aprisionados em PDMS revestidos com 1 cm de comprimento Twisters™. (Figura fornecida por GERSTEL, Inc.). (B) Esquema de instrumentação de aquisição de dados (não à escala). Os Twisters™ expostos são transferidos para tubos de transporte de vidro juntamente com uma solução externa de marcadores de índice de retenção (ésteres metílicos de ácidos graxos C4-C26, FAMEs) em capilares de vidro de 0,5 ml. Os voláteis são liberados do Twisters™ em uma unidade de dessorção térmica (TDU). Os voláteis dessorados e FAMEs são reorientados na entrada CIS4 refrigerada a nitrogênio líquido e, em seguida, re-volatilizados para separação em rampa de temperatura em uma coluna de cromatografia gasosa (GC) para detecção do tempo de ionização eletrônica da espectrometria de massa em voo (TOF MS) e processamento de dados primários no software ChromaTOF. (C) Turnos de tempo de retenção. Durante longos períodos de operação, os tempos de retenção absoluta (RT) de compostos derivam devido ao uso da coluna. Mostrado aqui é o RT shift para o eicosanoato de metilo (C20 FAME) de seis amostras separadas durante um estudo de dois anos cobrindo 1.500 amostras. Ocorreram turnos de 3 segundos durante um mês de operação, enquanto um turno de 6 segundos foi observado após uma mudança de coluna. (D) Conversão para índice de retenção. A adição de marcadores de índice de retenção FAME (m/z 74, 5 vezes maior, traço azul) a cada perfil volátil (cromatograma total de íons, traço vermelho) estabelece uma grade estável de FAMEs para converter o ‘tempo’ variável em unidades de ‘índice’ invariável. Nenhum outro alinhamento de cromatograma é necessário.

Retenção de marcadores de índice

Tempos de retenção absoluta (RT) dos picos de GC-MS como função das propriedades da coluna (por exemplo, tipo de coluna, idade, comprimento, razão de fase, espessura do filme) e diferenças de RT são frequentemente observadas entre amostras ou tipos de amostra (Figura 1C). Ao realizar grandes estudos que abrangem meses ou anos, ou ao comparar muitos tipos de amostras diferentes, os deslocamentos de RT são inevitáveis. Os índices de retenção (RI) superam este problema bloqueando os tempos de retenção dos compostos eluídos para posições fixas definidas pelos compostos de marcadores perfurados na amostra. Amostras altamente diferentes podem ser compiladas em um banco de dados ao longo dos anos com o uso de marcadores RI.

O algoritmo vocBinBase requer a adição de compostos de marcadores RI a todas as amostras para correções RI. Usamos ésteres metílicos de ácidos graxos (FAMEs) como marcadores RI em vez dos clássicos alcanos de cadeia reta (Kovats RI) porque os FAMEs exibem padrões de fragmentos de ionização eletrônica (EI) (especialmente em altos valores m/z) mais adequados para detecção inequívoca e automatizada. Para evitar confusão entre os valores RI baseados em FAME e os valores RI baseados em Kovats (número de carbono * 100), adotamos um valor unitário distinto e os valores FAME RI variam de 262.214 para FAME C4 a 980.934 para FAME C24. Para referência, os valores RI baseados em alcanos correspondentes para FAMEs C4 e C24 são 726 e 2712, respectivamente. Tanto os FAMEs quanto os alcanos são voláteis naturais, portanto a adição da mistura RI evitará a detecção dos compostos de marcadores específicos adicionados, a menos que sejam usados marcadores RI rotulados isotopicamente.

A mistura RI para amostras voláteis inclui FAMEs de comprimentos lineares de cadeia de carbono C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22, e C24. Uma mistura de caldo é preparada em cloreto de metileno com concentrações finais de FAME de 5 mg/mL (C4), 1,5 mg/mL (C20, C22, C24), 1,2 mg/mL (C6, C8), 0,8 mg/mL (C9, C16, C18) e 0,4 mg/mL (C14-C18). Esta solução de reserva FAME é então diluída 200 vezes em propionato de metilo antes de ser usada. A mistura FAME RI em funcionamento é introduzida externamente no Twister™ em capilares de 0,5 uL. Os capilares são preenchidos com a solução FAME RI e depois colocados ao lado do Twister™ num tubo de transporte de TDU com fundo de frita para dessorção térmica (Figura 1B). Cromatogramas que ilustram a natureza em forma de grade dos marcadores FAME RI em uma amostra volátil de folha cítrica espigada pelo método capilar são mostrados abaixo (Figura 1D).

Instrumentação

Análises de amostra volátil são realizadas em uma 6890 GC (Agilent Technologies, Santa Clara, CA) equipada com uma unidade de dessorção térmica (TDU, GERSTEL, Inc.), Muehlheim, Alemanha), entrada do sistema de injeção refrigerada por crio (CIS4, GERSTEL, Inc.) e amostrador robótico (MPS2, GERSTEL, Inc.) com interface com o espectrômetro de massa de tempo de vôo Pegasus IV (Leco, St. Joseph, MI).

Parâmetros de dessorção térmica e injetores

Amostradores expostos são dessorados termicamente na TDU em modo sem divisão (vazão de 50 mL/min, modo de ventilação por solvente) a uma temperatura inicial de 30°C, ramificado para 250°C a uma taxa de 12°C/seg, e então mantidos à temperatura final por 3 min. Os analitos dessorados são criofocados na entrada CIS4 com nitrogênio líquido (-120°C). Após a dessorção, a entrada é aquecida de -120 a 260°C a uma taxa de 12°C/s e mantida a 260°C durante 3 min.

GC-TOF-MS ajustes

GC-TOF-MS ajustes do instrumento e programação são definidos em procedimentos operacionais padrão a fim de produzir dados que podem ser auto-anotados e compilados através de estudos. A separação cromatográfica é realizada em uma coluna Rtx-5SilMS com uma coluna de guarda integrada de 10 m . O programa de temperatura do forno GC é o seguinte: temperatura inicial de 45°C com 2 min de fixação seguida por uma rampa de 20°C/min até 300°C com 2 min de fixação seguida por uma rampa de 20°C/min até 330°C com 0,5 min de fixação. O fluxo de gás de transporte (99,9999% He) é mantido constante a 1 mL/min. A temperatura da linha de transferência entre o cromatógrafo de gás e o espectrômetro de massa é de 280°C. Os espectros de massa são adquiridos a 25 espectros/seg. com um intervalo de massa de 35-500 m/z. A tensão do detector é ajustada a 1800 V e a energia de ionização a 70 eV. A temperatura da fonte de íons é de 250°C.

Construção da base de dados BinBase

Estrutura da base de dados

O código BinBase foi desenvolvido em Java e Groovy, e é inteiramente baseado em software de código aberto. BinBase emprega uma arquitetura de software com várias camadas (Figura 2). No núcleo do BinBase está um banco de dados em conformidade com SQL que armazena espectros de massa (gerados durante a análise de amostras), resultados de análises e dados em cache (para maior velocidade). O conteúdo da base de dados é acessado pelo cluster, servidor de aplicações e Bellerophon usando o Java Database Connectivity (JDBC). Este acesso é encapsulado pelo Enterprise JavaBeans (EJB) e pelo framework de mapeamento de objetos Hibernate. A configuração central do BinBase é armazenada no Application Server, que também abriga serviços baseados em EJB, WSDL (Web Service Description Language), JMS (Java Messaging Service) e componentes JMX (Java Management Extensions); juntos, eles compreendem a Interface de Comunicação BinBase (BCI). Estes EJBs fornecem uma interface para o banco de dados e permitem que outros programas Java acessem o banco de dados, consultem dados e iniciem cálculos de uma forma definida e restrita. A camada de persistência Hibernate e mapeamento de objetos permite a execução de consultas complexas de forma simples e intuitiva e é utilizada principalmente pela Bellerophon, a interface gráfica de administração do BinBase (GUI) (veja abaixo). Uma camada de serviço WSDL foi adicionada para superar as limitações do EJB de modo que o BinBase possa ser acessado a partir da maioria das linguagens de programação. Internamente, a camada de serviço WSDL também é usada para todos os front-ends da web e comunicações com SetupX/MiniX. Os componentes JMX são usados para configurar todo o sistema em um local central e monitorar as propriedades do sistema. O módulo BCI desempenha um papel fundamental na segurança do sistema ao limitar o acesso do usuário a determinados serviços com base em endereço IP e senha, e ao evitar ataques de negação de serviço (DoS) ou ataques de injeção SQL.

Figure 2
figure2

Arquitectura multi-camadas da base de dados vocBinBase.

Requisitos de instalação da base de dados BinBase

O sistema BinBase requer uma arquitectura baseada em clusters Rocks Linux para calcular dados espectrais de massa. Isto é minimamente estabelecido com um sistema que consiste em dois computadores pessoais padrão (PC’s). O primeiro PC armazena dados (arquivos *.netcdf,*.txt e conteúdo da base de dados), fornece acesso a páginas web e mantém a fila de cálculo. O segundo PC realiza os cálculos. Uma unidade de processamento central (CPU) dual core 2 GHz e 4 GB de RAM são suficientes para cada um destes PCs se a carga de cálculo não exceder várias centenas de amostras por dia. Devido à sua função de armazenamento de dados, o primeiro PC requer 1-2 TB de armazenamento e duas placas de rede de 1 GB. Um disco rígido menor (200 GB) e uma única placa de rede são suficientes para o segundo PC. Nossa configuração atual no Genome Cente’ cada um e um nó de cabeça com uma matriz de armazenamento baseada em disco de estado sólido para melhor acesso ao banco de dados.

O banco de dados BinBase está disponível ao público sob a licença LGPL 2.0 (http://binbase.sourceforge.net), e é acessível usando diferentes front-ends web e aplicativos clientes ricos, bem como uma camada de webservice. A documentação necessária para instalação e administração do sistema também é encontrada neste website.

Bellerophon

A interface gráfica do usuário (GUI) Bellerophon é a ferramenta central de administração do BinBase e é usada para gerenciamento de BinBase, navegação na base de dados e configuração de índice de retenção. Bellerophon é uma aplicação baseada na plataforma cliente rica (RCP) do Eclipse 3 SWT. Ele inclui recursos de visualização baseados no JFreeChart e suporta consultas a bancos de dados através de um framework Hibernate. O framework Hibernate suporta o mapeamento de tabelas de banco de dados para objetos. Tabelas SWT dinâmicas e visualizações são criadas a partir destes objetos via Java Reflection-API e XDoclet.

SetupX

SetupX é um banco de dados de projeto de estudo cujas funções principais incluem a captura de metadados experimentais para geração de classes, randomização e agendamento de seqüências GC-TOF-MS, e armazenamento de dados GC-TOF-MS anotados juntamente com todos os outros arquivos de dados conectados a um experimento (por exemplo, fotografias, planilhas de ensaio, outros arquivos de dados instrumentais). Detalhes sobre a estrutura do SetupX foram descritos. Nós desenvolvemos uma versão mais enxuta desta base de dados, MiniX. Os pedidos do usuário para anotações BinBase através do site MiniX ativam a função de exportação do MiniX BinBase pela EJB e JMS. BinBase adicionalmente solicita informações de classe experimental do MiniX através de EJBs. MiniX é um projeto de código aberto e pode ser baixado e instalado sob a licença LGPL 2.0 (http://code.google.com/p/minix/).

algoritmo de filtragemvocBinBase

O algoritmo vocBinBase pega os espectros e metadados desconvoluídos fornecidos pelo software Leco ChromaTOF, bem como as informações de amostra da base de dados de concepção do estudo SetupX/MiniX e aplica um sistema de filtragem multi-níveis que ou anotam espectros às entradas da base de dados existente (‘Bins’), cria e adiciona novos Bins à base de dados se todos os critérios de qualidade forem cumpridos, ou descarta espectros de baixa qualidade para manter a integridade da base de dados (ver Ficheiro Adicional 1, figura S1). Cada entrada ou “Bin” da base de dados representa um composto único que correspondeu a todos os limites de metadados espectrais de massa, instrumentais e de classe. As caixas são minimamente definidas pelas seguintes propriedades: espectro de massa, índice de retenção (RI), massa de quantificação, lista de massas únicas e um número identificador único.

Pré-processamento de dados

Dados em bruto são pré-processados pelo software Leco ChromaTOF e armazenados como arquivos *.peg específicos do ChromaTOF, resultados *.txt genéricos e como arquivos *.cdf ANDI MS genéricos. Os parâmetros de processamento de dados ChromaTOF (v. 2.32) especificados nos passos de pré-processamento incluem a definição da linha de base imediatamente acima do ruído (valor = 1), sem suavização, e a relação sinal/ruído mínima de 20. Os arquivos *.txt são exportados para um servidor de arquivos para processamento posterior pelo algoritmo. O algoritmo vocBinBase é compatível com as versões 2.32 do software ChromaTOF para a versão atual, 4.33.

Validação espectral

Após a importação de todos os espectros desconvoluídos de todos os cromatogramas de um estudo biológico (*.formato csv), os espectros são verificados quanto à presença e abundância do íon único (em relação ao pico de base), à presença de todas as massas de ápice (massas que compartilham a intensidade máxima com o pico máximo do íon único), e ao número de picos que excedem os limiares de intensidade de ápice. A validação espectral é o primeiro filtro de qualidade de dados; cromatogramas com picos sobrecarregados e erros de desconvolução são usados apenas para correspondência de picos, mas não para geração de Bin.

Cálculos de índice de retenção baseados em ésteres metílicos de ácidos graxos

O algoritmo BinBase para correção de índice de retenção aplica primeiro um filtro de pico base a todos os espectros para localizar os marcadores FAME RI (não é usada informação de tempo de retenção). Dessa lista filtrada, o pico FAME com maior índice de semelhança de massa espectral é usado como ponto de referência a partir do qual as medidas de distância são aplicadas a maiores e menores tempos de retenção para localizar todos os outros marcadores RI. Uma vez encontrados todos os marcadores FAME necessários, uma curva de correção é calculada usando uma regressão linear para os dois primeiros e os dois últimos padrões e uma regressão polinomial da quinta ordem para os padrões no meio. A regressão polinomial é aplicada dentro do intervalo calibrado para contabilizar as mudanças absolutas e relativas do tempo de retenção, que diferem das regressões lineares nos tempos de retenção precoce e tardio. Como os polinómios de alto grau têm um desempenho fraco na extrapolação, a regressão linear é usada para extrapolar fora da faixa do marcador do RI. No caso de não serem encontrados todos os marcadores do RI de entrada e saída precoce e tardia, a geração de novos Bins é desativada, mas a correspondência com os Bins existentes ainda é viável.

Parâmetros usados para encontrar os marcadores RI para amostras voláteis exigiam modificações substanciais em relação aos usados nos algoritmos metabólicos. Configurações de correspondência e padrões de pico base tiveram que ser redefinidos para acomodar a extensão dos FAMEs para incluir C4 e C6, bem como a mudança na faixa m/z de 85-500 para 35-500. Esta extensão do intervalo m/z para valores mais baixos é absolutamente necessária para os compostos voláteis, pois eles não são derivados do TMS e o intervalo 35-85 m/z fornece dados de fragmentos importantes para auxiliar na identificação dos compostos. Para evitar a perda de dados de alta qualidade nos quais FAMEs não estavam em especificação, os algoritmos existentes foram modificados para permitir a aplicação de uma curva de correção de uma amostra anterior ou posterior adquirida no mesmo dia para a amostra em questão. Se não foram encontrados dados RI válidos, as janelas de busca foram estendidas até dez dias; caso contrário, uma curva parcial é gerada usando os marcadores RI encontrados na amostra solitária. Em todos esses casos, a geração de Bin é desativada, mas todos os Bins existentes são atribuídos.

Anotação de pico pelo algoritmo BinBase

Os metadados ChromaTOF usados na anotação de pico pelo algoritmo BinBase incluem similaridade espectral de massa, pureza de pico (uma estimativa do número, proximidade e similaridade de picos de co-eluição), índice de retenção, relação sinal-ruído, íon único, íons de ápice e relação única de pico de massa para base. Metadados adicionais reportados pelo software ChromaTOF (por exemplo, altura de pico, % de área) não são utilizados pelo algoritmo. Após a correção do RI (descrita acima), os espectros são anotados sequencialmente através da diminuição da intensidade dos picos. Para um dado pico, o algoritmo define uma janela RI (± 2.000 unidades FAME RI, ~2 seg) e usa um filtro de correspondência de íons único para corresponder ao íon único ou íons de ápice do pico desconvolutivo para gerar uma lista de possíveis atribuições de Bin. Apenas com estes dois parâmetros, um alto grau de filtragem é alcançado. Por exemplo, um composto com um valor FAME RI de 446700 e o íon único m/z 93, as restrições do filtro RI reduzem o número de comparações de espectros de massa de 1.537 entradas para oito possíveis acertos. A restrição única de íons reduz ainda mais as possíveis comparações de posições de oito para dois candidatos (Figura 3). Apenas nesta fase é aplicado um filtro de similaridade espectral de massa, que utiliza limiares variáveis baseados na relação sinal/ruído de pico e pureza de pico. Um pico abundante e bem resolvido requer um escore de similaridade espectral de massa maior para uma anotação bem sucedida do que um pico pequeno ou co-elutante.

Figure 3
figure3

Exemplo demonstrando o algoritmo de filtragem. Dados voláteis coletados do headspace de uma folha laranja ferida são complexos (A) e a deconvolução espectral é necessária para resolver picos sobrepostos. Uma sobreposição de 7 dos 465 perfis de eluição de massa medida (m/z 93, 111, 114, 115, 132, 136, 150) é mostrada de 400-412 segundos (B). Os espectros de massa desconvoluídos e metadados de pico são alimentados no algoritmo. Os dois primeiros filtros utilizam informações do RI e informações exclusivas sobre íons. Estes são muito eficazes no estreitamento das possibilidades de correspondência da base de dados como mostrado para o Pico #122 (C).

Em efeito, diferentes limiares para cada parâmetro podem ser definidos para diferentes picos. No exemplo ilustrado acima (Figura 3), o pico é razoavelmente puro (pureza de pico = 0,1137) e um escore de similaridade espectral de massa alta é necessário para a correspondência de Bin. Baseado nestes critérios finais de filtragem e nos escores de similaridade espectral de massa para linalol (917) e terpinoleno (<500), a atribuição final do composto neste exemplo é linalol. Neste exemplo em particular, existem, de fato, três Bins dentro da janela da unidade FAME RI ± 2000, dois que têm um valor de íon único de m/z 93. Este segundo Bin com o íon único m/z 93 é, de fato, terpinoleno.

Nesta etapa da anotação, mais de uma atribuição de Bin pode permanecer (por exemplo, estereoisômeros que podem eluir dentro da janela de pesquisa RI). O isômero com o RI correspondente mais próximo é então anotado, a menos que uma lixeira alternativa tenha uma pontuação de similaridade significativamente maior. Os espectros que são filtrados no filtro do isômero ainda podem ser capazes de corresponder a outros Bins vizinhos e, portanto, são alimentados no algoritmo de anotação.

Nova geração de Bin – rastreando compostos desconhecidos

No caso do espectro não corresponder a um Bin existente, o algoritmo BinBase gera um novo Bin se critérios específicos e altamente rigorosos forem atendidos. Primeiro, o espectro em questão deve passar por rigorosos limiares de qualidade espectral de massa baseados na pureza (valor de pureza < 1.0) e intensidade (S/N > 25). Os limiares para o filtro espectral de massa gerador de Bin são mais rigorosos do que aqueles para o filtro de similaridade para garantir que apenas espectros abundantes e puros se tornem novos Bins. Em segundo lugar, um novo Bin em potencial deve passar por um filtro de classe experimental antes de ser validado. Esse filtro exige que um novo silo seja detectado em pelo menos 80% de todas as amostras de uma classe experimental, a fim de garantir sua identidade como um genuíno contaminante volátil e não espúrio. Todas as caixas de banco de dados foram geradas pelo algoritmo conforme descrito a partir de dados coletados em experimentos de laboratório e de campo.

Pós correspondência e substituições

Embora todos os espectros de todas as classes experimentais tenham sido anotados, é compilada uma lista abrangente de caixas incluindo todas as caixas encontradas ao longo do experimento. Em seguida, todos os espectros são novamente comparados com a Bin list (post-matching) para que todos os Bins, incluindo quaisquer Bins recém-gerados, sejam pesquisados em todas as amostras. Nesta etapa, os espectros em amostras que não passaram os limiares mais rigorosos de MS necessários para a geração de Lixeiras podem passar os limiares necessários para a anotação de Lixeiras.

Em alguns casos, uma Lixeira não é detectada positivamente em todos os cromatogramas porque está ausente ou é pouco abundante (verdadeiro negativo), ou está presente, mas os critérios de qualidade não são suficientes para permitir a atribuição (falso negativo). Isso resultaria em um valor zero na matriz de dados, o que dificulta as análises estatísticas subsequentes. Uma estratégia foi concebida e programada no algoritmo para calcular um valor de substituição nestes casos. Primeiro o algoritmo determina o tempo médio de retenção para cada metabolito ao longo da sequência analítica, calculando o índice médio de retenção para as amostras e transformando-o de volta ao tempo de retenção utilizando a curva de correção do índice de retenção. Em seguida, os cromatogramas brutos não processados (netCDF ou formatos de arquivo ANDI MS) são abertos e a intensidade máxima do íon na quantificação seleta do traço de íon para cada composto volátil ausente a ±2s em torno do tempo de retenção alvo é relatada menos o ruído de fundo local para aquele íon alvo a ±5s em torno do tempo de retenção alvo. A intensidade do íon de fundo subtraído é relatada na tabela de resultados com codificação por cores para indicar os resultados como uma atribuição de “segunda passagem”. A validação do algoritmo de substituição foi realizada comparando as anotações manuais dos valores substituídos nos conjuntos de amostras com os seus valores de substituição do algoritmo.

vocBinBase Report

Todos os Bins detectados em pelo menos 80% de uma classe experimental estão incluídos na pasta do relatório de resultados. Adicionalmente, a pasta de relatório contém um arquivo de resultados para todos os Bins detectados em pelo menos 50% de uma classe experimental. O resultado de 50% pode ser usado pelos pesquisadores para complementar o conjunto de dados de 80% com metabolitos mais identificados ou para avaliar os picos menos confiantes ou raros encontrados. Cada entrada na tabela de Bin exportado é relatada como a intensidade da massa quantificadora do Bin, que por padrão é o íon único, embora este valor possa ser alterado manualmente para qualquer íon no espectro pelo administrador do banco de dados. Utilizamos alturas de pico e não áreas de pico por várias razões. Alturas de pico são preferíveis a áreas de pico para picos pequenos, porque as configurações da linha de base impactam mais as áreas de pico para picos pequenos do que para picos maiores. Adicionalmente, alturas de pico baseadas em íons únicos definidos fornecem uma medida mais estável que outros parâmetros como dTIC ou TIC, porque para analisar um dado composto em diferentes cromatogramas, o número e, portanto, a intensidade combinada dos íons detectados será diferente, dependendo da abundância e pureza do pico.

Todos os Bins exportados pela base de dados vocBinBase são relatados com um identificador único da base de dados, o íon de quantificação, o valor do índice de retenção, e o espectro de massa completo codificado como uma string (Figura 4). As entradas da base de dados são nomeadas usando a biblioteca volátil da planta Adams (descrita abaixo). Compostos que não são derivados de plantas, incluindo pesticidas, plastificantes e outros contaminantes são anotados usando a biblioteca NIST-RI. Os artefatos conhecidos relacionados ao sangramento da coluna são anotados em vocBinBase, mas não são exportados para usuários em relatórios de resultados (m/z 207, 221, 281, 355). Os administradores da base de dados podem excluir (ou incluir) picos manualmente na lista de Bins reportados. Por exemplo, os artefatos baseados em Twister™ são selecionados manualmente para exclusão nas tabelas de resultados. As folhas de resultados são produzidas como formatos XLS e TXT (ou XML, se necessário). Uma vez identificados, os Bins também são reportados com seu nome químico e identificador PubChem.

Figure 4
figure4

Amostra de relatório vocBinBase destacando as características do relatório. Todos os Bins exportados pela base de dados vocBinBase são reportados com um identificador único da base de dados, o íon de quantificação, índice de retenção e o espectro de massa completo codificado como string. As abundâncias compostas são reportadas como a intensidade da massa do quantificador Bin. As entradas da base de dados são nomeadas usando a biblioteca de voláteis da planta Adams e identificadores PubChem hyperlinked estão incluídos para compostos identificados.

Bin Identification

Bin identification is supported by the Adams library of mass spectra and retention index data for more 2,000 purified plant volatiles and essential oil components , verified for many compounds using authentic standards in our laboratory. Antes de carregar a biblioteca Adams em Bellerophon para Bin correspondente a biblioteca foi convertida do formato HP Chemstation para o formato de biblioteca NIST pelo download da Lib2NIST disponível no site do NIST (http://chemdata.nist.gov). Além disso, os valores do Adams RI baseados em alcanos foram convertidos para seu equivalente em BinBase FAME RI. A conversão RI entre as variantes cromatográficas Adams e Fiehn (diferentes programações de temperatura do forno GC e fabricante de colunas) foi realizada com um polinômio de 2ª ordem e são dados em http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Todos os voláteis identificados em vocBinBase são anotados com identificadores químicos PubChem e chaves hash InChI de codificação de estrutura para permitir referências cruzadas a bancos de dados de química e ferramentas de informação estrutural.

A qualidade da conversão RI foi testada através da injeção de padrões de referência autênticos presentes na biblioteca Adams sob parâmetros operacionais padrão. Uma comparação dos valores calculados com valores determinados experimentalmente para 70 compostos de referência produziu uma correlação de 0,9995 com um erro padrão de 3.380 unidades RI (desvio padrão do erro residual, RIcalculated-RIexperimental). Uma comparação dos valores calculados e experimentais para 130 anotações da biblioteca Adams produziu valores semelhantes (r2 = 0,9994, SE = 3.320 unidades RI). Um gráfico do desvio absoluto do RI (RIcalculated-RIexperimental) para os 70 padrões e 130 anotações da biblioteca revelou que 61% dos compostos injetados estavam dentro de um erro padrão, e 58% dos compostos anotados estavam dentro de um erro padrão do valor calculado. Veja o arquivo adicional 2, figura S2 para os dados obtidos.

Conteúdo da base de dados

No presente, a base de dados contém espectros de 3.435 amostras representando 18 espécies. Apesar dos 1,7 milhões de espectros importados, totalmente desconvoluídos, a base de dados vocBinBase contém atualmente apenas 1537 Bins exclusivos. De todos os espectros importados, 45% não cumprem os limites do algoritmo e são descartados; tais espectros são ruidosos e inconsistentes. Os utilizadores mais baixos definem limiares para picos de detecção no ChromaTOF (por exemplo, baixando os critérios de pico de detecção de s/n>20 para s/n>3), quanto mais picos forem detectados. A maioria dos espectros de pico correspondentes seria descartada pelo algoritmo BinBase como muito ruidosa e não seria relatada nas folhas de saída. Uma taxa semelhante de espectros de descarte foi relatada pela ferramenta SpectConnect que emprega dados de desconvolução AMDIS de instrumentos MS GC-quadrupole. Sob as configurações aqui utilizadas, os restantes 55% dos espectros satisfazem os critérios de qualidade e são anotados e armazenados na base de dados (Figura 5). Aproximadamente 12% dos compostos anotados são artefatos de polissiloxano derivados de colunas e Twister™; estes artefatos são anotados pelo algoritmo mas não são incluídos nos relatórios BinBase exportados para os usuários. Como descrito acima, as anotações dependem de múltiplos critérios e certos limiares são variáveis dependendo de vários valores de metadados; o limiar de similaridade MS necessário depende da abundância e pureza de pico (por exemplo, um pico de baixa pureza requer uma correspondência de similaridade MS menos rigorosa). Uma pequena percentagem de espectros anotados (4%) são gerados por picos muito puros (pureza <0,15) com alta similaridade de EM, enquanto a maioria das entradas na base de dados são geradas por picos puros (pureza<1).5, 46%) ou não picos puros (pureza>1,5, 39%).

Figure 5
figure5

Filtering effect of the vocBinBase algorithm. Os espectros devem satisfazer múltiplos critérios para serem anotados e armazenados na base de dados. 45% de todos os espectros de entrada não cumprem os critérios e são descartados como ruidosos e inconsistentes. Os restantes 55% são anotados e armazenados na base de dados. 12% dos espectros anotados são de coluna ou artefatos de polissiloxano Twister™. Uma subdivisão adicional dos espectros anotados com base na pureza de pico, s/n, e similaridade espectral de massa é mostrada.

Dos atuais 1.537 Bins, 211 foram identificados como voláteis genuínos através da correspondência do índice de retenção espectral de massa. Além disso, 161 silos foram anotados como artefatos de polissiloxano (que, portanto, não são exportados para as fichas de resultados do estudo), e os restantes silos ainda não foram identificados. A visualização do conteúdo da base de dados de COV usando similaridade espectral (todos os Bins) e o coeficiente de similaridade química Tanimoto (Bins identificados) foi realizada usando o Cytoscape (Figura 6). O coeficiente de semelhança de Tanimoto é uma métrica de semelhança que calcula uma pontuação indicando o nível de semelhança entre as moléculas a serem comparadas . A visão geral da rede fornece uma representação visual das relações entre os 1537 Bins. Os compostos identificados são representados por nós vermelhos e os compostos não identificados como nós cinzentos. Os nós agrupados são mais parecidos do que aqueles com apenas uma única conexão na borda da rede. As bordas azuis ligam voláteis identificados com similaridade estrutural maior que 700. Note que os artefatos de polisiloxano se aglomeram longe dos compostos, devido a um padrão de fragmentação muito distinto. Regiões da rede com compostos identificados (nós vermelhos) foram rotuladas com informação de classe.

Figure 6
figure6

Visualização do conteúdo da base de dados vocBinBase. Os nós vermelhos são compostos identificados, os nós cinzentos são compostos não identificados. As bordas azuis ligam voláteis identificados com similaridade estrutural maior que 700,

Deixe um comentário