The volatile compound BinBase mass spectral database

Volatile sample collection and analysis

Volatile compound sampling

volatile compound sampling protocol (sorbent choice and sampling method) is specific to analyte identity and sample source and varies widely depending to research area and focus.The vagile compounds samples (VCS:VOC)は、分析対象やサンプル供給源によって異なるプロトコルを使用します。 私たちのサンプリングの大部分は、高い容量、汎用性(ヘッドスペースおよびスターバー吸着抽出モードの両方が可能)、フィールド環境での取り扱いの容易さから、ポリジメチルシロキサン(PDMS)ベースのTwisterTM(GERSTEL、Inc)を採用してきました(図1A)。 TwisterTM で捕獲された揮発性化合物は、熱脱着して分析に使用されます(図1B)。 これまでツイスターTMは当社の主要な吸着剤でしたが、他の吸着剤タイプや揮発性サンプリング方法(例:, 8702>

Figure 1
figure 1

Twister™ 技術を用いて揮発性化合物を捕捉し、時間不変の FAME ベース保持指標グリッドによる GC-TOF-MS で検出します。 (A)サンプル採取。 揮発性化合物は、長さ1cmのPDMSコーティングされたTwister™に捕捉されます。 (図:GERSTEL社提供)。 (B)データ収集装置の概略(ノンスケール)。 露出したツイスターは、0.5 mlのガラスキャピラリーに入った保持指標マーカー(C4-C26脂肪酸メチルエステル、FAMEs)の外部溶液とともにガラス輸送管に移されます。 揮発性物質は、昇温脱離装置(TDU)でTwister™から放出されます。 脱離した揮発性物質とFAMEは、液体窒素で冷却されたCIS4インレットで再収束し、ガスクロマトグラフ(GC)カラムで温度変化させて分離し、電子イオン化飛行時間質量分析検出(TOF MS)およびChromaTOFソフトウェアでの一次データ処理用に再揮発化される。 (C) 保持時間のシフト。 長期間の使用により、化合物の絶対保持時間(RT)はカラムの使用によりドリフトします。 ここに示すのは、2年間で1,500サンプルについて調査した際の、6つのサンプルのエイコサン酸メチル(C20 FAME)の保持時間のシフトです。 1ヶ月の使用期間中に3秒のシフトが発生し、カラム交換後には6秒のシフトが観測されました。 (D)保持指標への変換。 FAME保持指標マーカー(m/z 74、5倍拡大、青色トレース)をすべての揮発性プロファイル(トータルイオンクロマトグラム、赤色トレース)に追加すると、FAMEの安定したグリッドが確立し、可変「時間」を不変の「指標」単位に変換することができます。

保持指標マーカー

GC-MSピークの絶対保持時間(RT)はカラム特性(例:カラムタイプ、年代、長さ、位相比、膜厚)の関数としてシフトし、サンプル間またはサンプルタイプ間でRTの違いが頻繁に観測されます(図1C)。 数ヶ月から数年にわたる大規模な試験や、多くの異なるサンプルタイプを比較する場合、反応速度のシフトは避けられない。 保持指標(RI)は、溶出化合物の保持時間をサンプルに添加したマーカー化合物によって定義された固定位置に固定することで、この問題を解決します。 8702>

vocBinBaseのアルゴリズムでは、RI補正のためにすべてのサンプルにRIマーカー化合物を添加する必要があります。 FAMEは電子イオン化(EI)フラグメントパターン(特に高m/z値)を示し、明確な自動検出に適しているため、古典的な直鎖アルカン(Kovats RI)ではなく、脂肪酸メチルエステル(FAME)をRIマーカーとして使用します。 FAMEベースのRI値とKovatsベースのRI値(炭素数*100)の間の混乱を避けるために、我々は特徴的な単位値を採用し、FAME RI値はFAME C4の262,214からFAME C24の980,934までの範囲にあります。 参考までに、FAME C4とC24に対応するアルカンベースのRI値は、それぞれ726と2712である。 8702>

揮発性試料のRI混合物は、直鎖炭素鎖長C4、C6、C8、C9、C10、C12、C14、C16、C18、C20、C22、C24のFAMEを含んでいる。 最終的なFAME濃度が5 mg/mL (C4), 1.5 mg/mL (C20, C22, C24), 1.2 mg/mL (C6, C8), 0.8 mg/mL (C9, C16, C18) および 0.4 mg/mL (C14-C18) のストック混合物が塩化メチレンで調製される。 このFAME原液は、使用前にプロピオン酸メチルで200倍に希釈しておく。 作業用FAME RI混合液は、0.5uLのキャピラリーでTwister™の外部に導入されます。 キャピラリーはFAME RI溶液で満たされ、熱脱着用のフリットボトムTDU輸送管にTwister™と並べて設置されます(図1B)。 キャピラリー法を用いてスパイクした柑橘類の葉の揮発性サンプルにおける FAME RI マーカーの格子状の性質を示すクロマトグラムを以下に示します (図 1D)。

装置

揮発性サンプル分析は、熱脱着ユニット (TDU, GERSTEL, Inc., CA, Santa Clara) を備えた6890 GC (Agilent Technologies) で実施されます。 Muehlheim, Germany)、極低温注入システム入口(CIS4, GERSTEL, Inc.)、ロボットサンプラー(MPS2, GERSTEL, Inc.)を備え、Pegasus IV飛行時間質量分析計(Leco, St.Joseph, MI)とインターフェイスしています。

熱脱着とインジェクタパラメータ

露出したツイスターは、TDUのスプリットレスモード(流量50mL/min、ソルベントベントモード)で、初期温度30℃、速度12℃/秒で250℃にランプし、最終温度で3分間保持することにより熱脱着されます。 脱離した分析物は、液体窒素(-120℃)でCIS4インレットにクライオフォーカスされる。

GC-TOF-MS settings

GC-TOF-MS instrument settings and programming is defined in standard operating procedures in order to produce data that can be auto-annotated and compiled across studies.All rights reserved. クロマトグラフィーの分離は、10mのガードカラムを内蔵したRtx-5SilMSカラムで行われます。 GCオーブン温度プログラムは次の通りです:初期温度45℃、2分保持、その後20℃/分で300℃まで昇温、2分保持、その後20℃/分で330℃まで昇温、0.5分保持。 キャリアガス(99.9999% He)の流量は1 mL/minで一定とした。 ガスクロマトグラフと質量分析計の間のトランスファーラインの温度は280℃である。 マススペクトルは、質量範囲35-500 m/zで25 spectra/secで取得される。 検出器電圧は1800 V、イオン化エネルギーは70 eVに設定されています。 イオン源温度は250℃。

Binbase データベース構築

データベース構造

BinBaseコードはJavaとGroovyで開発され、完全にオープンソースソフトウェアに基づいている。 BinBaseは多層的なソフトウェアアーキテクチャを採用している(図2)。 BinBaseの中核となるのはSQL準拠のデータベースで、サンプル分析中に生成されるマススペクトル、分析結果、キャッシュデータ(高速化)などを格納する。 データベースの内容は、クラスタ、アプリケーションサーバ、BellerophonからJava Database Connectivity (JDBC) を使ってアクセスされます。 このアクセスはEnterprise JavaBeans (EJB)とHibernate Object mapping frameworkによってカプセル化されています。 BinBaseの中央構成はアプリケーションサーバーに格納され、EJB、WSDL(Web Service Description Language)ベースのサービス、JMS(Java Messaging Service)、JMX(Java Management Extensions)コンポーネントも格納されており、これらがBinBaseコミュニケーションインターフェース(BCI)を構成しています。 これらのEJBはデータベースへのインターフェースを提供し、他のJavaプログラムがデータベースにアクセスし、データを問い合わせたり、制限された方法で計算を開始したりできるようにする。 Hibernate永続化およびオブジェクトマッピング層は、複雑なクエリをシンプルで直感的な方法で実行することができ、主にBinBase管理用グラフィカルユーザーインターフェース(GUI)であるBellerophonで使用されています(以下を参照)。 EJBの制限を克服するためにWSDLサービス層が追加され、BinBaseはほとんどのプログラミング言語からアクセスできるようになりました。 内部的には、WSDL サービスレイヤーはすべての Web フロントエンドと SetupX/MiniX との通信にも使用されています。 JMXコンポーネントは、システム全体を中央で設定し、システムプロパティを監視するために使用されます。 BCIモジュールは、IPアドレスとパスワードに基づいて特定のサービスへのユーザーアクセスを制限し、サービス拒否(DoS)攻撃やSQLインジェクション攻撃を防止することで、システムセキュリティに重要な役割を果たしている。

Figure 2
figure2

vocBinBaseデータベースの多層アーキテクチャ

BinBase データベースインストール要件

BinBase システムでは質量スペクトルデータの算出に Rocks Linux クラスターベースのアーキテクチャを必要としています。 これは、2台の標準的なパーソナルコンピュータ(PC)からなるシステムで最低限確立されている。 最初のPCはデータ(*.netcdfファイル、*.txtファイル、データベースコンテンツ)を保存し、Webページへのアクセスを提供し、計算キューを維持する。 2台目のPCは計算を実行する。 計算負荷が1日数百サンプルを超えないのであれば,デュアルコア2GHzの中央演算処理装置(CPU)と4GBのRAMがあれば十分である. データ保存機能を持つため、1台目のPCには1~2TBのストレージと1GBのネットワークカードが2枚必要である。 2台目のPCには、より小さなハードディスク(200GB)とネットワークカード1枚で十分である。 BinBaseデータベースはLGPL 2.0ライセンス(http://binbase.sourceforge.net)で公開されており、ウェブフロントエンドやリッチクライアントアプリケーション、ウェブサービスレイヤーを使ってアクセスすることができます。

Bellerophon

The front-end graphical user interface (GUI) Bellerophon は BinBase の中央管理ツールで、Bin 管理、データベースブラウジング、保持インデックス設定に使用されます。 Bellerophon は、Eclipse 3 SWT ベースのリッチ クライアント プラットフォーム (RCP) アプリケーションです。 JFreeChartをベースにした可視化機能を持ち、Hibernateフレームワークによるデータベースクエリをサポートしています。 Hibernateフレームワークは、データベースのテーブルをオブジェクトにマッピングすることをサポートしています。

SetupX

SetupX は研究デザインデータベースで、主な機能はクラス生成のための実験メタデータの取得、GC-TOF-MSシーケンスのランダム化とスケジューリング、実験に関連する他のすべてのデータファイル(例:写真、分析スプレッド・シート、他の機器データファイル)とともに注釈付きGC-TOF-MSデータを保存することである。 SetupXの構造に関する詳細は、こちらをご覧ください。 このデータベースの簡易版であるMiniXを開発しました。 MiniXのウェブサイトからBinBaseアノテーションを要求すると、EJBおよびJMSによるMiniX BinBaseエクスポート機能が起動されます。 BinBaseはさらに、EJBを通じてMiniXに実験的なクラス情報を要求する。 MiniXはオープンソースプロジェクトであり、LGPL 2.0ライセンス(http://code.google.com/p/minix/)の下でダウンロードおよびインストールすることができます。

vocBinBase filtering algorithm

The vocBinBase algorithm takes the deconvoluted spectra and metadata provided by the Leco ChromaTOF software as well as sample information from the study design database SetupX/MiniX and apply a multi-tiered filtering system that annotates spectra to existing database entries (‘Bins’).また、既存のデータベースエントリにスペクトル情報を付与する多層フィルタリングシステムを適用します。 を作成し、すべての品質基準を満たした場合に新しいBinをデータベースに追加するか、またはデータベースの整合性を維持するために低品質のスペクトルを廃棄します(追加ファイル1、図S1参照)。 各データベースエントリまたは “Bin “は、マススペクトル、装置およびクラスのメタデータのすべての閾値に一致した一意の化合物を表します。 Binは、マススペクトル、保持指標(RI)、定量質量、固有質量のリスト、固有識別子番号によって最小限の定義がされています。

データ前処理

生データはLeco ChromaTOFソフトウェアによって前処理され、ChromaTOF固有の *.peg ファイル、汎用 *.txt 結果、汎用 ANDI MS *.cdf ファイルとして格納されます。 ChromaTOF (v. 2.32) のデータ処理パラメータは、ベースラインの設定がノイズのすぐ上 (value = 1)、スムージングなし、S/N比最小値20です。 この*.txtファイルはファイルサーバーにエクスポートされ、アルゴリズムによってさらに処理されます。 vocBinBaseアルゴリズムは、ChromaTOFソフトウェアバージョン2.32から現在のバージョン4.33と互換性があります。

Spectral validation

生物試験のすべてのクロマトグラムのデコンボリューションしたスペクトルを取り込んだ後(*.txt)、そのスペクトルは、”Spectral Validation “と呼ばれ、”Spectral Validation “は、”Visual Validation “と呼ばれます。csv 形式) をインポートした後、スペクトルは、ユニークイオンの存在と存在量 (ベースピークに対して)、すべてのapex mass (ユニークイオンのピーク最大強度と共有する質量) の存在、apex intensity thresholdsを超えるピークの数についてチェックされます。 スペクトルの検証は、最初のデータ品質フィルターです。オーバーロードされたピークやデコンボリューション エラーがあるクロマトグラムは、ピークマッチングにのみ使用され、Bin の生成には使用されません。

脂肪酸メチルエステルに基づく保持指標計算

保持指標補正の BinBaseアルゴリズムは、FAME RI マーカーを探すために最初にすべてのスペクトルにベースピーク フィルターを適用します(保持時間情報は使用されません)。 このフィルタリングされたリストから、最も高いマススペクトル類似性スコアを持つFAMEピークを基準点として、そこから高い保持時間と低い保持時間に距離測定を適用し、他のすべてのRIマーカーを見つけます。 必要なFAMEマーカーがすべて見つかると、最初と最後の2つの標準試料については線形回帰を、その間の標準試料については5次の多項式回帰を用いて補正曲線を計算します。 多項式回帰は、保持時間の初期と後期で線形回帰とは異なる絶対的および相対的な保持時間のシフトを考慮し、校正範囲内で適用されます。 高次の多項式は外挿が苦手なため、RIマーカー範囲外の外挿には線形回帰を使用します。 早期および後期溶出RIマーカーがすべて見つからない場合、新しいBinsの生成は無効になりますが、既存のBinsとのマッチングは実行可能です。

揮発性サンプルのRIマーカーを見つけるために使用されるパラメータは、代謝物アルゴリズムで使用されるものから大幅な変更が必要でした。 FAMEをC4とC6に拡張し、m/z範囲を85-500から35-500に変更したことに対応して、マッチ設定と基本ピークパターンを再定義する必要がありました。 揮発性化合物は TMS 誘導体化されておらず、35-85 m/z の範囲は化合物の同定に役立つ重要なフラグメントデータを提供するため、この m/z 範囲の低値への拡張は絶対に必要なことなのです。 FAMEが規格外である高品質データの損失を避けるため、既存のアルゴリズムを修正し、同じ日に取得した前または後のサンプルの補正曲線を当該サンプルに適用できるようにしました。 そのような有効なRIデータが見つからない場合は、検索窓を10日間まで延長し、それ以外の場合は、単独サンプルで見つかったRIマーカーを使用して部分曲線を生成しました。

BinBase アルゴリズムによるピークアノテーション

BinBase アルゴリズムによるピークアノテーションで使用される ChromaTOF メタデータは、マススペクトルの類似性、ピーク純度(共溶出ピークの数、近さ、類似性の推定)、保持インデックス、信号対雑音比、固有イオン、頂点イオン、固有質量対ベースピーク比が含まれます。 ChromaTOFソフトウェアによって報告される追加のメタデータ(例:ピークの高さ、面積%)は、アルゴリズムによって使用されません。 RI補正(上述)後、スペクトルはピーク強度の減少に従って順次注釈されます。 与えられたピークに対して、アルゴリズムはRIウィンドウ(±2,000 FAME RI units, ~2秒)を設定し、ユニークイオン・マッチフィルターを使用して、デコンボリューションピークのユニークイオンまたは頂点のイオンのいずれかにマッチし、Bin割り当て可能リストを作成します。 この2つのパラメータだけで、高度なフィルタリングが可能です。 例えば、FAME RI値が446700、ユニークイオンがm/z 93の化合物の場合、RIフィルターの制約により、マススペクトルの比較対象が1537エントリから8ヒットの可能性にまで減少しました。 さらに、ユニークイオンの制約により、Binにマッチする可能性が8件から2件に減りました(図3)。 この段階でのみ、ピークのS/N比とピークの純度に基づいた可変しきい値を使用する、マススペクトルの類似性フィルタが適用されます。 豊富でよく分解されたピークは、小さなピークや共溶出ピークよりも、アノテーションを成功させるために高い質量分析類似度スコアを必要とします。 傷ついたオレンジの葉のヘッドスペースから収集した揮発性データは複雑であり(A)、重複するピークを解決するためにスペクトルのデコンボリューションが必要です。 測定された465個の質量溶出プロファイルのうち7個(m/z 93, 111, 114, 115, 132, 136, 150)を400-412秒で重ね合わせたもの(B)を示しています。 デコンボリューションされたマススペクトルとピークのメタデータがアルゴリズムに供給されます。 最初の2つのフィルタは、RI情報とユニークイオン情報を使用します。 これらは、Peak #122 (C)で示されるように、データベースのマッチング可能性を絞り込むのに非常に有効です。

実質的に、各パラメータの閾値をピークごとに定義することができます。 上に示した例(図3)では、ピークは適度に純粋であり(ピーク純度=0.1137)、Binマッチングには高い質量スペクトル類似度スコアが必要です。 これらの最終的なフィルタリング基準と、リナロール(917)とテルピノーレン(<500)のマススペクトルの類似性スコアに基づき、この例では最終的に化合物はリナロールに割り当てられました。 この例では、±2000 FAME RI unit window内に3つのBinがあり、そのうちの2つはm/z 93というユニークなイオン値を有しています。

このアノテーションの段階では、1つ以上のBinの割り当てが残っている場合があります(例えば、検索RIウィンドウ内で溶出する立体異性体など)。 代替の Bin が有意に高い類似性スコアを持っていない限り、最も近いマッチング RI を持つ異性体が次にアノテーションされます。 異性体フィルターで除外されたスペクトルは、まだ他の近隣の Bin に一致する可能性があるため、アノテーション アルゴリズムにフィードバックされます。

New Bin generation – tracking unknown compounds

スペクトルが既存の Bin と一致しない場合、BinBase アルゴリズムは、特定の非常に厳しい基準が満たされた場合に新しい Bin を生成します。 まず、問題のスペクトルは、純度 (純度値 < 1.0) と強度 (S/N > 25) に基づく厳格な質量スペクトルの品質しきい値に合格する必要があります。 Bin生成マススペクトルフィルターの閾値は、類似性フィルターの閾値よりも厳しく、豊富で純粋なスペクトルのみが新しいBinとなることを保証するものである。 第二に、新しいBinの候補は、検証される前に実験クラスフィルターに合格しなければならない。 このフィルターは、新しいBinが偽の汚染物質ではなく、本物の揮発性物質であることを保証するために、ある実験クラスの全サンプルの少なくとも80%で検出されることを要求している。

ポストマッチングと置換

すべての実験クラスのすべてのスペクトルが注釈されると、実験全体で見つかったすべてのビンを含む包括的なビンリストがコンパイルされる。 次に、新しく生成されたBinを含むすべてのBinがすべてのサンプルで検索されるように、すべてのスペクトルがBinリストに対して再びマッチングされる(ポストマッチング)。 このステップでは、Bin生成に必要なより厳しいMSのしきい値に合格しなかったサンプルのスペクトルが、Binアノテーションに必要なしきい値に合格することがあります。

場合によっては、Binが存在しないか量が少ない(真の陰性)、または存在するが品質基準で割り当てできない(偽陰性)ために、すべてのクロマトグラムで陽性に検出されないことがあります。 この場合、データマトリックスの値がゼロとなり、その後の統計解析に支障をきたす。 このような場合に置換値を計算するための戦略が考案され、アルゴリズムにプログラムされている。 まず、アルゴリズムは、サンプルの平均保持指標を計算し、保持指標補正曲線を使用して保持時間に変換することにより、分析シーケンスにわたる各代謝物の平均保持時間を決定します。 次に、未処理の生のクロマトグラム (netCDF または ANDI MS ファイル形式) を開き、各ミッシング揮発性化合物の選択定量イオントレースの最大イオン強度から、ターゲット保持時間の±2秒付近でそのターゲットイオンのローカルバックグラウンドノイズを差し引いた値を報告します。 バックグラウンドから差し引かれたイオン強度は、「セカンドパス」割り当てであることを示す色分けとともに、結果表に報告されます。 置換アルゴリズムの検証は、サンプルセット内の置換された値のマニュアルアノテーションとそのアルゴリズムの置換値を比較することで行われました。

vocBinBase Report

実験クラスの少なくとも80%で検出されたすべてのビンは、結果レポートフォルダに含まれます。 さらに、レポートフォルダには、実験クラスの少なくとも50%で検出されたすべてのBinの結果ファイルが含まれます。 50%の結果は、80%のデータセットをより多くの同定代謝物で補完するため、またはあまり確信が持てないピークや希少なピークを評価するために使用することができます。 エクスポートされたBinテーブルの各エントリは、Bin定量質量(デフォルトではユニークイオン)の強度として報告されますが、この値はデータベース管理者によってスペクトル内の任意のイオンに手動で変更することができます。 ピーク面積ではなく、ピーク高さを使用するのには、いくつかの理由があります。 ベースラインの設定は、大きなピークよりも小さなピークの方がピーク面積に影響を与えるため、小さなピークの場合はピーク面積よりもピーク高さの方が望ましいとされています。 さらに、定義されたユニークなイオンに基づくピークハイトは、dTIC や TIC などの他のパラメーターよりも安定した指標となります。これは、異なるクロマトグラムで化合物を分析する場合、検出されたイオンの数、つまり複合強度は、ピークの存在量と純度によって異なるためです。 データベースエントリはAdamsの植物揮発性ライブラリ(後述)を用いて命名されています。 農薬、可塑剤、その他の汚染物質を含む植物由来でない化合物は、NIST-RI ライブラリを用いてアノテーションされます。 カラムブリードに関連する既知のアーティファクトは vocBinBase でアノテーションされていますが、結果レポートではユーザーにエクスポートされません (m/z 207, 221, 281, 355)。 データベース管理者は、報告されたBinのリストに含まれるピークを手動で除外(または追加)することができます。 たとえば、Twister™ベースのアーティファクトは、結果テーブルで除外するために手動で選択します。 結果データシートは、XLSおよびTXT形式(必要に応じてXML形式)で作成されます。

Figure 4
figure 4

Sample vocBinBase report highlighting report features.Binは化学名およびPubChem識別子とともにレポートされています。 vocBinBase データベースによってエクスポートされたすべてのビンは、ユニークなデータベース識別子、定量イオン、保持インデックス、および文字列としてエンコードされた完全なマススペクトルで報告されます。 化合物の存在量は、Binの定量質量の強度として報告されます。 データベースは、Adamsの植物揮発性ライブラリーを用いて命名され、同定された化合物にはハイパーリンクされたPubChemの識別子が含まれます。

Bin Identification

Bin 同定は、2000以上の精製植物揮発性および精油成分の質量スペクトルと保持指標データのAdamsライブラリーによってサポートされていますが、我々のラボにおいて本物の標準を使用して多くの化合物を検証しています。 AdamsライブラリをBellerophonにアップロードしてBinマッチングを行う前に、NISTのウェブサイトからダウンロードできるLib2NISTを用いて、HP ChemstationフォーマットからNISTライブラリフォーマットに変換しました(http://chemdata.nist.gov)。 さらに、アルカンベースのAdams RI値をBinBase FAME RI相当値に変換した。 AdamsとFiehnのクロマトグラフィーバリアント(異なるGCオーブン温度プログラミングとカラムメーカー)間のRI変換は2次多項式で達成され、http://fiehnlab.ucdavis.edu/projects/VocBinBase/に示されています。 vocBinBaseで同定されたすべての揮発性物質は、化学データベースや構造情報ツールとの相互参照を可能にするために、PubChem化学識別子と構造をエンコードするInChIハッシュキーで注釈されています

RI変換の品質は、標準操作パラメータでAdamsライブラリにある本物の参照標準を注入してテストされました。 70の参照化合物について計算値と実験値を比較したところ、相関は0.9995、標準誤差は3,380 RI単位(残留誤差の標準偏差、RIcalculated-RIexperimental)であった。 また、130のAdamsライブラリアノテーションの計算値と実験値を比較したところ、同様の値が得られた(r2 = 0.9994, SE = 3,320 RI units)。 70種類の標準物質と130種類のライブラリアノテーションの絶対RI偏差(RIcalculated-RIexperimental)をプロットすると、注入した化合物の61%が1標準誤差内に、アノテーションした化合物の58%が計算値の1標準誤差内に収まっていることが明らかになった。 8702>

データベースの内容

現在、データベースには18種、3,435サンプルのスペクトルが登録されています。 170万ものスペクトルがインポートされ、完全にdeconvolutedされているにもかかわらず、vocBinBaseデータベースには現在1537のユニークなBinしか含まれていません。 インポートされたスペクトルのうち、45%はアルゴリズムのしきい値を満たすことができず、破棄されており、このようなスペクトルはノイズが多く、一貫性がありません。 ChromaTOFのピーク検出のしきい値を低く設定すればするほど(例えば、ピーク検出基準をs/n>20からs/n>3に下げる)、より多くのピークが検出されることになります。 このようなピークスペクトルは、BinBaseアルゴリズムによってノイズが多すぎるとして破棄され、出力シートには報告されない。 GC四重極MSのAMDISデコンボリューションデータを使用するSpectConnectツールでも、同様の割合でスペクトルが破棄されることが報告されている。 ここで使用した設定の下では、残りの 55% のスペクトルは品質基準を満たし、アノテーションが付けられデータベースに保存されます (図 5)。 アノテーションされた化合物の約 12% は、カラムおよび Twister™ 由来のポリシロキサンアーチファクトです。これらのアーチファクトはアルゴリズムによってアノテーションされますが、ユーザー用にエクスポートされる BinBase レポートには含まれません。 上記のように、アノテーションは複数の基準に依存し、特定の閾値はさまざまなメタデータ値によって変化します。必要な MS 類似性の閾値は、ピークの存在量と純度によって異なります (たとえば、低純度ピークは、より厳密な MS 類似性マッチングを必要とします)。 注釈付きスペクトルのごく一部 (4%) は、高い MS 類似性スコアを持つ非常に純粋なピーク (純度 <0.15) によって生成されていますが、データベースエントリの大部分は純粋なピーク (純度 <1.15) によって生成されています。5、46%)または純粋ではないピーク(純度>1.5、39%)によって生成されます。

Figure 5
figure5

ボビンベース・アルゴリズムのフィルタ効果です。 スペクトルがアノテーションされ、データベースに保存されるには、複数の基準を満たす必要がある。 受信する全スペクトルの45%は基準を満たすことができず、ノイズや矛盾があるとして破棄される。 残りの55%はアノテーションされ、データベースに保存される。 アノテーションされたスペクトルの12%は、カラムまたはTwister™ポリシロキサンのアーチファクトです。 ピーク純度、s/n、およびマススペクトルの類似性に基づいて注釈されたスペクトルのさらなる内訳を示します。

現在の1,537ビンのうち、211ビンがマススペクトルと保持指数のマッチングにより本物の揮発性と識別されています。 また、161のBinはポリシロキサンのアーティファクトとして注釈され(したがって、研究結果のデータシートにエクスポートされない)、残りのBinはまだ同定されていません。 スペクトル類似度(全ビン)および谷本化学類似度係数(特定ビン)を用いた VOC データベース内容の可視化は、Cytoscape を用いて実施した(図 6)。 谷本化学類似度係数は、比較する分子間の類似度を示すスコアを算出する類似度指標である。 ネットワークの概観は、1537 の Bin 間の関係を視覚的に表現している。 同定された化合物は赤いノードで、未同定化合物はグレーのノードで表されている。 ネットワーク端で1つだけ接続されているノードよりも、密接にクラスタ化されているノードの方がより類似している。 青色のエッジは、700以上の構造的類似性を持つ揮発性物質を特定するためのものです。 ポリシロキサンアーチファクトは、非常に特徴的なフラグメンテーションパターンにより、化合物から離れた場所に集まっていることに注意してください。 図6

figure6

vocBinBaseデータベースの内容を可視化したもの。 赤色のノードは同定された化合物、灰色のノードは未同定の化合物である。 青色のエッジは、700以上の構造類似性を持つ同定された揮発性物質を結ぶ。

コメントする