Baza danych widm masowych związków lotnych BinBase

Pobieranie i analiza próbek lotnych

Pobieranie próbek związków lotnych

Protokoły pobierania próbek związków lotnych (wybór sorbentu i metoda pobierania próbek) są specyficzne dla tożsamości analitu i źródła próbki, i różnią się znacznie w zależności od obszaru badań i przedmiotu zainteresowania. W większości naszych prób stosowaliśmy TwisterTM na bazie polidimetylosiloksanu (PDMS) (GERSTEL, Inc.) ze względu na jego dużą pojemność, wszechstronność (możliwe są zarówno tryby ekstrakcji sorpcyjnej headspace, jak i stir-bar) oraz łatwość obsługi w warunkach terenowych (Rysunek 1A). Związki lotne wychwycone przez TwisterTM są termicznie desorbowane do analizy (Rysunek 1B). Chociaż TwisterTM był jak dotąd naszym podstawowym sorbentem, inne typy sorbentów i metody pobierania próbek lotnych (np, pakowane wkłady, SPME, bezpośrednie wstrzykiwanie przestrzeni nadpowierzchniowej i bezpośrednia desorpcja termiczna) mogą być stosowane i są zgodne z adnotacją danych i bazą danych Bin.

Rycina 1
figura1

Związki lotne są wychwytywane przy użyciu technologii Twister™ i wykrywane za pomocą GC-TOF-MS z wykorzystaniem zmiennej w czasie siatki indeksów retencji opartej na FAME. (A) Zbieranie próbek. Lotne związki są wychwytywane na Twisterach™ o długości 1 cm pokrytych PDMS. (Rysunek dostarczony przez GERSTEL, Inc.). (B) Schemat oprzyrządowania do akwizycji danych (bez skali). Naświetlone Twistery™ przenoszone są do szklanych rurek transportowych wraz z zewnętrznym roztworem markerów indeksu retencji (estry metylowe kwasów tłuszczowych C4-C26, FAME) w szklanych kapilarach o pojemności 0,5 ml. Wolatile są uwalniane z Twisterów™ w urządzeniu do desorpcji termicznej (TDU). Zdesorbowane substancje lotne i FAME są ponownie ogniskowane we wlocie CIS4 chłodzonym ciekłym azotem, a następnie ponownie wulkanizowane w celu rozdzielenia w odpowiedniej temperaturze na kolumnie chromatografii gazowej (GC), detekcji spektrometrii masowej z jonizacją elektronową w czasie przelotu (TOF MS) i przetwarzania danych pierwotnych w oprogramowaniu ChromaTOF. (C) Przesunięcia czasu retencji. W długich okresach pracy, bezwzględne czasy retencji (RT) związków ulegają dryfowi z powodu zużycia kolumny. Pokazano tu przesunięcie RT dla eikozanianu metylu (C20 FAME) z sześciu oddzielnych próbek podczas dwuletniego badania obejmującego 1500 próbek. Przesunięcia o 3 sekundy wystąpiły w ciągu jednego miesiąca pracy, natomiast przesunięcie o 6 sekund zaobserwowano po zmianie kolumny. (D) Konwersja do indeksu retencji. Dodanie znaczników indeksu retencji FAME (m/z 74, 5-krotnie powiększone, niebieski ślad) do każdego profilu lotnego (chromatogram jonów całkowitych, czerwony ślad) ustanawia stabilną siatkę FAME w celu konwersji zmiennego „czasu” na niezmienne jednostki „indeksu”. Nie są potrzebne żadne dalsze wyrównania chromatogramów.

Markery indeksu retencji

Absolutne czasy retencji (RT) pików GC-MS przesuwają się jako funkcja właściwości kolumny (np. typ kolumny, wiek, długość, stosunek faz, grubość folii), a różnice RT są często obserwowane wśród próbek lub typów próbek (rysunek 1C). W przypadku prowadzenia dużych badań obejmujących miesiące lub lata, lub porównywania wielu różnych typów próbek, przesunięcia RT są nieuniknione. Wskaźniki retencji (RI) rozwiązują ten problem poprzez zablokowanie czasów retencji eluowanych związków do stałych pozycji zdefiniowanych przez związki markerowe wprowadzone do próbki. Bardzo różne próbki mogą być kompilowane w bazie danych przez lata z wykorzystaniem markerów RI.

Algorytm vocBinBase wymaga dodania związków markerowych RI do wszystkich próbek dla korekt RI. Używamy estrów metylowych kwasów tłuszczowych (FAME) jako markerów RI zamiast klasycznych prostołańcuchowych alkanów (Kovats RI), ponieważ FAME wykazują wzory fragmentów jonizacji elektronowej (EI) (szczególnie przy wysokich wartościach m/z) lepiej nadające się do jednoznacznego i zautomatyzowanego wykrywania. Aby uniknąć mylenia wartości RI opartych na FAME z wartościami RI opartymi na Kovatsa (liczba węgli * 100), przyjęliśmy wyróżniającą wartość jednostkową, a wartości RI FAME wynoszą od 262,214 dla FAME C4 do 980,934 dla FAME C24. Dla odniesienia, odpowiednie wartości RI dla alkanów dla FAME C4 i C24 wynoszą odpowiednio 726 i 2712. Zarówno FAME, jak i alkany są naturalnie występującymi związkami lotnymi, więc dodanie mieszaniny RI uniemożliwi wykrycie dodanych specyficznych związków znacznikowych, chyba że zastosowane zostaną znakowane izotopowo znaczniki RI.

Mieszanina RI dla próbek lotnych zawiera FAME o długościach liniowych łańcuchów węglowych C4, C6, C8, C9, C10, C12, C14, C16, C18, C20, C22 i C24. Przygotowuje się mieszaninę podstawową w chlorku metylenu o końcowym stężeniu FAME wynoszącym 5 mg/ml (C4), 1,5 mg/ml (C20, C22, C24), 1,2 mg/ml (C6, C8), 0,8 mg/ml (C9, C16, C18) i 0,4 mg/ml (C14-C18). Ten roztwór podstawowy FAME jest następnie rozcieńczany 200-krotnie w propionianie metylu przed użyciem. Robocza mieszanina FAME RI jest wprowadzana zewnętrznie do Twistera™ w kapilarach o pojemności 0,5 uL. Kapilary są wypełniane roztworem FAME RI, a następnie umieszczane obok Twistera™ w probówce transportowej TDU z dnem frytowym w celu przeprowadzenia desorpcji termicznej (Rysunek 1B). Chromatogramy ilustrujące siatkowy charakter znaczników FAME RI w próbce lotnej z liści cytrusowych zanieczyszczonej metodą kapilarną przedstawiono poniżej (Rysunek 1D).

Instrumentacja

Analizy próbek lotnych są wykonywane na GC 6890 (Agilent Technologies, Santa Clara, CA) wyposażonym w urządzenie do desorpcji termicznej (TDU, GERSTEL, Inc., Muehlheim, Niemcy), chłodzony kriokonserwatorem wlot systemu iniekcyjnego (CIS4, GERSTEL, Inc.) i zrobotyzowany próbnik (MPS2, GERSTEL, Inc.) połączony ze spektrometrem mas Pegasus IV time-of-flight (Leco, St. Joseph, MI).

Desorpcja termiczna i parametry wtryskiwacza

Eksponowane Twistery są poddawane desorpcji termicznej w TDU w trybie bezrozdzielaczowym (natężenie przepływu 50 mL/min, tryb odpowietrzania rozpuszczalnika) w temperaturze początkowej 30°C, z szybkością 12°C/s do 250°C, a następnie utrzymywane w temperaturze końcowej przez 3 min. Zdesorbowane anality są kriokoncentrowane we wlocie CIS4 za pomocą ciekłego azotu (-120°C). Po desorpcji wlot jest ogrzewany od -120 do 260°C z szybkością 12°C/s i utrzymywany w temperaturze 260°C przez 3 min.

Ustawienia GC-TOF-MS

Ustawienia i programowanie instrumentu GC-TOF-MS są zdefiniowane w standardowych procedurach operacyjnych w celu uzyskania danych, które mogą być automatycznie zanotowane i zestawione w różnych badaniach. Rozdział chromatograficzny jest wykonywany na kolumnie Rtx-5SilMS z 10 m zintegrowaną kolumną ochronną. Program temperatury pieca GC jest następujący: temperatura początkowa 45°C z 2 minutową przerwą, po której następuje rampa 20°C/min do 300°C z 2 minutową przerwą, po której następuje rampa 20°C/min do 330°C z 0,5 minutową przerwą. Przepływ gazu nośnego (99,9999% He) utrzymywany jest na stałym poziomie 1 mL/min. Temperatura linii transferowej pomiędzy chromatografem gazowym a spektrometrem mas wynosi 280°C. Widma masowe są pozyskiwane z prędkością 25 widm/sek. z zakresem mas 35-500 m/z. Napięcie detektora jest ustawione na 1800 V, a energia jonizacji na 70 eV. Temperatura źródła jonów wynosi 250°C.

Budowa bazy danych Binbase

Struktura bazy danych

Kod BinBase został opracowany w Javie i Groovy, i jest oparty w całości na oprogramowaniu open-source. BinBase wykorzystuje wielowarstwową architekturę oprogramowania (Rysunek 2). Rdzeniem BinBase jest baza danych zgodna z SQL, która przechowuje widma masowe (generowane podczas analizy próbek), wyniki analiz oraz dane buforowane (w celu zwiększenia szybkości działania). Dostęp do zawartości bazy danych jest realizowany przez klaster, serwer aplikacji i Bellerophon za pomocą Java Database Connectivity (JDBC). Dostęp ten jest zamknięty w Enterprise JavaBeans (EJB) oraz w Hibernate Object Mapping Framework. Centralna konfiguracja BinBase jest przechowywana na serwerze aplikacyjnym, na którym znajdują się również komponenty EJB, WSDL (Web Service Description Language), JMS (Java Messaging Service) oraz JMX (Java Management Extensions); razem tworzą one interfejs komunikacyjny BinBase (BCI). Te EJB stanowią interfejs do bazy danych i umożliwiają innym programom Java dostęp do bazy danych, odpytywanie danych i uruchamianie obliczeń w zdefiniowany, ograniczony sposób. Warstwa persystencji i mapowania obiektów Hibernate pozwala na wykonywanie złożonych zapytań w prosty, intuicyjny sposób i jest głównie wykorzystywana przez Bellerophon, graficzny interfejs użytkownika (GUI) administracji BinBase (patrz poniżej). Warstwa usług WSDL została dodana w celu przezwyciężenia ograniczeń EJB, dzięki czemu dostęp do BinBase jest możliwy z poziomu większości języków programowania. Wewnętrzna warstwa usług WSDL jest również wykorzystywana do wszystkich front-endów internetowych oraz komunikacji z SetupX/MiniX. Komponenty JMX są używane do konfiguracji całego systemu w centralnej lokalizacji oraz do monitorowania właściwości systemu. Moduł BCI odgrywa kluczową rolę w bezpieczeństwie systemu, ograniczając dostęp użytkowników do poszczególnych usług na podstawie adresu IP i hasła, a także zapobiegając atakom typu denial of service (DoS) czy SQL injection.

Rysunek 2
figure2

Wielowarstwowa architektura bazy danych vocBinBase.

Wymagania instalacyjne bazy danych BinBase

System BinBase wymaga architektury opartej na klastrze Rocks Linux do obliczania danych widm masowych. W minimalnym stopniu jest to możliwe w systemie składającym się z dwóch standardowych komputerów osobistych (PC). Pierwszy komputer przechowuje dane (pliki *.netcdf, *.txt i zawartość bazy danych), zapewnia dostęp do stron internetowych i utrzymuje kolejkę obliczeń. Drugi komputer PC wykonuje obliczenia. Dwurdzeniowa jednostka centralna (CPU) 2 GHz i 4 GB RAM są wystarczające dla każdego z tych komputerów, jeśli obciążenie obliczeniowe nie przekracza kilkuset próbek dziennie. Ze względu na funkcję przechowywania danych, pierwszy komputer wymaga pamięci o pojemności 1-2 TB oraz dwóch kart sieciowych o pojemności 1 GB. Mniejszy dysk twardy (200 GB) i pojedyncza karta sieciowa są wystarczające dla drugiego komputera. Nasza obecna konfiguracja w Genome Cente’ każdy i jeden węzeł główny z macierzą pamięci masowej opartej na dyskach półprzewodnikowych dla lepszego dostępu do bazy danych.

Baza danych BinBase jest dostępna publicznie na licencji LGPL 2.0 (http://binbase.sourceforge.net), i jest dostępna przy użyciu różnych front-endów internetowych i bogatych aplikacji klienckich, jak również warstwy usług internetowych. Dokumentacja wymagana do instalacji i administracji systemu znajduje się również na tej stronie.

Bellerophon

Graficzny interfejs użytkownika (GUI) Bellerophon jest centralnym narzędziem administracyjnym dla BinBase i jest używany do zarządzania binami, przeglądania bazy danych i konfiguracji indeksu retencyjnego. Bellerophon jest opartą na Eclipse 3 aplikacją SWT (rich client platform – RCP). Zawiera możliwości wizualizacji oparte na JFreeChart i obsługuje zapytania do bazy danych poprzez framework Hibernate. Szkielet Hibernate wspiera mapowanie tabel bazy danych na obiekty. Dynamiczne tabele SWT i wizualizacje są tworzone z tych obiektów poprzez Java Reflection-API i XDoclet.

SetupX

SetupX jest bazą danych do projektowania badań, której podstawowe funkcje obejmują przechwytywanie metadanych eksperymentalnych do generowania klas, randomizację i planowanie sekwencji GC-TOF-MS oraz przechowywanie adnotowanych danych GC-TOF-MS wraz ze wszystkimi innymi plikami danych związanych z eksperymentem (np. zdjęcia, arkusze kalkulacyjne analiz, inne pliki danych instrumentalnych). Szczegóły dotyczące struktury SetupX zostały opisane . Stworzyliśmy odchudzoną wersję tej bazy danych, MiniX. Zapytania użytkowników o adnotacje BinBase poprzez stronę MiniX aktywują funkcję eksportu BinBase MiniX przez EJB i JMS. BinBase dodatkowo żąda informacji o klasach eksperymentalnych z MiniX poprzez EJB. MiniX jest projektem open source i może być pobierany i instalowany na licencji LGPL 2.0 (http://code.google.com/p/minix/).

algorytm filtrowania vocBinBase

Algorytm vocBinBase pobiera zdekonwolutowane widma i metadane dostarczone przez oprogramowanie Leco ChromaTOF oraz informacje o próbce z bazy danych projektu badania SetupX/MiniX i stosuje wielopoziomowy system filtrowania, który albo przypisuje widma do istniejących wpisów w bazie danych („Bins”), tworzy i dodaje nowe Bins do bazy danych, jeśli wszystkie kryteria jakości są spełnione, lub odrzuca widma o niskiej jakości, aby zachować integralność bazy danych (patrz Dodatkowy plik 1, rysunek S1). Każdy wpis do bazy danych lub „Bin” reprezentuje unikalny związek, który dopasował się do wszystkich progów widma masowego, instrumentalnych i klasowych metadanych. Biny są minimalnie zdefiniowane przez następujące właściwości: widmo masowe, indeks retencji (RI), masa kwantyfikacyjna, lista unikalnych mas i unikalny numer identyfikatora.

Przetwarzanie wstępne danych

Dane surowe są wstępnie przetwarzane przez oprogramowanie Leco ChromaTOF i przechowywane jako pliki *.peg specyficzne dla ChromaTOF, ogólne wyniki *.txt i ogólne pliki ANDI MS *.cdf. Parametry przetwarzania danych ChromaTOF (v. 2.32) określone w krokach przetwarzania wstępnego obejmują ustawienie linii podstawowej tuż nad szumem (wartość = 1), brak wygładzania i stosunek sygnału do szumu minimum 20. Pliki *.txt są eksportowane na serwer plików w celu dalszego przetwarzania przez algorytm. Algorytm vocBinBase jest kompatybilny z oprogramowaniem ChromaTOF w wersjach od 2.32 do obecnej, 4.33.

Weryfikacja spektralna

Po zaimportowaniu wszystkich zdekonwolutowanych widm wszystkich chromatogramów badania biologicznego (format *.csv), widma są sprawdzane pod kątem obecności i obfitości unikatowego jonu (względem piku podstawowego), obecności wszystkich mas wierzchołkowych (mas, które dzielą maksimum intensywności z maksimum piku unikatowego jonu) oraz liczby pików, które przekraczają progi intensywności wierzchołkowej. Walidacja spektralna jest pierwszym filtrem jakości danych; chromatogramy z przeciążonymi pikami i błędami dekonwolucji są używane tylko do dopasowania pików, ale nie do generowania Bin.

Obliczenia indeksu retencji oparte na estrach metylowych kwasów tłuszczowych

Algorytm BinBase do korekcji indeksu retencji najpierw stosuje filtr pików bazowych do wszystkich widm w celu zlokalizowania markerów FAME RI (nie jest używana informacja o czasie retencji). Z tej przefiltrowanej listy pik FAME o najwyższym wyniku podobieństwa widma masowego jest wykorzystywany jako punkt odniesienia, od którego stosowane są miary odległości do wyższych i niższych czasów retencji w celu zlokalizowania wszystkich innych znaczników RI. Po znalezieniu wszystkich wymaganych znaczników FAME, krzywa korekcyjna jest obliczana przy użyciu regresji liniowej dla dwóch pierwszych i dwóch ostatnich wzorców oraz regresji wielomianowej piątego rzędu dla wzorców znajdujących się pomiędzy nimi. Regresja wielomianowa jest stosowana w skalibrowanym zakresie w celu uwzględnienia bezwzględnych i względnych przesunięć czasu retencji, które różnią się od regresji liniowej przy wczesnych i późnych czasach retencji. Ponieważ wielomiany wysokiego stopnia słabo radzą sobie z ekstrapolacją, regresja liniowa jest wykorzystywana do ekstrapolacji poza zakres markera RI. W przypadku, gdy nie znaleziono wszystkich wczesno- i późnoelastycznych markerów RI, generowanie nowych koszy jest wyłączone, ale dopasowywanie istniejących koszy jest nadal wykonalne.

Parametry użyte do znalezienia markerów RI dla próbek lotnych wymagały znacznej modyfikacji w stosunku do tych użytych w algorytmach metabolitów. Ustawienia dopasowania i wzorce pików bazowych musiały zostać ponownie zdefiniowane, aby uwzględnić rozszerzenie FAME o C4 i C6, jak również zmianę zakresu m/z z 85-500 na 35-500. To rozszerzenie zakresu m/z do niższych wartości jest absolutnie wymagane dla związków lotnych, ponieważ nie są one zdezaktywowane TMS, a zakres 35-85 m/z dostarcza ważnych danych fragmentacyjnych pomocnych w identyfikacji związków. Aby uniknąć utraty danych wysokiej jakości, w których FAME nie były w specyfikacji, zmodyfikowano istniejące algorytmy, aby umożliwić zastosowanie krzywej korekcyjnej z poprzedniej lub późniejszej próbki pobranej tego samego dnia do danej próbki. Jeśli nie znaleziono takich ważnych danych RI, okna wyszukiwania wydłużono do dziesięciu dni; w przeciwnym razie generowana jest krzywa częściowa z wykorzystaniem markerów RI znalezionych w pojedynczej próbce. We wszystkich tych przypadkach, generowanie Bin jest wyłączone, ale wszystkie istniejące Bin są przypisywane.

Adnotacja pików przez algorytm BinBase

Metadane ChromaTOF używane w adnotacji pików przez algorytm BinBase obejmują podobieństwo widma masowego, czystość piku (oszacowanie liczby, bliskości i podobieństwa współwystępujących pików), indeks retencji, stosunek sygnału do szumu, unikalny jon, jony wierzchołkowe i unikalny stosunek masy do piku bazowego. Dodatkowe metadane podawane przez oprogramowanie ChromaTOF (np. wysokość piku, powierzchnia %) nie są wykorzystywane przez algorytm. Po korekcji RI (opisanej powyżej), widma są sekwencyjnie adnotowane według malejącej intensywności piku. Dla danego piku algorytm ustawia okno RI (± 2,000 jednostek FAME RI, ~2 sek.) i wykorzystuje filtr dopasowania unikalnych jonów, aby dopasować unikalny jon lub jony wierzchołkowe zdekonwolutowanego piku w celu wygenerowania listy możliwych przypisań Bin. Przy użyciu tylko tych dwóch parametrów, osiągany jest wysoki stopień filtrowania. Na przykład, związek o wartości FAME RI 446700 i unikalnym jonie m/z 93, ograniczenia filtra RI redukują liczbę porównań widm masowych z 1537 pozycji do ośmiu potencjalnych trafień. Ograniczenie unikalnego jonu jeszcze bardziej zmniejsza liczbę możliwych dopasowań Bin z ośmiu trafień do dwóch kandydatów (rysunek 3). Dopiero na tym etapie stosowany jest filtr podobieństwa widm masowych, który wykorzystuje zmienne progi oparte na stosunku sygnału do szumu piku i czystości piku. Obfity, dobrze rozpuszczalny pik wymaga wyższego wyniku podobieństwa widma masowego dla udanej anotacji niż mały lub współwystępujący pik.

Rycina 3
figure3

Przykład demonstrujący algorytm filtrowania. Dane lotne zebrane z przestrzeni powietrznej zranionego liścia pomarańczy są złożone (A) i konieczna jest dekonwolucja spektralna, aby rozwiązać problem nakładających się pików. Nakładanie 7 z 465 zmierzonych profili elucji mas (m/z 93, 111, 114, 115, 132, 136, 150) jest pokazane od 400-412 sekundy (B). Zdekonwolutowane widma masowe i metadane pików są wprowadzane do algorytmu. Pierwsze dwa filtry wykorzystują informację o RI i informację o unikalnych jonach. Są one bardzo skuteczne w zawężaniu możliwości dopasowania do bazy danych, jak pokazano dla piku #122 (C).

W efekcie, różne progi dla każdego parametru mogą być zdefiniowane dla różnych pików. W przykładzie przedstawionym powyżej (rysunek 3), pik jest rozsądnie czysty (czystość piku = 0,1137) i wysoki wynik podobieństwa widma masowego jest wymagany dla dopasowania Bin. W oparciu o te ostateczne kryteria filtrowania i wyniki podobieństwa widma masowego dla linalolu (917) i terpinolenu (<500), ostatecznym przypisaniem związku w tym przykładzie jest linalol. W tym konkretnym przykładzie istnieją w rzeczywistości trzy kosze w obrębie ± 2000 jednostek FAME RI, z których dwa mają unikalną wartość jonu m/z 93. Ten drugi Bin z unikalnym jonem m/z 93 jest w rzeczywistości terpinolene.

Na tym etapie w adnotacji, więcej niż jeden Bin przypisanie może pozostać (np. stereoizomery, które mogą eluować w oknie RI wyszukiwania). Izomer z najbliższym pasującym RI jest następnie opisywany, chyba że alternatywny Bin ma znacznie większy wynik podobieństwa. Widma, które są odfiltrowane w filtrze izomerów mogą nadal pasować do innych sąsiednich koszy i dlatego są ponownie wprowadzane do algorytmu adnotacji.

Generowanie nowego kosza – śledzenie nieznanych związków

W przypadku, gdy widmo nie pasuje do istniejącego kosza, algorytm BinBase generuje nowy kosz, jeśli spełnione są określone, bardzo rygorystyczne kryteria. Po pierwsze, dane widmo musi przejść ścisłe progi jakości widma masowego oparte na czystości (wartość czystości < 1.0) i intensywności (S/N > 25). Progi dla filtra widma masowego generującego bin są bardziej rygorystyczne niż dla filtra podobieństwa, aby zapewnić, że tylko obfite i czyste widma staną się nowymi binami. Po drugie, potencjalny nowy Bin musi przejść przez filtr klasy eksperymentalnej zanim zostanie zatwierdzony. Filtr ten wymaga, aby nowy Bin został wykryty w co najmniej 80% wszystkich próbek klasy eksperymentalnej, aby zapewnić jego tożsamość jako prawdziwej zmiennej, a nie przypadkowego zanieczyszczenia. Wszystkie Bin bazy danych zostały wygenerowane przez algorytm zgodnie z opisem na podstawie danych zebranych w eksperymentach laboratoryjnych i terenowych.

Post-matching i zamiany

Po tym jak wszystkie widma wszystkich klas eksperymentalnych zostały opatrzone adnotacjami, tworzona jest pełna lista Bin zawierająca wszystkie Bin znalezione w całym eksperymencie. Następnie wszystkie widma są ponownie dopasowywane do listy Bin (post-matching) w celu przeszukania wszystkich Bin, w tym wszelkich nowo wygenerowanych Bin, we wszystkich próbkach. W tym kroku, widma w próbkach, które nie przeszły bardziej rygorystycznych progów MS wymaganych do wygenerowania Bin, mogą przejść progi wymagane do przypisania Bin.

W niektórych przypadkach Bin nie jest pozytywnie wykryty we wszystkich chromatogramach albo dlatego, że jest nieobecny lub jest mało obfity (prawdziwy negatyw), albo jest obecny, ale kryteria jakości nie są wystarczające, aby umożliwić przypisanie (fałszywy negatyw). Skutkowałoby to wartością zerową w macierzy danych, co utrudnia późniejsze analizy statystyczne. Opracowano i zaprogramowano w algorytmie strategię obliczania wartości zastępczej w takich przypadkach. Najpierw algorytm określa średni czas retencji dla każdego metabolitu w sekwencji analitycznej poprzez obliczenie średniego indeksu retencji dla próbek i przekształcenie go z powrotem na czas retencji przy użyciu krzywej korekcyjnej indeksu retencji. Następnie otwierane są surowe, nieprzetworzone chromatogramy (formaty plików netCDF lub ANDI MS) i podawana jest maksymalna intensywność jonów w wybranym kwantyfikacyjnym śladzie jonowym dla każdego brakującego związku lotnego w czasie ±2s wokół docelowego czasu retencji minus lokalny szum tła dla tego docelowego jonu w czasie ±5s wokół docelowego czasu retencji. Intensywność jonów odjętych z tła jest podawana w tabeli wyników wraz z kodowaniem kolorami, aby wskazać wyniki jako przypisanie „drugiego przejścia”. Walidacja algorytmu zastępowania została przeprowadzona przez porównanie ręcznych adnotacji zastąpionych wartości w zestawach próbek z ich wartościami zastępczymi algorytmu.

vocBinBase Report

Wszystkie Bins wykryte w co najmniej 80% klasy eksperymentalnej są zawarte w folderze raportu wyników. Dodatkowo, folder raportu zawiera plik wyników dla wszystkich Bins wykrytych w co najmniej 50% klasy eksperymentalnej. Wynik 50% może być wykorzystany przez badaczy do uzupełnienia 80% zbioru danych o więcej zidentyfikowanych metabolitów lub do oceny mniej pewnie znalezionych lub rzadkich pików. Każdy wpis w wyeksportowanej tabeli Bin jest raportowany jako intensywność masy kwantyfikatora Bin, który domyślnie jest unikalnym jonem, chociaż wartość ta może być zmieniona ręcznie na dowolny jon w widmie przez administratora bazy danych. Używamy wysokości pików, a nie powierzchni pików z kilku powodów. Wysokości pików są lepsze niż powierzchnie pików dla małych pików, ponieważ ustawienia linii bazowej mają większy wpływ na powierzchnie pików dla małych pików niż dla większych pików. Dodatkowo, wysokości pików oparte na zdefiniowanych unikalnych jonach zapewniają bardziej stabilną miarę niż inne parametry, takie jak dTIC lub TIC, ponieważ w przypadku analizy danego związku w różnych chromatogramach, liczba, a tym samym połączone natężenie wykrytych jonów będzie się różnić, w zależności od obfitości i czystości piku.

Wszystkie kosze eksportowane przez bazę danych vocBinBase są zgłaszane z unikalnym identyfikatorem bazy danych, jonem kwantyfikacji, wartością indeksu retencji i kompletnym widmem masowym zakodowanym jako ciąg (Rysunek 4). Wpisy do bazy danych są nazywane przy użyciu biblioteki lotnych związków roślinnych Adamsa (opisanej poniżej). Związki, które nie są pochodzenia roślinnego, w tym pestycydy, plastyfikatory i inne zanieczyszczenia, są opisywane przy użyciu biblioteki NIST-RI. Znane artefakty związane ze spadkiem kolumny są opisywane w vocBinBase, ale nie są eksportowane do użytkowników w raportach wyników (m/z 207, 221, 281, 355). Administratorzy bazy danych mogą ręcznie wykluczyć (lub włączyć) piki z listy raportowanych Bins. Na przykład, artefakty oparte na Twister™ są ręcznie wybierane do wykluczenia w tabelach wyników. Arkusze danych wyników są tworzone w formatach XLS i TXT (lub w razie potrzeby XML). Po zidentyfikowaniu, pliki Bins są również zgłaszane z ich nazwą chemiczną i identyfikatorem PubChem.

Rysunek 4
figure4

Przykładowy raport vocBinBase podkreślający funkcje raportu. Wszystkie Bins wyeksportowane przez bazę danych vocBinBase są raportowane z unikalnym identyfikatorem bazy danych, jonem kwantyfikacyjnym, indeksem retencji i kompletnym widmem masowym zakodowanym jako ciąg znaków. Obfitość związków jest raportowana jako intensywność masy kwantyfikatora Bin. Wpisy do bazy danych są nazwane przy użyciu biblioteki lotnych związków roślinnych Adamsa, a hiperłącza identyfikatorów PubChem są dołączone do zidentyfikowanych związków.

Identyfikacja Bin

Identyfikacja Bin jest wspierana przez bibliotekę Adamsa widm masowych i danych indeksu retencji dla ponad 2000 oczyszczonych lotnych związków roślinnych i składników olejków eterycznych, zweryfikowanych dla wielu związków przy użyciu autentycznych standardów w naszym laboratorium. Przed załadowaniem biblioteki Adams do Bellerophon w celu dopasowania do Bin, biblioteka została przekonwertowana z formatu HP Chemstation do formatu biblioteki NIST za pomocą programu Lib2NIST dostępnego na stronie internetowej NIST (http://chemdata.nist.gov). Dodatkowo, wartości RI Adamsa oparte na alkanach zostały przekonwertowane na ich odpowiedniki BinBase FAME RI. Konwersję RI między wariantami chromatograficznymi Adamsa i Fiehna (różne programowanie temperatury pieca GC i producent kolumny) wykonano za pomocą wielomianu 2. rzędu i podano w http://fiehnlab.ucdavis.edu/projects/VocBinBase/. Wszystkie zidentyfikowane substancje lotne w vocBinBase mają adnotacje z identyfikatorami chemicznymi PubChem i kluczami haszującymi InChI kodującymi strukturę, aby umożliwić odniesienia do chemicznych baz danych i narzędzi informacji strukturalnej.

Jakość konwersji RI została przetestowana przez wstrzyknięcie autentycznych wzorców odniesienia obecnych w bibliotece Adamsa w standardowych parametrach operacyjnych. Porównanie obliczonych wartości z wartościami wyznaczonymi doświadczalnie dla 70 związków referencyjnych dało korelację 0,9995 z błędem standardowym 3,380 jednostek RI (odchylenie standardowe błędu resztkowego, RIcalculated-RIexperimental). Porównanie obliczonych i doświadczalnych wartości dla 130 adnotacji biblioteki Adamsa dało podobne wartości (r2 = 0,9994, SE = 3,320 jednostek RI). Wykres bezwzględnego odchylenia RI (RIcalculated-RIexperimental) dla 70 standardów i 130 adnotacji bibliotecznych ujawnił, że 61% wstrzykniętych związków mieściło się w granicach jednego błędu standardowego, a 58% anotowanych związków mieściło się w granicach jednego błędu standardowego od wartości obliczonej. Zobacz plik dodatkowy 2, rysunek S2, aby zobaczyć wykresy danych.

Zawartość bazy danych

Obecnie baza danych zawiera widma z 3 435 próbek reprezentujących 18 gatunków. Pomimo 1.7 miliona zaimportowanych, w pełni zdekonwoluowanych widm, baza danych vocBinBase zawiera obecnie tylko 1537 unikalnych Bins. Spośród wszystkich importowanych widm, 45% nie spełnia progów algorytmu i jest odrzucane; widma takie są zaszumione i niespójne. Im niższe progi użytkownicy ustawią dla detekcji pików w ChromaTOF (np. obniżenie kryteriów wyszukiwania pików z s/n>20 do s/n>3), tym więcej pików zostanie wykrytych. Większość odpowiadających im widm pików zostałaby odrzucona przez algorytm BinBase jako zbyt zaszumiona i nie byłaby podawana w arkuszach wyjściowych. Podobny odsetek odrzucanych widm został zgłoszony przez narzędzie SpectConnect, które wykorzystuje dane dekonwolucji AMDIS z instrumentów GC-quadrupole MS. Przy zastosowanych tutaj ustawieniach, pozostałe 55% widm spełnia kryteria jakości i jest anotowane oraz przechowywane w bazie danych (Rysunek 5). Około 12% anotowanych związków to artefakty polisiloksanowe pochodzące z kolumn i Twister™; artefakty te są anotowane przez algorytm, ale nie są uwzględniane w raportach BinBase eksportowanych dla użytkowników. Jak opisano powyżej, adnotacje opierają się na wielu kryteriach, a niektóre progi są zmienne w zależności od różnych wartości metadanych; wymagany próg podobieństwa MS zależy od obfitości i czystości piku (np. pik o niskiej czystości wymaga mniej rygorystycznego dopasowania podobieństwa MS). Niewielki procent anotowanych widm (4%) jest generowany przez bardzo czyste piki (czystość <0.15) z wysokim wynikiem podobieństwa MS, podczas gdy większość wpisów do bazy danych jest generowana przez czyste piki (czystość<1.5, 46%) lub nie czyste piki (czystość>1.5, 39%).

Rysunek 5
figura5

Efekt filtrowania algorytmu vocBinBase. Widma muszą spełniać wiele kryteriów, aby mogły być anotowane i przechowywane w bazie danych. 45% wszystkich przychodzących widm nie spełnia kryteriów i jest odrzucane jako hałaśliwe i niespójne. Pozostałe 55% jest opisywane i przechowywane w bazie danych. 12% opisanych widm to kolumny lub artefakty polisiloksanowe Twister™. Dalszy podział opisanych widm oparty na czystości piku, s/n i podobieństwie widma masowego jest pokazany.

Z obecnych 1,537 koszy, 211 zostało zidentyfikowanych jako prawdziwe substancje lotne poprzez dopasowanie widma masowego do indeksu retencji. Ponadto, 161 koszy zostało oznaczonych jako artefakty polisiloksanowe (które w związku z tym nie są eksportowane do arkuszy danych wyników badań), a pozostałe kosze nie zostały jeszcze zidentyfikowane. Wizualizację zawartości bazy danych LZO z wykorzystaniem podobieństwa spektralnego (wszystkie Biny) oraz współczynnika podobieństwa chemicznego Tanimoto (zidentyfikowane Biny) przeprowadzono przy użyciu Cytoscape (Rysunek 6). Współczynnik podobieństwa Tanimoto jest metryką podobieństwa, która oblicza wynik wskazujący poziom podobieństwa pomiędzy porównywanymi cząsteczkami. Przegląd sieci zapewnia wizualną reprezentację relacji pomiędzy 1537 Bins. Zidentyfikowane związki są reprezentowane przez czerwone węzły, a niezidentyfikowane związki przez szare węzły. Węzły skupione blisko siebie są bardziej podobne niż węzły z pojedynczym połączeniem na krawędzi sieci. Niebieskie krawędzie łączą zidentyfikowane substancje lotne o podobieństwie strukturalnym większym niż 700. Zwróć uwagę, że artefakty polisiloksanowe grupują się z dala od związków, ze względu na bardzo charakterystyczny wzór fragmentacji. Regiony sieci ze zidentyfikowanymi związkami (czerwone węzły) zostały oznaczone informacją o klasie.

Rysunek 6
figure6

Wizualizacja zawartości bazy danych vocBinBase. Węzły czerwone to związki zidentyfikowane, węzły szare to związki niezidentyfikowane. Niebieskie krawędzie łączą zidentyfikowane substancje lotne o podobieństwie strukturalnym większym niż 700.

.

Dodaj komentarz