Shared polymorphisms are abundant between A. thaliana i C. rubella
W populacji 80 dostępów A. thaliana , było 4,902,039 SNPs (z 119,146,348 miejsc), wśród których 2,044,731 miało mniejszą częstotliwość alleli (MAF) > 0.05. W populacji C. rubella, wywołując SNPs z 22 akcesji C. rubella (Dodatkowy plik 1: Tabela S1, w tym 21 opublikowanych akcesji i jedna akcesja sekwencjonowana w tym badaniu ) przeciwko genomowi referencyjnemu C. rubella , zidentyfikowaliśmy 2 149 643 SNPs (z 134 834 574 miejsc), z których 1 240 547 miało MAF > 0,05. Aby zidentyfikować wspólne polimorfizmy między dwoma gatunkami, zdefiniowane jako ta sama para alleli w konkretnym ortologicznym miejscu, najpierw skonstruowaliśmy zestaw ortologicznych par genów między dwoma gatunkami. Aby zagwarantować, że ortologiczne geny są konserwowane, oprócz genomów referencyjnych A. thaliana i C. rubella, dołączyliśmy Arabidopsis lyrata , kongener A. thaliana. Uzyskaliśmy 16,047 ortologicznych par genów i usunęliśmy 33, które miały tandemowe duplikacje w którymkolwiek z trzech odniesień i ostatecznie uzyskaliśmy w sumie 16,014 ortologicznych par genów między A. thaliana i C. rubella do dalszej analizy.
Region genowy 16,014 ortologicznych genów w A. thaliana obejmował 39,275,210 bp i podobnie, w C. rubella, obejmował 40,936,262 bp. Regiony te zawierały 3,889,495 stałych różnic i ten wysoki współczynnik (~ 10%) jest zgodny z długim czasem dywergencji (~ 8 MYA) tych dwóch gatunków. W tych regionach znaleźliśmy 1,122,845 miejsc bi-allelicznych (426,123 z MAF > 0,05) w A. thaliana i 452,116 miejsc bi-allelicznych (279,780 z MAF > 0,05) w C. rubella. Wśród tych polimorficznych miejsc, 19,732 ortologicznych miejsc było polimorficznych w obu gatunkach, z których 8535 dzieliło tę samą parę alleli (shared SNP ) (plik dodatkowy 1: Tabela S2).
W porównaniu z sekwencjami regionu niekodującego, sekwencje regionu kodującego są bardziej konserwowane i dają solidne wyrównania między dwoma wysoce rozbieżnymi gatunkami; dlatego najpierw skupiliśmy się na shSNPs w regionach kodujących. MAF > 0,05 był wymagany w obu gatunkach, aby zagwarantować wiarygodność SNP i uwzględnić oczekiwany nadmiar alleli o pośrednich częstotliwościach dla miejsc poddanych długoterminowej selekcji równoważącej. Znaleźliśmy 1503 shSNPs w regionach kodujących 1007 genów.
Dalsze filtrowanie zostało zastosowane do 1503 shSNPs, aby uniknąć błędów genotypowania i mapowania. Filtrowanie zostało zastosowane tylko do danych SNP C. rubella, ponieważ pobraliśmy macierz SNP dla A. thaliana. Aby uniknąć fałszywych SNP spowodowanych duplikacjami w genomie, oceniliśmy możliwość mapowania każdego regionu 50-bp w C. rubella i do dalszej analizy zatrzymaliśmy tylko te miejsca, które znajdowały się w regionach jednoznacznie możliwych do mapowania. W ten sposób pozostało tylko 580 miejsc. Ostatecznie, po usunięciu miejsc niskiej jakości oznaczonych przez narzędzie do wywoływania SNP, uzyskaliśmy 546 wiarygodnych współdzielonych kodujących SNP w 433 genach. Szczegóły procesu filtrowania można znaleźć w sekcji „Metody”, a widok tego procesu przedstawiono na Rys. 2.
Historia demograficzna dwóch gatunków
Wykrywanie prawdziwych sygnałów TSP z obfitych wspólnych polimorfizmów opiera się na pełnym zrozumieniu historii demograficznej dwóch gatunków. Wspólne spektrum częstotliwości miejsc (wspólne SFS) było szeroko stosowane do badania historii demograficznej różnych organizmów. Dlatego najpierw wyodrębniliśmy czterokrotnie zdegenerowane miejsca z alignacji genomów referencyjnych A. thaliana i C. rubella na 16 014 ortologów. Ostatecznie uzyskaliśmy 2 011 573 miejsc do analizy demograficznej (szczegóły w „Metodach”).
Symulacje koalescencji zostały następnie przeprowadzone przy użyciu fastsimcoal2 w podstawowym modelu bez przepływu genów (M1, Ryc. 3) i modelu zawierającym starożytny przepływ genów między dwoma rodzajami (M2, Ryc. 3). Rozważaliśmy tylko starożytny przepływ genów między dwoma gatunkami, ponieważ gatunki należące do różnych rodzajów i z różną liczbą chromosomów (pięć vs osiem) są bardzo mało prawdopodobne, aby doszło do niedawnej introgresji. Ponadto, w obu rodzajach, A. thaliana jest jedynym gatunkiem z pięcioma, a nie ośmioma chromosomami; dlatego ograniczyliśmy starożytny przepływ genów zanim A. thaliana oddzieliła się od reszty rodzaju Arabidopsis. W każdym modelu ustaliliśmy czas dywergencji obu rodzajów na 8 MYA , co odpowiada 8 milionom pokoleń temu, i założyliśmy współczynnik spontanicznej mutacji 7 × 10-9 na bp na pokolenie. Rozważaliśmy różne wielkości populacji dla obu gatunków na podstawie zdarzeń przejściowych od ich odpowiednich przodków; A. thaliana przeszła redukcję populacji po tym, jak oddzieliła się od reszty rodzaju Arabidopsis około 6 MYA, a C. rubella doświadczyła bardzo niedawnego wąskiego gardła związanego z wyodrębnieniem się z C. grandiflora . Użyliśmy symulacji koalescencyjnych z zastosowaniem metody złożonego prawdopodobieństwa zaimplementowanej w fastsimcoal2, aby dopasować oba modele do wspólnego SFS obu gatunków obliczonego na podstawie wyodrębnionych 2,011,573 trans-gatunkowych miejsc czterokrotnie zdegenerowanych. Porównaliśmy oba modele używając kryterium informacyjnego Akaike’a (AIC) i wagi dowodów Akaike’a (w), tak jak w Excoffier et al. Model bez starożytnego przepływu genów (M1) pasował nieco lepiej (Max EstLhood: -682010 vs -682028), z niższym AIC i wyższą wagą niż modele drugiego modelu (Rys. 3, plik dodatkowy 2: Tabela S3). Ponadto, dwa bliskie prawdopodobieństwa wskazują, że efekt ancestralnego przepływu genów powinien był zostać wymazany w długiej skali czasowej i wnosi niewiele do jakości modelu.
Podług modelu M1, obecna N e A. thaliana wynosiła ~ 519 000 przy 95% przedziale ufności (CI) 486 368-527 574, z dużej populacji przodków (~ 2 230 000, 95% CI = 1 085 330-4 876 051) przed oddzieleniem się od reszty rodzaju Arabidopsis przy ~ 5,84 MYA (95% CI = 5,27-6,70). C. rubella wyewoluowała ~ 0,40 MYA (95% CI = 321 998-500 317) z populacji przodków o dużej N e wynoszącej ~ 4 037 000 (95% CI = 2 076 868-5 165 614) i obecnej N e wynoszącej ~ 129 000 (95% CI = 126 383-157 779). Oba rodzaje wyodrębniły się z populacji ancestralnej o N e = ~ 4 930 000 (95% CI = 4 560 931-4 969 696). W modelu M2 z przepływem genów uzyskano podobne oszacowania parametrów, z wyjątkiem większego N e dla rodzaju Arabidopsis (~ 3 270 000, 95% CI = 797 016-4 342 346) i mniejszego N e dla rodzaju Capsella (~ 1 972 000, 95% CI = 2 126 346-6 248 003). Oszacowano silniejszy przepływ genów z Capsella do Arabidopsis niż w odwrotnym kierunku (wskaźnik migracji na pokolenie; 1 × 10-8, 95% CI = 4.0 × 10-15-1.1 × 10-6 vs 7 × 10-14, 95% CI = 5.7 × 10-15-6.1 × 10-5), chociaż oba były słabe (patrz plik dodatkowy 2: Tabela S3 dla szczegółów).
Polimorfizmy międzygatunkowe między dwoma gatunkami muszą być pod wpływem selekcji równoważącej
Polimorfizmy międzygatunkowe mogą być neutralne, a ich prawdopodobieństwo może być przybliżone, biorąc pod uwagę określone parametry demograficzne. Podobnie jak w badaniu TSP u ludzi i szympansów, w warunkach ewolucji neutralnej, wspólne polimorfizmy były identyczne przez zejście w naszym systemie tylko wtedy, gdy: (1) co najmniej dwa lineages A. thaliana i dwa lineages C. rubella nie uległy koalescencji przed rozszczepieniem A. thaliana-C. rubella; oraz (2) lineages niosące ten sam allel uległy koalescencji przed lineages niosącymi różne allele. Prawdopodobieństwo to zależy głównie od warunku (1) i można je przybliżyć następującym wzorem opartym na teorii koalescencji :
gdzie T odnosi się do czasu dywergencji dwóch rodzajów, a N A/N C odnosi się do wielkości populacji A. thaliana/C. rubella, odpowiednio. Zgodnie z naszymi szacunkami w modelu M1, biorąc pod uwagę zmiany wielkości populacji, prawdopodobieństwo identyczności przez pochodzenie jest rzędu 10-9. Biorąc pod uwagę, że mamy < 39,275,210 wyrównanych miejsc między dwoma gatunkami w regionie genowym, spodziewamy się, że całkowita liczba neutralnych TSPs będzie < 1 przez sam dryf genetyczny.
Założyliśmy losowe kojarzenie w naszym modelu; jednak oba gatunki są samorodne i struktura populacji prawdopodobnie istnieje w obrębie gatunków. Niemniej jednak, ostatnie wydarzenia demograficzne powinny mieć stosunkowo niewielki wpływ, ponieważ wymagamy głębokich zdarzeń koalescencji przez przypadek w obu gatunkach w tym samym regionie genomu. Jak pokazano w poprzednim badaniu, nawet głęboka struktura populacji w obrębie współczesnych ludzi powinna mieć minimalny wpływ na prawdopodobieństwo. W tym badaniu, oba gatunki mają historię dominującego outcrossingu. A. thaliana przeszła z outcrossingu do samosiewu zaledwie milion lat temu, a C. rubella znacznie później. Nawet jako gatunki samosiejące, wskaźnik outcrossingu w lokalnych populacjach wynosi aż 14,5%. Dlatego struktury populacji, jeśli istnieją, są mało prawdopodobne, aby utrzymać się w długiej skali czasowej, a jego wpływ na prawdopodobieństwo może być zatem ignorowany.
Identyfikacja trans-gatunkowych polimorfizmów w ramach selekcji równoważącej
TSPs można odróżnić od mutacji neutralnych, ponieważ regiony pod długoterminową selekcją równoważącą grupują się według alleli, a nie według gatunków. Dlatego następnie skupiliśmy się na 433 genach kandydujących z wiarygodnymi współdzielonymi SNP w regionie kodującym i zbadaliśmy haplotypy obejmujące każdy współdzielony bi-alleliczny SNP z MAF > 0,05 w regionach genowych.
Aby oszacować długość każdego segmentu niosącego sygnał TSPs, użyliśmy formuły wyprowadzonej wcześniej, która w dużej mierze opiera się na szybkości rekombinacji. Z punktu widzenia koalescencji, taki segment nie jest rozbijany przez rekombinację, dopóki wszystkie linie z tej samej klasy allelicznej nie połączą się z ich najnowszym wspólnym przodkiem w populacji przodków. Przyjmując tempo rekombinacji na poziomie 3,6 cM/Mb dla obu gatunków, długość segmentu była teoretycznie bardzo krótka, tj. zaledwie kilka par zasad. Biorąc pod uwagę, że oba gatunki powstały niedawno ze swoich outcrossingowych protoplastów i efektywny współczynnik rekombinacji mógł być w przeszłości znacznie wyższy, oczekiwana długość może być jeszcze krótsza. Szacunek ten sugeruje, że w neutralnych warunkach naszego systemu bardzo trudno jest odkryć jakikolwiek segment bez przerwy w rekombinacji. Jednakże, gdy istnieje selekcja równoważąca, selekcja może tłumić rekombinację w otaczającym regionie. Dlatego długość segmentu powinna być większa niż teoretycznie oszacowana w modelu neutralnym. W ten sposób przeskanowaliśmy region genowy przy użyciu rozmiaru okna 100 bp i rozmiaru kroku 1-bp.
W 433 genach kandydujących wykryliśmy 975 wspólnych bi-allelicznych SNPs (w tym zarówno egzonicznych, jak i intronowych SNPs z MAF > 0,05). Podobnie jak w poprzednich badaniach , następnie szukaliśmy okien obejmujących co najmniej dwa z 975 SNPs, które są w silnym linkage disequilibrium (r 2 > 0,5) w obu gatunkach wśród zakwalifikowanych okien (wyrównanych na co najmniej 95% długości; patrz „Metody” dla szczegółów) w celu identyfikacji drzew allelicznych. Te ograniczenia mogą znacznie zmniejszyć liczbę fałszywych pozytywów i dać drzewa alleliczne, jeśli istnieją, z wysoką rozdzielczością. W końcu zidentyfikowaliśmy okna z pięciu genów, AT1G35220, AT2G16570, AT4G29360, AT5G38460 i AT5G44000, obejmujące dziesięć miejsc, jako kandydatów TSP pod długoterminową selekcją równoważącą (plik dodatkowy 3: Rysunek S1). Żaden z pięciu ortologicznych genów, które tu znaleźliśmy, nie jest skorelowany ze zmiennością liczby kopii (CNV) i wszystkie mają tylko jedno trafienie, gdy porównaliśmy je z referencjami dwóch gatunków, odpowiednio (patrz „Metody” dla szczegółów).
Aby zweryfikować zidentyfikowane regiony, najpierw określiliśmy wszystkie haplotypy w zidentyfikowanych regionach z każdej populacji i ponownie zsekwencjonowaliśmy reprezentatywne dostępy dla każdego haplotypu (patrz plik dodatkowy 1: Tabela S4 dla starterów). Zgodnie z oczekiwaniami, wszystkie kandydujące miejsca TSP w pięciu genach zostały potwierdzone, a sekwencje dwóch gatunków w regionach kandydujących grupowały się raczej według alleli niż gatunków (Ryc. 4). W genie AT1G35220, dwa kandydujące miejsca TSP znajdowały się w całkowitym powiązaniu w regionie intronowym; region ten może być celem selekcji równoważącej lub powiązany z niewykrytym kodującym miejscem TSP.
Ale haplotypy każdego regionu grupują się według alleli, a nie gatunków, rzadko wykrywano współdzielenie haplotypów między dwoma gatunkami, z wyjątkiem AT2G16570 (Col-0 dzielił swój haplotyp z kilkoma dostępami C. rubella; Fig. 4. rubella; Rys. 4). Nie jest to zaskakujące, biorąc pod uwagę długi czas dywergencji; rozległe dzielenie haplotypów zwykle pojawia się w znacznie mniejszej skali czasowej i jest wywołane przez takie zdarzenia, jak niedawna introgresja między blisko spokrewnionymi gatunkami.
Neutralne badania symulacyjne zatwierdzają pięć genów kandydujących
Aby sprawdzić, czy obserwowane okna mogły być generowane losowo w warunkach ewolucji neutralnej, co skutkowałoby fałszywymi pozytywami, przeprowadziliśmy dodatkowe symulacje oparte na oszacowanych parametrach demograficznych przy użyciu fastsimcoal2 (Dodatkowy plik 4: Tekst S1). Oprócz neutralnych mutacji rekurencyjnych, przepływ genów może również skutkować wspólnymi SNP. W związku z tym przeprowadziliśmy symulacje zarówno dla modelu M1 (bez przepływu genów), jak i M2 (z dawnym przepływem genów), chociaż nasza analiza demograficzna wskazała, że M1 nieco lepiej pasuje do danych. W obu symulacjach uwzględniliśmy heterogeniczność we wskaźnikach mutacji dla różnych klas mutacji, zwłaszcza wyższy wskaźnik mutacji w miejscach CpG, co może skutkować fałszywymi pozytywami (Dodatkowy plik 1: Tabela S5, Dodatkowy plik 4: Tekst S1). Używając fastsimcoal2 , wygenerowaliśmy 1 000 000 neutralnych segmentów o długości 100 bp pod każdym modelem i szukaliśmy tych z dwoma lub więcej wspólnymi SNP i klastrami według alleli, jak szukaliśmy TSPs.
Dla obu modeli żaden z 1 000 000 przebiegów nie dał początek oknu, które spełniało nasze kryteria (plik dodatkowy 1: Tabela S6). Pomimo istnienia neutralnych wspólnych SNP, żadne symulowane okno nie dało drzewa allelicznego, ponieważ wszystkim oknom ze wspólnymi SNP towarzyszyło znacznie więcej stałych różnic między dwoma gatunkami, sugerując wyższe poziomy dywergencji niż różnorodności. Wynik ten sugeruje, że te symulowane neutralne wspólne SNP są raczej powtarzającymi się mutacjami niż TSP, a co ważniejsze, pięć genów, które znaleźliśmy nie są zgodne z neutralną ewolucją i tym samym okazały się prawdziwymi TSP pod równoważącą selekcją. Ostateczne miejsca i geny TSP są wymienione w Tabeli 1. Ponadto, wraz ze wspomnianym wcześniej badaniem demograficznym, nasze wyniki sugerują, że nawet jeśli miał miejsce starożytny przepływ genów, to w warunkach ewolucji neutralnej, TSP zostałyby utracone przez dryf w tym systemie.
Właściwości genów poddanych selekcji równoważącej
Następnie obliczyliśmy różnorodność nukleotydów (π) dla wszystkich regionów TSP w pięciu genach u każdego gatunku i wykorzystaliśmy symulowane sekwencje neutralne pod M1 do określenia poziomów różnorodności tła. Wszystkie regiony w pięciu genach wykazywały znacząco wyższe wartości π niż poziomy tła zarówno u C. rubella, jak i A. thaliana (test Wilcoxona-Manna-Whitneya, FDR-corrected P < 0,05, Tabela 2, Dodatkowy plik 3: Figura S2A), z wyjątkiem AT5G38460 w A. thaliana. Ponadto, allele tych genów wykazywały tendencję do pośrednich częstotliwości (test Wilcoxona-Manna-Whitneya, P = 0,0752/0,03474 dla A. thaliana/C. rubella; Dodatkowy plik 3: Figura S2B). Jednak pośrednia częstotliwość jest wskazówką na selekcję równoważącą, ale nie ostatecznym dowodem, ponieważ oczekuje się, że rozkład częstotliwości alleli w miejscach związanych z polimorfizmem zrównoważonym będzie wykazywał przesunięcie w kierunku równowagi częstotliwości, która może być przy dowolnej częstotliwości alleli .
Jeden z pięciu genów poddanych długoterminowej selekcji równoważącej w tym badaniu, AT1G35220, ma nieznaną funkcję, ale wykazuje fosforylację białka pod wpływem traktowania etylenem . Między innymi, AT2G16570 jest kluczowym enzymem w ścieżce biosyntezy nukleotydów purynowych i jest ważny dla podziału komórek, biogenezy chloroplastów i kiełkowania nasion; AT4G29360 jest białkiem rodziny 17 hydrolazy O-glikozylowej, zaangażowanym w reakcje obronne; AT5G38460 jest glikozylotransferazą i katalizuje transfer grupy glikozylowej z jednego związku (donora) do drugiego (akceptora) i jest zaangażowany w różne funkcje, w tym stres biotyczny; AT5G44000 jest S-transferazą glutationu, która jest zwykle zaangażowana w odpowiedzi na stres abiotyczny i biotyczny. Najwyraźniej te geny są potencjalnie zaangażowane w odpowiedź na stres biotyczny lub abiotyczny (AT4G29360, AT5G38460 i AT5G44000) lub podstawowe funkcje biochemiczne (AT2G16570).
Zgodnie z oczekiwaniami, geny poddawane selekcji równoważącej były funkcjonalnie ważne i wszystkie homologi pięciu genów istniały już w najnowszym wspólnym przodku roślin zielonych. Jak wskazuje Tabela S7 (plik dodatkowy 1: Tabela S7), homologi (ortologi lub paralogi) można znaleźć nawet w najbardziej bazalnym gatunku roślin zielonych, Chlamydomonas reinhardtii, dla wszystkich pięciu genów, z wyjątkiem AT4G29360, który może być śledzony z powrotem do Physcomitrella patens.
Jednakże loci, które są powszechnie akceptowane jako podlegające selekcji równoważącej, takie jak S-locus lub geny R , nie wyróżniały się w tym badaniu. Jest to oczekiwane, ponieważ te loci są zbyt zmienne, aby zidentyfikować je na podstawie krótkich odczytów. Na przykład, geny R są zbyt dynamiczne, aby nazwać je SNPs; S-locus nie istnieje w najnowszej anotacji genomu Arabidopsis i tylko jeden haplotyp S-locus jest utrzymywany u C. rubella od czasu przejścia z outcrossingu do samozapłodnienia i załamania się samokompatybilności. Ponadto, S-locus nie jest już poddawany selekcji równoważącej, ponieważ oba gatunki są obecnie samosiewne. W przeciwieństwie do tego, geny, które zidentyfikowaliśmy tutaj, chociaż starożytne, nie zostały kompleksowo zbadane i mogą zapewnić wgląd w typy genów podlegających selekcji równoważącej.
Dobór równoważący przyczynił się do adaptacji do rozbieżnych siedlisk
Aby sprawdzić, czy warianty alleliczne podlegające długoterminowej selekcji równoważącej są związane z dywersyfikacją ekologiczną, zbadaliśmy dywergencję w odniesieniu do 48 czynników ekologicznych (plik dodatkowy 5: Tabela S8A). Ze względu na brak informacji GPS i małą liczebność próby C. rubella, analiza ta była możliwa tylko dla prób A. thaliana. Struktura populacji jest zwykle silnie skorelowana z dywersyfikacją ekologiczną i dlatego może mylić nasze wyniki. W pierwszej kolejności sprawdziliśmy, czy któreś z miejsc TSP było skorelowane ze strukturą populacji w próbkach A. thaliana, chociaż taka struktura nie wpływa na prawdopodobieństwo zaobserwowania drzewa gatunkowego A. thaliana i C. rubella. Używając ADMIXTURE , stwierdziliśmy, że 80 próbek A. thaliana można podzielić na dwie grupy (plik dodatkowy 3: Figura S3; plik dodatkowy 6: Tabela S9) i tylko klasyfikacje alleliczne dwóch miejsc z genu AT5G38460 są znacząco skorelowane ze strukturą populacji (test chi kwadrat, FDR-corrected P < 0,05,; plik dodatkowy 1: Tabela S10). W ten sposób wykluczyliśmy AT5G38460 z kolejnych analiz ekologicznych.
Aby uzyskać dokładne zrozumienie dywergencji ekologicznej, użyliśmy 1135 ostatnio opublikowanych genomów A. thaliana . Po pierwsze, zastosowaliśmy proces „przerzedzania”, aby zagwarantować, że każda próbka była wysoce reprezentatywna dla swojego naturalnego siedliska, co pozostawiło 584 próbki (patrz „Metody”). Po drugie, dla każdego genu, sklasyfikowaliśmy 584 dostępy A. thaliana na dwie grupy w oparciu o fazowane haplotypy dla dwóch miejsc TSP (plik dodatkowy 5: Tabela S8B, C, niektóre próbki zostały usunięte, ponieważ nie mogły być fazowane). Następnie oceniliśmy dywergencję między dwiema grupami dostępów w odniesieniu do 48 czynników ekologicznych dla każdego z czterech genów. Co ciekawe, wszystkie z tych czterech genów były związane z dywergencją pewnych specyficznych parametrów ekologicznych. AT1G35220 i AT4G29360, w szczególności, wykazywały znaczącą dywergencję w odniesieniu do większości czynników ekologicznych związanych z temperaturą (Dodatkowy plik 5: Tabela S8 A, test Wilcoxona-Manna-Whitneya, FDR-corrected P < 0.05).
Następnie modelowaliśmy nisze ekologiczne dla wszystkich czterech genów. Najwyraźniej dwie grupy próbek dla każdego genu, jak wskazuje statystyka Warrena I, która mierzy podobieństwo nisz , wykazywały znacznie niższą obserwowaną tożsamość nisz niż 100 losowych permutacji (test t jednopróbkowy, FDR-corrected P < 0,01; Fig. 5a, plik dodatkowy 5: Tabela S8 D). Innymi słowy, dwie alleliczne grupy próbek wykazują znaczącą dywergencję niszową. Co więcej, próbki każdego typu allelicznego dla każdego genu były rozproszone, zamiast być izolowane do małego lokalnego obszaru (plik dodatkowy 3: Figura S4). Wyniki te sugerują, że wszystkie te loci są skorelowane z adaptacją.
Zbadaliśmy również zróżnicowanie ekspresji dla czterech genów pomiędzy dwiema odpowiadającymi grupami w oparciu o fazowe haplotypy w dwóch miejscach TSP wybierając 84 opublikowane transkryptomy pobrane z tkanki liścia od A. thaliana (jedna próbka była sekwencjonowana dla każdej akcesji, a poziom ekspresji był mierzony jako fragmenty na kilobazę eksonu na milion zmapowanych fragmentów) jako nasze poprzednie badanie. Jeden gen, AT5G44000, wykazywał znaczącą różnicę ekspresji (test Wilcoxona-Manna-Whitneya, FDR-corrected P < 0,05, ryc. 5b) między dwiema grupami haplotypów.
W związku z tym przeprowadziliśmy dogłębne modelowanie niszy AT5G44000 (ryc. 5c) i zbadaliśmy zróżnicowanie dwóch grup próbek (503 vs 75). Najpierw porównaliśmy tożsamość nisz między dwiema grupami haplotypów AT5G44000, ograniczając naszą analizę do nisz o wysokim prawdopodobieństwie (≥ 0,5) i uzyskaliśmy podobne wyniki (ryc. 5c, plik dodatkowy 5: Tabela S8 D). Aby sprawdzić, czy niezrównoważona wielkość próby może wpłynąć na wyniki, zastosowaliśmy inną strategię permutacji, ograniczając analizę do tej samej wielkości próby (75) dla obu zestawów w każdym powtórzeniu (z prawdopodobieństwem > 0,5). Jak przedstawiono na ryc. 5c, gdy permutacja została wykonana dla grup prób rzeczywistych (symulacja 1), obserwowana wartość I (0,673) nie wykazała istotnej różnicy (test t jednopróbkowy, P = 0,166), wskazując, że obserwowana wartość była wiarygodna, niezależnie od różnicy w wielkości próby. Kiedy dwie grupy rzeczywiste zostały wymieszane i wybrano dwie grupy losowe o rzeczywistych rozmiarach (symulacja 2) lub wybrano dwie grupy losowe o równej wielkości (75) (symulacja 3), różnica między wartością obserwowaną a permutacjami była ponownie znacząca (test t jednopróbkowy, P = 1,9 × 10-75 dla symulacji 2 i P = 2,6 × 10-75 dla symulacji 3). Wyniki te sugerują, że dwie funkcjonalnie zróżnicowane grupy haplotypów AT5G44000 przystosowały się do rozbieżnych siedlisk ekologicznych.