Long-term balancing selection contributes to adaptation in Arabidopsis and its relatives | Genome Biology

Jakautettuja polymorfismeja on runsaasti A. thalianan ja C. rubellan välillä

80 A. thalianan liittymästä koostuvassa populaatiossa oli 4 902 039 SNP:tä (119 146 348 kohdasta), joista 2 044 731:llä oli pieni alleelifrekvenssi (MAF) > 0,05. Kutsumalla C. rubella -populaatiossa 22 C. rubella -liitoksen SNP:t (lisätiedosto 1: taulukko S1, mukaan lukien 21 julkaistua liitosta ja yksi tässä tutkimuksessa sekvensoitu liitos ) C. rubella -referenssigenomia vasten tunnistimme 2 149 643 SNP:tä (134 834 574:stä kohdasta), joista 1 240 547:llä oli MAF > 0,05. Kahden lajin välisten yhteisten polymorfismien tunnistamiseksi, jotka on määritelty samaksi alleelipariksi tietyssä ortologisessa paikassa, muodostimme ensin ortologisten geeniparien joukon kahden lajin välillä. Varmistaaksemme, että ortologiset geenit ovat konservoituneita, otimme A. thalianan ja C. rubellan referenssigenomien lisäksi mukaan Arabidopsis lyrata -lajin, joka on A. thalianan sukua. Saimme 16 047 ortologista geeniparia ja poistimme 33, joilla oli tandemduplikaatioita jossakin kolmesta referenssilajista, ja saimme lopulta yhteensä 16 014 ortologista geeniparia A. thalianan ja C. rubellan välille jatkoanalyysiä varten.

A. thalianan 16 014 ortologisen geenin genominen alue ulottui 39 275 210 bp:n pituiseksi, ja vastaavasti C. rubellan geenissä se ulottui 40 936 262 bp:n pituiseksi. Nämä alueet sisälsivät 3 889 495 kiinteää eroa, ja tämä korkea osuus (~ 10 %) on sopusoinnussa näiden kahden lajin pitkän eroamisajan (~ 8 MYA) kanssa. Näiltä alueilta löysimme 1 122 845 bi-allelista kohdetta (426 123, joiden MAF > 0,05) A. thalianassa ja 452 116 bi-allelista kohdetta (279 780, joiden MAF > 0,05) C. rubellassa. Näistä polymorfisista kohdista 19 732 ortologista kohdetta oli polymorfisia molemmissa lajeissa, joista 8535:llä oli sama alleelipari (jaettu SNP ) (Lisätiedosto 1: Taulukko S2).

Koodaamattomien alueiden sekvensseihin verrattuna koodaavien alueiden sekvenssit ovat konservoituneempia ja tuottavat vankkoja linjauksia näiden kahden hyvin erilaistuneen lajin välillä, minkä vuoksi keskityimme aluksi koodaavilla alueilla esiintyviin shSNP:hin. MAF > 0,05 vaadittiin molemmissa lajeissa SNP:n luotettavuuden takaamiseksi ja sen huomioon ottamiseksi, että pitkäaikaisen tasapainottavan valinnan kohteena olevissa paikoissa odotettiin olevan liikaa alleeleja, joilla on välivaiheen frekvenssi. Löysimme 1503 shSNP:tä 1007 geenin koodaavilta alueilta.

1503 shSNP:hen sovellettiin lisäsuodatusta genotyyppi- ja kartoitusvirheiden välttämiseksi. Suodatusta sovellettiin vain C. rubellan SNP-aineistoon, koska latasimme A. thalianan SNP-matriisin. Jotta vältettäisiin genomin duplikaatioiden aiheuttamat väärät SNP:t, arvioimme jokaisen 50-bp:n alueen kartoitettavuuden C. rubellassa ja säilytimme myöhempää analyysia varten vain ne kohdat, jotka sijaitsivat yksiselitteisesti kartoitettavilla alueilla. Näin jäljelle jäi vain 580 kohdetta. Lopulta, kun olimme poistaneet SNP-kutsutyökalun merkitsemät heikkolaatuiset kohdat, saimme 546 luotettavaa jaettua koodaavaa SNP:tä 433 geenissä. Suodatusprosessin yksityiskohdat löytyvät kohdasta ”Menetelmät”, ja näkymä prosessista on esitetty kuvassa 2.

Kahden lajin väestöhistoria

Todellisten TSP-signaalien havaitseminen runsaista yhteisistä polymorfismeista riippuu kahden lajin väestöhistorian täydellisestä tuntemuksesta. Yhteistä paikkataajuusspektriä (joint site frequency spectrum, joint SFS) on käytetty laajalti erilaisten organismien demografisen historian tutkimiseen . Siksi poimimme ensin nelinkertaiset degeneroituneet paikat A. thalianan ja C. rubellan referenssigenomien linjauksista 16 014 ortologilla. Lopulta saimme 2 011 573 paikkaa demografista analyysia varten (katso lisätietoja kohdasta ”Menetelmät”).

Koalesenssisimulaatiot ajettiin sitten fastsimcoal2-ohjelmalla perusmallilla, jossa ei ollut geenivirtaa (M1, kuva 3), ja mallilla, joka sisälsi muinaisen geenivirran näiden kahden suvun välillä (M2, kuva 3). Otimme huomioon vain muinaisen geenivirran näiden kahden lajin välillä, koska eri sukuihin kuuluvat lajit, joilla on erilainen määrä kromosomeja (viisi vs. kahdeksan), ovat hyvin epätodennäköisiä, että niillä olisi ollut äskettäistä introgressiota. Lisäksi A. thaliana on kummassakin suvussa ainoa laji, jolla on viisi eikä kahdeksan kromosomia ; siksi rajoitimme muinaisen geenivirran ennen kuin A. thaliana erosi muusta Arabidopsis-suvusta. Asetimme kummassakin mallissa näiden kahden suvun eroamisajaksi 8 MYA , mikä on 8 miljoonaa sukupolvea sitten, ja oletimme spontaanin mutaationopeuden olevan 7 × 10-9 bp:tä kohti sukupolvea kohti. Otimme huomioon molempien lajien erilaiset populaatiokoot, jotka perustuivat siirtymätapahtumiin niiden kantaisistä; A. thaliana koki populaation pienenemisen sen jälkeen, kun se erosi muusta Arabidopsis-suvusta noin 6 MYA:n tienoilla, ja C. rubella koki hyvin tuoreen pullonkaulan, joka liittyi lajin erilaistumiseen C. grandiflorasta . Käytimme coalescent-simulaatioita, joissa sovellettiin fastsimcoal2-ohjelmassa toteutettua composite likelihood -menetelmää molempien mallien sovittamiseksi molempien lajien yhteiseen SFS:ään, joka on laskettu poimituista 2 011 573:sta lajin rajat ylittävästä nelinkertaisesta degeneroituneesta kohdasta. Vertailimme näitä kahta mallia käyttäen Akaiken informaatiokriteeriä (AIC) ja Akaiken todistusvoimaa (w), kuten Excoffier et al. Malli ilman muinaista geenivirtaa (M1) sopi hieman paremmin (Max EstLhood: -682010 vs. -682028), ja sen AIC-arvo ja painoarvo olivat alhaisemmat kuin toisen mallin (kuva 3, lisätiedosto 2: taulukko S3). Lisäksi nämä kaksi lähellä toisiaan olevaa todennäköisyyttä osoittavat, että esi-isien geenivirran vaikutuksen olisi pitänyt pyyhkiytyä pois pitkällä aikaskaalalla, eikä sillä ole juurikaan vaikutusta mallin laatuun.

Mallissa M1 nykyinen N e A. thaliana oli ~ 519 000, jonka 95 prosentin luottamusväli (CI) oli 486 368-527 574, suuresta esipopulaatiosta (~ 2 230 000, 95 prosentin CI = 1 085 330-4 876 051) ennen kuin se erosi muusta Arabidopsis-suvusta ~ 5,84 MYA:ssa (95 prosentin CI = 5,27-6,70). C. rubella kehittyi ~ 0,40 MYA (95 % CI = 321 998-500 317) esipopulaatiosta, jonka suuri N e oli ~ 4 037 000 (95 % CI = 2 076 868-5 165 614) ja nykyinen N e ~ 129 000 (95 % CI = 126 383-157 779). Nämä kaksi sukua erosivat esipopulaatiosta, jonka N e = ~ 4 930 000 (95 % CI = 4 560 931-4 969 696). Mallissa M2, jossa oli geenivirta, saatiin samanlaiset parametriestimaatit, paitsi että Arabidopsis-suvun esi-isän N e oli suurempi (~ 3 270 000, 95 prosentin CI = 797 016-4 342 346) ja Capsella-suvun N e oli pienempi (~ 1 972 000, 95 prosentin CI = 2 126 346-6 248 003). Geenivirta Capsellasta Arabidopsikseen arvioitiin voimakkaammaksi kuin päinvastaiseen suuntaan (siirtymisnopeus sukupolvea kohti; 1 × 10-8, 95 % CI = 4,0 × 10-15-1,1 × 10-6 vs. 7 × 10-14, 95 % CI = 5,7 × 10-15-6,1 × 10-5), vaikkakin kumpikin oli heikko (ks. lisätietoja lisätiedostosta 2: taulukko S3).

Kahden lajin välisen polymorfismin on oltava tasapainottavan valinnan alaisena

Lajin välinen polymorfismi voi olla neutraalia, ja sen todennäköisyyttä voidaan approksimoida tiettyjen demografisten parametrien perusteella. Samoin kuin tutkimuksessa TSP:stä ihmisillä ja simpansseilla , neutraalin evoluution vallitessa jaetut polymorfismit olivat identtisiä polymorfismeja polveutumalla meidän järjestelmässämme vain jos: (1) vähintään kaksi A. thaliana -linjaa ja kaksi C. rubella -linjaa eivät yhdistyneet ennen A. thaliana-C. rubella -jakautumista; ja (2) samaa alleelia kantavat linjat yhdistyivät ennen eri alleeleja kantavia linjoja. Tämä todennäköisyys määräytyy pääasiassa ehdon (1) perusteella, ja sitä voidaan approksimoida seuraavalla koalesenssiteoriaan perustuvalla kaavalla :

$$$ P={e}^{-\frac{T}{2{N}_A}\ast }{e}^{-\frac{T}{2{N}_C}}}, $$

jossa T viittaa kahden suvun divergenssiaikana, ja vastaavasti N A/N C viittaa populaatioiden kokoihin, jotka ovat seuraavien sukujen populaatioita: 1. thiana. thalianan/C. rubellan populaatioihin. Mallin M1 mukaisten arvioidemme mukaan, kun otetaan huomioon populaatiokoon muutokset, tämä polveutumisen kautta tapahtuvan identiteetin todennäköisyys on suuruusluokkaa 10-9. Ottaen huomioon, että meillä on < 39 275 210 linjattua paikkaa näiden kahden lajin välillä perimän alueella, odotamme neutraalien TSP:iden kokonaismäärän olevan < 1 pelkästään geneettisen ajelehtimisen kautta.

Oletimme mallissamme satunnaista pariutumista; molemmat lajit ovat kuitenkin itsekseen lisääntyviä, ja populaatiorakenne on luultavasti olemassa lajin sisällä. Siitä huolimatta viimeaikaisilla demografisilla tapahtumilla pitäisi olla suhteellisen vähän vaikutusta, koska edellytämme molemmissa lajeissa sattumanvaraisia syviä yhteenkasvutapahtumia samalla genomin alueella . Kuten aiemmassa tutkimuksessa havainnollistettiin , jopa syvällä populaatiorakenteella nykyihmisen sisällä pitäisi olla minimaalinen vaikutus todennäköisyyteen. Tässä tutkimuksessa molemmilla lajeilla on ollut historiaa pääasiassa outcrossingista. A. thaliana siirtyi outcrossingista selfingiin vain miljoona vuotta sitten, ja C. rubella siirtyi siihen paljon myöhemmin. Jopa itseään risteyttävinä lajeina paikallisten populaatioiden risteytymisaste on jopa 14,5 prosenttia. Näin ollen populaatiorakenteet, jos niitä on olemassa, eivät todennäköisesti säily pitkällä aikajänteellä, ja sen vaikutus todennäköisyyteen voidaan näin ollen jättää huomiotta.

Tasapainottavan valinnan alaisena olevien lajienvälisten polymorfismien tunnistaminen

TSP:t voidaan erottaa neutraaleista mutaatioista, koska pitkäkestoisen tasapainottavan valinnan alaisina olevat alueet klusteroituvat pikemminkin alleeleittain kuin lajeittain . Siksi keskityimme seuraavaksi niihin 433 geeniehdokkaaseen, joilla oli luotettavia jaettuja SNP:tä koodaavalla alueella, ja tarkastelimme haplotyyppejä, jotka kattavat jokaisen jaetun kaksialleelisen SNP:n, jonka MAF > 0,05 on geenialueilla.

Kunkin TSP-signaalia kantavan segmentin pituuden arvioimiseksi käytimme aiemmin johdettua kaavaa, joka perustuu suurelta osin rekombinaationopeuteen. Koalesenssin näkökulmasta katsottuna tällainen segmentti hajoaa rekombinaatiolla vasta, kun kaikki samaan alleeliluokkaan kuuluvat linjat koalesoituvat viimeisimpään yhteiseen esi-isäänsä esipopulaatiossa . Kun rekombinaationopeudeksi otettiin 3,6 cM/Mb molemmille lajeille, segmentin pituus oli teoreettisesti erittäin lyhyt eli vain muutamia emäspareja. Kun otetaan huomioon, että molemmat lajit ovat hiljattain syntyneet risteytyvistä esi-isistään ja että todellinen rekombinaatiovauhti on voinut olla paljon korkeampi menneisyydessä, odotettu pituus voi olla vieläkin lyhyempi. Tämä arvio viittaa siihen, että järjestelmämme neutraaleissa olosuhteissa on erittäin vaikeaa löytää yhtään segmenttiä ilman rekombinaatiokatkosta. Tasapainottavan valinnan vallitessa valinta voi kuitenkin tukahduttaa rekombinaation ympäröivällä alueella . Siksi segmentin pituuden pitäisi olla pidempi kuin neutraalissa mallissa teoreettisesti arvioitu. Näin ollen skannasimme geenialueen käyttäen 100 bp:n ikkunakokoa ja 1 bp:n askelkokoa.

433 kandidaattigeenissä havaitsimme 975 jaettua bi-allelista SNP:tä (mukaan lukien sekä eksoniset että introniset SNP:t, joiden MAF > 0,05). Aiempien tutkimusten tapaan , etsimme seuraavaksi ikkunoita, jotka kattavat vähintään kaksi näistä 975 SNP:stä, jotka ovat vahvassa kytkentäepätasapainossa (r 2 > 0,5) molemmissa lajeissa kelpuutettujen ikkunoiden joukosta (linjattu vähintään 95 %:n pituudelta; ks. lisätietoja kohdasta ”Menetelmät”) alleelipuiden tunnistamiseksi. Nämä rajoitukset voivat vähentää huomattavasti vääriä positiivisia tuloksia ja tuottaa korkearesoluutioisia alleelipuita, jos niitä on olemassa. Lopuksi tunnistimme viidestä geenistä, AT1G35220, AT2G16570, AT4G29360, AT5G38460 ja AT5G44000, ikkunat, jotka sisälsivät kymmenen paikkaa, TSP-ehdokkaiksi pitkäaikaisen tasapainottavan valinnan alaisiksi (lisätiedosto 3: kuva S1). Yksikään näistä viidestä löytämästämme ortologisesta geenistä ei korreloi kopiolukuvaihtelun (CNV) kanssa, ja kaikilla niistä oli vain yksi osuma, kun vertasimme niitä vastaavasti molempien lajien referensseihin (ks. lisätietoja kohdasta ”Menetelmät”).

Tunnistettujen alueiden todentamiseksi määrittelimme ensin kaikkien tunnistettujen alueiden kaikki haplotyypit kustakin populaatiosta ja sekvenssasimme uudelleen edustavia liittymiä kustakin haplotyypistä (ks. alukkeet Lisätiedostossa 1: Alukkeet taulukossa S4). Odotetusti kaikki viidessä geenissä olevat TSP-ehdokkaat validoitiin, ja kahden lajin sekvenssit ehdolla olevilla alueilla klusteroituivat pikemminkin alleelin kuin lajin mukaan (kuva 4). Geenissä AT1G35220 kaksi TSP-ehdokaspaikkaa olivat täydellisessä linkitysepätasapainossa intronisella alueella; tämä alue voi olla tasapainottavan valinnan kohde tai se voi liittyä havaitsemattomaan koodaavaan TSP-kohtaan.

Vaikka kunkin alueen haplotyypit ryhmittyivät alleeleittain, kuin lajin mukaan, haplotyyppien jakamista kahden lajin välillä havaittiin harvoin, paitsi AT2G16570:ssä (Col-0 jakoi haplotyyppinsä useiden C. rubella-lajikkeen kanssa; kuva 4). Tämä ei ole yllättävää, kun otetaan huomioon pitkä divergenssiaika; laajamittainen haplotyyppien jakaminen ilmenee yleensä paljon pienemmällä aikaskaalalla, ja sen aiheuttavat tapahtumat, kuten äskettäinen introgressio läheisesti sukua olevien lajien välillä.

Neutraalit simulointitutkimukset validoivat viisi kandidaattigeeniä

Tarkistaaksemme, voisivatko havaitut ikkunat syntyä sattumanvaraisesti neutraalin evoluution vallitessa, mikä johtaisi vääriin positiivisiin löydöksiin, ajoimme lisäsimulointeja, jotka pohjautuisivat arvioituihin väestötieteellisiin muuttujiin fastsimcoal2:lla käyttäen apuna fastsimcoal2:aa (Lisätiedosto 4: teksti S1). Neutraalien toistuvien mutaatioiden lisäksi geenivirta voi johtaa myös jaettuihin SNP:iin. Niinpä ajoimme simulaatioita sekä mallilla M1 (ilman geenivirtaa) että M2 (muinaisen geenivirran kanssa), vaikka demografinen analyysimme osoitti, että M1 sopi hieman paremmin aineistoon. Molemmissa simulaatioissa otimme huomioon eri mutaatioluokkien mutaatiomäärien heterogeenisuuden, erityisesti korkeamman mutaatiomäärän CpG-kohdissa, mikä voi johtaa vääriin positiivisiin tuloksiin (lisätiedosto 1: taulukko S5, lisätiedosto 4: teksti S1). Käyttämällä fastsimcoal2 -ohjelmaa generoimme 1 000 000 neutraalia 100 bp:n segmenttiä kummallakin mallilla ja etsimme niitä, joissa oli kaksi tai useampia yhteisiä SNP:itä ja jotka klusteroituvat alleeleittain, kun etsimme TSP:tä.

Kummallakaan mallilla yksikään 1 000 000 ajosta ei synnyttänyt kriteerimme mukaista ikkunaa (Lisätiedosto 1: Taulukko S6). Neutraalien jaettujen SNP:iden olemassaolosta huolimatta yksikään simuloitu ikkuna ei tuottanut alleelipuuta, sillä kaikkiin ikkunoihin, joissa oli jaettuja SNP:itä, liittyi paljon enemmän kiinteitä eroja kahden lajin välillä, mikä viittaa korkeampiin eroavaisuustasoihin kuin monimuotoisuuteen. Tämä tulos viittaa siihen, että nämä simuloidut neutraalit jaetut SNP:t ovat pikemminkin toistuvia mutaatioita kuin TSP:itä, ja mikä tärkeämpää, löytämämme viisi geeniä eivät ole sopusoinnussa neutraalin evoluution kanssa, ja näin ollen ne osoittautuivat todellisiksi TSP:iksi tasapainottavan valinnan alla. Lopulliset TSP-kohdat ja geenit on lueteltu taulukossa 1. Lisäksi yhdessä edellä mainitun demografisen tutkimuksen kanssa tuloksemme viittaavat siihen, että vaikka muinaista geenivirtaa esiintyisikin, neutraalissa evoluutiossa TSP:t katoaisivat ajelehtimalla tässä järjestelmässä.

Taulukko 1 Tiedot kandidaattigeeneistä ja TSP-kohdista

Tasapainottavan valinnan alla olevien geenien ominaisuudet

Laskimme seuraavaksi nukleotidididiversiteetin (π) kaikille TSP-alueille viidessä geenissä kussakin lajissa ja käytimme M1:n alla simuloituja neutraaleita sekvenssejä taustadiversiteettitasojen määrittämiseen. Kaikilla alueilla viidessä geenissä oli merkittävästi taustatasoa korkeammat π-arvot sekä C. rubellassa että A. thalianassa (Wilcoxon-Mann-Whitneyn testi, FDR-korjattu P < 0,05, taulukko 2, lisätiedosto 3: kuva S2A), paitsi AT5G38460:llä A. thalianassa. Lisäksi näiden geenien alleeleilla oli havaittavissa suuntaus välimuotoisiin frekvensseihin (Wilcoxon-Mann-Whitney-testi, P = 0,0752/0,03474 A. thaliana/C. rubella, lisätiedosto 3: kuva S2B). Väliaikainen taajuus on kuitenkin osoitus tasapainottavasta valinnasta, mutta ei lopullinen todiste, koska tasapainoiseen polymorfismiin liittyvien paikkojen alleelitaajuusjakauman odotetaan siirtyvän kohti taajuuden tasapainoa, joka voi olla millä tahansa alleelitaajuudella.

Taulukko 2 TSP-kohtien geneettiset ominaisuudet

Yksellä tässä tutkimuksessa pitkäaikaisen tasapainottavan valinnan kohteena olleista viidestä geenistä, AT1G35220:lla, on tuntematon funktio, mutta siinä esiintyy proteiinifosforylaatiota etyleenikäsittelyn yhteydessä . Muun muassa AT2G16570 on avainentsyymi puriininukleotidien biosynteesireitillä, ja se on tärkeä solunjakautumiselle, kloroplastien biogeneesille ja siementen itämiselle ; AT4G29360 on O-glykosyylihydrolaasiperheen 17 proteiini, joka osallistuu puolustusreaktioihin ; AT5G38460 on glykosyylitransferaasi, ja se katalysoi glykosyyliryhmän siirtoa yhdisteestä (luovuttaja) toiseen (akseptori), ja se osallistuu erilaisiin toimintoihin, mukaan lukien bioottinen stressi ; AT5G44000 on glutationi-S-transferaasi, joka yleensä osallistuu abioottisen ja bioottisen stressin vasteeseen . Ilmeisesti nämä geenit osallistuvat mahdollisesti vasteeseen bioottiseen tai abioottiseen stressiin (AT4G29360, AT5G38460 ja AT5G44000) tai perustavanlaatuisiin biokemiallisiin toimintoihin (AT2G16570).

Kuten odotettiin, tasapainottavan valinnan kohteena olevat geenit olivat funktionaalisesti tärkeitä, ja kaikki viiden geenin homologit olivat olemassa jo viherkasvien viimeisimmässä yhteisessä esi-isässä. Kuten taulukosta S7 (Additional file 1: Table S7) käy ilmi, homologeja (joko ortologeja tai paralogeja) löytyy jopa viherkasvien alkeellisimmasta lajista, Chlamydomonas reinhardtii:stä, kaikille viidelle geenille, paitsi AT4G29360:lle, joka voidaan jäljittää Physcomitrella patens:iin.

Lokukset, jotka on laajalti hyväksytty tasapainottavan valinnan alaisiksi, kuten esimerkiksi S-lokus tai R-geenit , eivät kuitenkaan erottuneet tässä tutkimuksessa. Tämä on odotettavissa, koska nämä lokukset ovat liian vaihtelevia tunnistettaviksi lyhyiden lukujen perusteella. Esimerkiksi R-geenit ovat liian dynaamisia, jotta niitä voitaisiin kutsua SNP:ksi ; S-lokusta ei esiinny Arabidopsiksen genomin viimeisimmässä annotaatiossa, ja vain yksi S-lokuksen haplotyyppi on säilynyt C. rubella -lajissa sen jälkeen, kun siirryttiin ulkoristeytyksestä itsekseen risteytymiseen ja itsekseen yhteensopimattomuus hajosi. Lisäksi S-lokus ei ole enää tasapainottavan valinnan kohteena, koska molemmat lajit ovat nykyään itsekasvattavia. Sen sijaan tässä tunnistamiamme geenejä, vaikka ne ovatkin ikivanhoja, ei ole tutkittu kattavasti, ja ne voivat antaa tietoa tasapainottavan valinnan kohteena olevien geenien tyypeistä.

Tasapainottava valinta vaikutti sopeutumiseen toisistaan poikkeaviin elinympäristöihin

Katsoaksemme, ovatko pitkäaikaisen tasapainottavan valinnan kohteena olevat alleelivariantit yhteydessä ekologiseen diversifikaatioon, tutkimme diversifikaatiota 48 ekologisen faktorin suhteen (Lisätiedosto 5: Taulukko S8A). GPS-tietojen puuttumisen ja C. rubellan pienen näytekoon vuoksi tämä analyysi oli mahdollinen vain A. thaliana -näytteiden osalta. Populaatiorakenne korreloi yleensä voimakkaasti ekologisen diversifikaation kanssa ja saattaa siksi sekoittaa tuloksiamme. Tarkistimme ensin, korreloiko jokin TSP-paikka populaatiorakenteen kanssa A. thaliana -näytteissä, vaikka tällainen rakenne ei vaikuta A. thalianan ja C. rubellan lajipuun havaitsemisen todennäköisyyteen. Käyttämällä ADMIXTUREa havaitsimme, että 80 A. thaliana -näytettä voidaan luokitella kahteen ryhmään (lisätiedosto 3: kuva S3; lisätiedosto 6: taulukko S9) ja vain geenin AT5G38460 kahden sivuston alleeliluokitukset korreloivat merkittävästi populaatiorakenteen kanssa (khiin neliö -testi, FDR-korjattu P < 0,05,; lisätiedosto 1: taulukko S10). Näin ollen jätimme AT5G38460:n pois myöhemmistä ekologisista analyyseistä.

Ymmärtääksemme perusteellisesti ekologista eroavaisuutta käytimme 1135 hiljattain julkaistua A. thaliana -genomia . Sovelsimme ensin ”harvennusprosessia” varmistaaksemme, että jokainen näyte edustaa mahdollisimman hyvin sen luonnollista elinympäristöä, jolloin jäljelle jäi 584 näytettä (ks. ”Menetelmät”). Toiseksi luokittelimme kunkin geenin osalta 584 A. thalianan liittymää kahteen ryhmään kahden TSP-kohdan vaiheistettujen haplotyyppien perusteella (lisätiedosto 5: taulukko S8B, C, jotkut näytteet poistettiin, koska niitä ei voitu vaiheistaa). Tämän jälkeen arvioimme näiden kahden ryhmän välisiä eroja 48 ekologisen tekijän suhteen kunkin neljän geenin osalta. Mielenkiintoista oli, että kaikki nämä neljä geeniä liittyivät joidenkin erityisten ekologisten parametrien eroavaisuuksiin. Erityisesti AT1G35220 ja AT4G29360 osoittivat merkittävää eroavaisuutta useimpien lämpötilaan liittyvien ekologisten tekijöiden suhteen (Lisätiedosto 5: Taulukko S8 A, Wilcoxon-Mann-Whitneyn testi, FDR-korjattu P < 0,05).

Seuraavaksi mallinsimme ekologiset kapeikot kaikkien neljän geenin osalta. Ilmeisesti kunkin geenin kaksi näyteryhmää, kuten Warrenin I-tilastot, jotka mittaavat kapeikkojen samankaltaisuutta , osoittivat huomattavasti alhaisempaa havaittua kapeikkojen identiteettiä kuin 100 satunnaista permutaatiota (yhden otoksen t-testi, FDR-korjattu P < 0,01; Kuva 5a, Lisätiedosto 5: Taulukko S8 D). Toisin sanoen näytteiden kahdessa alleeliryhmässä on merkittävää kapeikkojen eroavaisuutta. Lisäksi kunkin geenin kunkin alleelityypin näytteet olivat hajallaan sen sijaan, että ne olisi eristetty pienelle paikalliselle alueelle (Lisätiedosto 3: Kuva S4). Nämä tulokset viittaavat siihen, että kaikki nämä lokukset korreloivat sopeutumisen kanssa.

Tarkastelimme myös ilmaisun erilaistumista näiden neljän geenin osalta kahden vastaavan ryhmän välillä kahden TSP-paikan vaiheittaisten haplotyyppien perusteella valitsemalla 84 julkaistua lehtien kudosnäytteistä uutettua transkriptomia A. thaliana (yksi näyte sekvensoitiin kustakin liittymästä ja ekspressiotaso mitattiin pirstaleina kilobasista eksonia kohti miljoonaa kartoitettua pirstaletta kohti ) kuten aiemmassa tutkimuksessamme . Yhdellä geenillä, AT5G44000:lla, oli merkittävä ekspressioero (Wilcoxon-Mann-Whitneyn testi, FDR-korjattu P < 0,05, kuva 5b) kahden haplotyyppiryhmän välillä.

Toteutimme siksi AT5G44000:n syvällisen kapeikkomallinnuksen (kuva 5c) ja tarkastelimme molempien näyteryhmien (503 vs. 75) diversifikaatiota. Vertasimme ensin AT5G44000:n kahden haplotyyppiryhmän välistä kapeikko-identiteettiä rajoittamalla analyysimme kapeikkoihin, joiden todennäköisyys on suuri (≥ 0,5), ja saimme samankaltaisia tuloksia (kuva 5c, lisätiedosto 5: taulukko S8 D). Nähdäksemme, voisiko epätasapainoinen otoskoko vaikuttaa tuloksiin, käytimme toista permutaatiostrategiaa rajoittamalla analyysin samaan otoskokoon (75) molemmille joukoille jokaisessa toistossa (todennäköisyydellä > 0,5). Kuten kuvassa 5c esitetään, kun permutaatio suoritettiin todellisille otosryhmille (simulaatio 1), havaittu I-arvo (0,673) ei osoittanut merkittävää eroa (yhden otoksen t-testi, P = 0,166), mikä osoittaa, että havaittu arvo oli luotettava otoskokoerosta riippumatta. Kun kaksi todellista ryhmää sekoitettiin ja valittiin kaksi todellisen kokoista satunnaisryhmää (simulaatio 2) tai kaksi samankokoista satunnaisryhmää (75) (simulaatio 3), havaitun arvon ja permutaatioiden välinen ero oli jälleen merkitsevä (yhden otoksen t-testi, P = 1,9 × 10-75 simulaation 2 osalta ja P = 2,6 × 10-75 simulaation 3 osalta). Nämä tulokset viittaavat siihen, että AT5G44000:n kaksi toiminnallisesti eriytynyttä haplotyyppiryhmää sopeutuivat erilaisiin ekologisiin elinympäristöihin.