Long-term balancing selection contributes to adaptation in Arabidopsis and its relatives

Shared polymorphisms are abundant between A. thaliana és a C. rubella

A 80 A. thaliana-akkcesszióból álló populációban 4 902 039 SNP volt (119 146 348 helyből), amelyek közül 2 044 731 kisebb allélfrekvenciája (MAF) > 0,05 volt. A C. rubella-populációban 22 C. rubella-akkcesszióból származó SNP-ket (Additional file 1: S1 táblázat, beleértve 21 publikált és egy, ebben a vizsgálatban szekvenált hozzáférést) a C. rubella-referencia genommal összehasonlítva 2 149 643 SNP-t azonosítottunk (134 834 574 helyből), amelyek közül 1 240 547-nek volt > 0,05 MAF-ja. A két faj közötti közös polimorfizmusok azonosításához, amelyeket azonos allélpárként definiáltunk egy adott ortológ helyen, először létrehoztuk a két faj közötti ortológ génpárok készletét. Annak biztosítása érdekében, hogy az ortológ gének konzerváltak legyenek, az A. thaliana és a C. rubella referencia genomjain kívül bevontuk az Arabidopsis lyrata , az A. thaliana rokonfaját is. A további elemzéshez 16 047 ortológ génpárt kaptunk, és eltávolítottunk 33-at, amelyek tandemduplikációt mutattak a három referencia bármelyikében, és végül összesen 16 014 ortológ génpárt kaptunk az A. thaliana és a C. rubella között.

A 16 014 ortológ gén genomiális régiója az A. thaliana-ban 39 275 210 bp-t, és hasonlóan a C. rubellában 40 936 262 bp-t tett ki. Ezek a régiók 3 889 495 rögzített különbséget tartalmaztak, és ez a magas arány (~ 10%) összhangban van a két faj hosszú divergenciaidejével (~ 8 MYA). Ezekben a régiókban 1 122 845 bi-allelikus helyet találtunk (426 123 MAF > 0,05) az A. thaliana-ban és 452 116 bi-allelikus helyet (279 780 MAF > 0,05) a C. rubella-ban. E polimorf helyek közül 19 732 ortológ hely volt polimorf mindkét fajban, amelyek közül 8535 azonos allélpáron osztozott (shared SNP ) (Additional file 1: Table S2).

A nem kódoló régiók szekvenciáival összehasonlítva a kódoló régiók szekvenciái konzerváltabbak, és robusztus igazításokat eredményeznek a két erősen eltérő faj között; ezért először a kódoló régiókban található shSNP-kre összpontosítottunk. A MAF > 0,05 volt szükséges mindkét fajban az SNP-megbízhatóság garantálásához és a hosszú távú kiegyensúlyozó szelekció alatt álló helyek esetében a köztes gyakoriságú allélok várható többletének figyelembevételéhez. 1007 gén kódoló régióiban 1503 shSNP-t találtunk.

Az 1503 shSNP-re további szűrést alkalmaztunk a genotipizálási és térképezési hibák elkerülése érdekében. A szűrést csak a C. rubella SNP-adatokra alkalmaztuk, mivel az A. thaliana SNP-mátrixát letöltöttük. A genom duplikációiból eredő hamis SNP-k elkerülése érdekében a C. rubella minden 50 bp-os régiójának leképezhetőségét megvizsgáltuk, és csak azokat a helyeket tartottuk meg a későbbi elemzéshez, amelyek egyértelműen leképezhető régiókban voltak. Így csak 580 hely maradt. Végül, miután eltávolítottuk az SNP-hívó eszköz által megjelölt gyenge minőségű helyeket, 546 megbízható közös kódoló SNP-t kaptunk 433 génben. A szűrési folyamat részletei a “Módszerek” fejezetben találhatók, a folyamat áttekintése pedig a 2. ábrán látható.

Ábra. 2
figure2

A TSP-jelölt helyek azonosítására szolgáló SNP-szűrési folyamat menetrendje

A két faj demográfiai története

A valódi TSP-jelek kimutatása a bőséges közös polimorfizmusokból a két faj demográfiai történetének teljes megértésére épül. A közös helyfrekvencia spektrumot (joint site frequency spectrum, joint SFS) széles körben használták a különböző szervezetek demográfiai történetének tanulmányozására . Ezért először kivontuk a négyszeresen degenerált helyeket az A. thaliana és a C. rubella referencia genomjainak igazításából a 16 014 ortológon. Végül 2 011 573 helyet kaptunk a demográfiai elemzéshez (a részleteket lásd a “Módszerek”-ben).

Ezután fastsimcoal2 segítségével koaleszcencia-szimulációkat futtattunk egy génáramlás nélküli alapmodell (M1, 3. ábra) és egy, a két nemzetség közötti ősi génáramlást tartalmazó modell (M2, 3. ábra) alapján. Csak a két faj közötti ősi génáramlást vettük figyelembe, mivel a különböző nemzetségekhez tartozó és eltérő kromoszómaszámmal (öt vs. nyolc) rendelkező fajoknál nagyon valószínűtlen a közelmúltbeli introgresszió. Ezenkívül mindkét nemzetségben az A. thaliana az egyetlen olyan faj, amelynek nem nyolc, hanem öt kromoszómája van ; ezért az ősi génáramlást az A. thaliana és az Arabidopsis nemzetség többi tagja közötti elkülönülést megelőzően korlátoztuk. Mindkét modellben a két nemzetség divergenciájának idejét 8 MYA-ban határoztuk meg, ami 8 millió generációval ezelőttnek felel meg, és 7 × 10-9 spontán mutációs rátát feltételeztünk bp-nként és generációnként . Mindkét faj esetében különböző populációméreteket vettünk figyelembe az elődeiktől való átmenet eseményei alapján; az A. thaliana populációcsökkenésen ment keresztül, miután 6 MYA körül elvált az Arabidopsis nemzetség többi részétől, a C. rubella pedig a C. grandiflora fajból való kiválással összefüggésben egy nagyon friss szűkületet élt át. A fastsimcoal2-ben implementált összetett valószínűségi módszert alkalmazó koaleszcens szimulációkat használtunk, hogy mindkét modellt illesszük a két faj közös SFS-ére, amelyet a kinyert 2 011 573 fajon átnyúló négyszeres degenerált helyből számoltunk ki. A két modellt az Akaike-féle információs kritérium (AIC) és az Akaike-féle bizonyíték súlya (w) segítségével hasonlítottuk össze, ahogyan azt Excoffier és társai is tették. Az ősi génáramlás nélküli modell (M1) valamivel jobban illeszkedett (Max EstLhood: -682010 vs. -682028), alacsonyabb AIC és nagyobb súly mellett, mint a másik modellé (3. ábra, Additional file 2: S3 táblázat). Ezenkívül a két közeli valószínűség azt jelzi, hogy az ősi génáramlás hatásának hosszú időskálán ki kellett volna törlődnie, és alig járul hozzá a modell minőségéhez.

Fig. 3
figura3

Demográfiai paraméterbecslések a két faj divergenciájának két modelljére

Az M1 modell szerint a jelenlegi N e az A. thaliana ~ 519 000 volt, 95%-os konfidenciaintervallummal (CI = 486 368-527 574), egy nagy őspopulációból (~ 2 230 000, 95% CI = 1 085 330-4 876 051), mielőtt ~ 5,84 MYA-ban (95% CI = 5,27-6,70) elvált az Arabidopsis nemzetség többi részétől. A C. rubella ~ 0,40 MYA (95% CI = 321,998-500,317) alatt fejlődött ki egy nagy, ~ 4,037,000-es (95% CI = 2,076,868-5,165,614) és ~ 129,000-es (95% CI = 126,383-157,779) jelenlegi N e értékű őspopulációból. A két nemzetség egy őspopulációból vált el, amelynek N e = ~ 4 930 000 (95% CI = 4 560 931-4 969 696). A génáramlást tartalmazó M2 modellben hasonló paraméterbecsléseket kaptunk, kivéve egy nagyobb ősi N e-t az Arabidopsis nemzetség esetében (~ 3,270,000, 95% CI = 797,016-4,342,346) és egy kisebb N e-t a Capsella nemzetség esetében (~1,972,000, 95% CI = 2,126,346-6,248,003). Erősebb génáramlást becsültünk a Capsellából az Arabidopsisba, mint fordított irányban (migrációs ráta generációnként; 1 × 10-8, 95% CI = 4,0 × 10-15-1,1 × 10-6 vs. 7 × 10-14, 95% CI = 5,7 × 10-15-6,1 × 10-5), bár mindkettő gyenge volt (a részleteket lásd a 2. kiegészítő fájlban: S3. táblázat).

A két faj közötti fajközi polimorfizmusoknak kiegyensúlyozó szelekció alatt kell állniuk

A fajközi polimorfizmusok lehetnek semlegesek, és ennek valószínűsége adott demográfiai paraméterek mellett megközelíthető. Az ember és a csimpánzok TSP-jének vizsgálatához hasonlóan , semleges evolúció mellett a közös polimorfizmusok csak akkor voltak azonosak leszármazás útján a mi rendszerünkben, ha: (1) legalább két A. thaliana és két C. rubella vonal nem olvadt össze az A. thaliana-C. rubella szétválás előtt; és (2) az azonos allélt hordozó vonalak előbb olvadtak össze, mint a különböző allélokat hordozó vonalak. Ezt a valószínűséget elsősorban az (1) feltétel határozza meg, és a koaleszcenciaelmélet alapján a következőkkel közelíthető :

$$ P={e}^{-\frac{T}{2{N}_A}\ast }{e}^{-\frac{T}{2{N}_C}}}, $$$

ahol T a két nemzetség divergenciaidejére utal, N A/N C pedig az A. thaliana/C. rubella populációinak nagyságára. Az M1 modell szerinti becsléseink szerint, a populációméret-változásokat figyelembe véve, ez a leszármazás általi azonosság valószínűsége 10-9 nagyságrendű. Tekintettel arra, hogy < 39.275.210 összehangolt hely van a két faj között a genikus régióban, azt várjuk, hogy a semleges TSP-k teljes száma < 1 csak genetikai sodródás révén

Modellünkben véletlenszerű párosodást feltételeztünk; azonban mindkét faj önző, és valószínűleg létezik populációszerkezet a fajon belül. Mindazonáltal a közelmúltbeli demográfiai eseményeknek viszonylag kevés hatásuk lehet, mivel mindkét fajban a genom ugyanazon régiójában véletlenszerűen bekövetkező mély összeolvadási eseményeket követelünk meg . Amint azt korábbi tanulmányunkban bemutattuk , még a modern emberen belüli mély populációs struktúrának is minimális hatással kell lennie a valószínűségre. Ebben a tanulmányban mindkét faj története túlnyomórészt outcrossing. Az A. thaliana csak egymillió évvel ezelőtt tért át az outcrossingról a selfingre, a C. rubella pedig sokkal régebben . Még önző fajként is 14,5%-os a helyi populációk kereszteződési aránya. Ezért a populációs struktúrák, ha léteznek is, valószínűleg nem maradnak fenn hosszú időn keresztül, és így a valószínűségre gyakorolt hatása figyelmen kívül hagyható.

Kiegyensúlyozó szelekció alatt álló fajokon átívelő polimorfizmusok azonosítása

A TSP-k megkülönböztethetők a semleges mutációktól, mivel a hosszú távú kiegyenlítő szelekció alatt álló régiók allélonként, nem pedig fajonként csoportosulnak . Ezért ezután arra a 433 jelölt génre összpontosítottunk, amelynek kódoló régiójában megbízhatóan közös SNP-ket találtunk, és megvizsgáltuk az egyes közös kétpárhuzamos SNP-ket lefedő haplotípusokat, amelyek MAF > 0,05 a genikus régiókban.

A TSP-k jelét hordozó egyes szegmensek hosszának becsléséhez egy korábban levezetett képletet használtunk, amely nagyrészt a rekombinációs rátára támaszkodik. Koaleszcencia szempontjából egy ilyen szegmens nem bomlik fel rekombinációval mindaddig, amíg az azonos allélosztályba tartozó összes vonulat az őspopulációban lévő legfrissebb közös ősükhöz koalálódik . Ha mindkét faj esetében 3,6 cM/Mb rekombinációs rátát fogadunk el, a szegmens hossza elméletileg rendkívül rövid, azaz mindössze néhány bázispár. Tekintettel arra, hogy mindkét faj nemrégiben alakult ki a saját outcrossing elődeiből, és az effektív rekombinációs ráta sokkal magasabb lehetett a múltban, a várható hossz még rövidebb lehet. Ez a becslés azt sugallja, hogy a mi rendszerünk semleges körülményei között nagyon nehéz felfedezni bármilyen rekombinációs szünet nélküli szegmenst. Ha azonban kiegyensúlyozó szelekció létezik, a szelekció elnyomhatja a rekombinációt a környező régióban . Ezért a szegmenshossznak hosszabbnak kell lennie, mint a semleges modell alapján becsült elméleti érték. Így 100 bp ablakméretet és 1 bp lépésméretet használva pásztáztuk a génterületet.

A 433 jelölt génben 975 közös kétpárhuzamos SNP-t detektáltunk (beleértve mind az exonikus, mind az intronikus SNP-ket MAF > 0,05 értékkel). A korábbi tanulmányokhoz hasonlóan , ezután a minősített ablakok között (a hossz legalább 95%-ában összehangolva; a részleteket lásd a “Módszerek”-ben) a 975 SNP közül legalább két olyan ablakot kerestünk, amelyek mindkét fajban erős kapcsolódási egyenlőtlenségben vannak (r 2 > 0,5), hogy allélfákat azonosítsunk. Ezek a korlátozások nagymértékben csökkenthetik a hamis pozitív eredményeket, és nagy felbontású allélfákat eredményezhetnek, ha vannak ilyenek. Végül öt génből, az AT1G35220, AT2G16570, AT4G29360, AT5G38460 és AT5G44000 génekből származó, tíz helyet érintő ablakokat azonosítottunk, mint hosszú távú kiegyenlítő szelekció alatt álló TSP-jelölteket (Additional file 3: S1 ábra). Az itt talált öt ortológ gén egyike sem korrelál a kópiaszám-variációval (CNV), és mindegyiknek csak egy találata volt, amikor összehasonlítottuk őket a két faj referenciáival (a részleteket lásd a “Módszerek”-ben).

Az azonosított régiók ellenőrzéséhez először minden egyes populációból meghatároztuk az összes haplotípust az azonosított régiókban, és minden egyes haplotípushoz reprezentatív hozzáféréseket reszekvenáltunk (a primereket lásd az 1. kiegészítő fájl: S4. táblázat). A várakozásoknak megfelelően az öt génben található összes jelölt TSP-helyet validáltuk, és a két faj szekvenciái a jelölt régiókban inkább allél, mint faj szerint klasztereződtek (4. ábra). Az AT1G35220 génben a két jelölt TSP-hely teljes kapcsolódási egyenlőtlenségben volt egy intronikus régióban; ez a régió kiegyensúlyozó szelekció célpontja lehet, vagy egy nem detektált kódoló TSP-helyhez kapcsolódhat.

Ábr. 4
4. ábra

Az öt gén minden jelölt régiója inkább allélfát, mint fajfát eredményez

Bár az egyes régiók haplotípusai allél szerint klasztereződtek, nem pedig fajok szerint, a két faj közötti haplotípus-megosztást ritkán észlelték, kivéve az AT2G16570 esetében (a Col-0 haplotípusa több C. rubella-hozzáférésekkel; 4. ábra). Ez nem meglepő a hosszú divergenciaidő miatt; a kiterjedt haplotípus-megosztás általában sokkal kisebb időskálán jelenik meg, és olyan események idézik elő, mint például a közeli rokon fajok közötti közelmúltbeli introgresszió.

Semleges szimulációs vizsgálatok validálják az öt jelölt gént

Hogy megnézzük, hogy a megfigyelt ablakok véletlenszerűen keletkezhetnek-e semleges evolúció mellett, ami hamis pozitív eredményeket eredményez, további szimulációkat futtattunk a fastsimcoal2 segítségével a becsült demográfiai paraméterek alapján (Additional file 4: Text S1). A semleges rekurrens mutációkon kívül a génáramlás is eredményezhet közös SNP-ket. Ennek megfelelően szimulációkat futtattunk az M1 modell (génáramlás nélkül) és az M2 modell (ősi génáramlással) alapján is, bár demográfiai elemzésünk azt mutatta, hogy az M1 modell valamivel jobban illeszkedik az adatokhoz. Mindkét szimulációban figyelembe vettük a mutációs ráták heterogenitását a különböző mutációs osztályok esetében, nevezetesen a CpG-helyek magasabb mutációs rátáját, ami hamis pozitív eredményeket eredményezhet (Additional file 1: Table S5, Additional file 4: Text S1). A fastsimcoal2 segítségével mindkét modell alatt 1 000 000 darab 100 bp hosszúságú semleges szegmenst generáltunk, és a TSP-k keresése során megkerestük azokat, amelyek két vagy több közös SNP-t és allélonkénti klasztert tartalmaznak.

A két modell esetében az 1 000 000 futtatás egyike sem eredményezett olyan ablakot, amely megfelelt volna a kritériumainknak (Additional file 1: Table S6). A semleges közös SNP-k megléte ellenére egyetlen szimulált ablak sem eredményezett allélfát, mivel a közös SNP-ket tartalmazó összes ablakot sokkal több fix különbség kísérte a két faj között, ami magasabb divergenciaszintre utal, mint diverzitásra. Ez az eredmény azt sugallja, hogy ezek a szimulált semleges közös SNP-k rekurrens mutációk, nem pedig TSP-k, és ami még fontosabb, hogy az általunk talált öt gén nem áll összhangban a semleges evolúcióval, és ezáltal valódi TSP-knek bizonyultak kiegyensúlyozó szelekció alatt. A végleges TSP-helyeket és géneket az 1. táblázat tartalmazza. Továbbá, a fent említett demográfiai vizsgálattal együtt az eredményeink arra utalnak, hogy még ha ősi génáramlás is történt, semleges evolúció mellett a TSP-k drift által elvesznének ebben a rendszerben.

1. táblázat A jelölt génekre és TSP-helyekre vonatkozó információk

A gének tulajdonságai kiegyensúlyozó szelekció alatt

A következőkben kiszámítottuk a nukleotiddiverzitást (π) minden faj öt génjének összes TSP-régiójára, és az M1 alatt szimulált semleges szekvenciákat használtuk a háttérdiverzitás szintjének meghatározásához. Az öt gén valamennyi régiója szignifikánsan magasabb π-értékeket mutatott a háttérszintnél mind a C. rubella, mind az A. thaliana esetében (Wilcoxon-Mann-Whitney-teszt, FDR-korrigált P < 0,05, 2. táblázat, Additional file 3: S2A ábra), kivéve az AT5G38460 az A. thaliana esetében. Ezen túlmenően e gének alléljai tendenciát mutattak a köztes gyakoriságok felé (Wilcoxon-Mann-Whitney-teszt, P = 0,0752/0,03474 A. thaliana/C. rubella esetében; kiegészítő fájl 3: S2B ábra). A köztes frekvencia azonban a kiegyensúlyozó szelekciót jelzi, de nem végleges bizonyíték, mivel a kiegyensúlyozott polimorfizmushoz kapcsolódó helyek allélfrekvencia-eloszlása várhatóan eltolódást mutat a frekvenciaegyensúly felé, amely bármilyen allélfrekvenciánál lehet .

2. táblázat A TSP helyek genetikai jellemzői

A hosszú távú kiegyensúlyozó szelekció alatt álló öt gén egyike, az AT1G35220 ebben a vizsgálatban ismeretlen funkciójú, de etilénkezelés hatására fehérjefoszforilációt mutat . Többek között az AT2G16570 egy kulcsenzim a purin nukleotid bioszintézis útvonalban, és fontos a sejtosztódás, a kloroplaszt biogenezis és a magcsírázás szempontjából ; az AT4G29360 egy O-glikozil hidroláz család 17 fehérje, amely részt vesz a védelmi válaszokban ; AT5G38460 egy glikoziltranszferáz, és katalizálja a glikozilcsoport átvitelét egyik vegyületről (donor) egy másikra (akceptor), és részt vesz különböző funkciókban, beleértve a biotikus stresszt ; AT5G44000 egy glutation S-transzferáz, amely általában részt vesz az abiotikus és biotikus stresszre adott válaszban . Úgy tűnik, ezek a gének potenciálisan részt vesznek a biotikus vagy abiotikus stresszre adott válaszban (AT4G29360, AT5G38460 és AT5G44000) vagy alapvető biokémiai funkciókban (AT2G16570).

Amint az várható volt, a kiegyensúlyozó szelekció alatt álló gének funkcionálisan fontosak voltak, és az öt gén mindegyik homológja létezett már a zöld növények legutóbbi közös ősében. Amint az S7. táblázatban (Additional file 1: Table S7) látható, mind az öt gén homológjai (ortológok vagy paralógok) megtalálhatók még a zöld növények legbazálisabb fajában, a Chlamydomonas reinhardtii-ban is, kivéve az AT4G29360 gént, amely a Physcomitrella patens-re vezethető vissza.

Azok a lokuszok azonban, amelyek széles körben elfogadottan egyensúlyozó szelekció alatt állnak, mint például az S-lókusz vagy az R gének , nem tűntek ki ebben a vizsgálatban. Ez várható volt, mivel ezek a lokuszok túlságosan változékonyak ahhoz, hogy rövid leolvasások alapján azonosítani lehessen őket. Például az R-gének túl dinamikusak ahhoz, hogy SNP-ket lehessen nevezni; az S-lókusz nem létezik az Arabidopsis genom legutóbbi annotációjában, és a C. rubellában csak egy S-lókusz haplotípus maradt fenn az outcrossingról a selfingre való áttérés és az ön-összeférhetetlenség megszűnése óta. Továbbá az S-lókusz már nem áll kiegyensúlyozó szelekció alatt, mivel mindkét faj önzővé vált. Ezzel szemben az általunk itt azonosított gének, bár régiek, még nem vizsgálták őket átfogóan, és betekintést nyújthatnak a kiegyensúlyozó szelekció alatt álló géntípusokba.

A kiegyensúlyozó szelekció hozzájárult a divergens élőhelyekhez való alkalmazkodáshoz

Hogy megnézzük, hogy a hosszú távú kiegyensúlyozó szelekció alatt álló allélváltozatok kapcsolatban állnak-e az ökológiai diverzitással, 48 ökológiai tényező tekintetében vizsgáltuk az eltéréseket (Additional file 5: Table S8A). A GPS-információk hiánya és a C. rubella kis mintanagysága miatt ez az elemzés csak az A. thaliana minták esetében volt lehetséges. A populációszerkezet általában erősen korrelál az ökológiai diverzifikációval, és ezért megzavarhatja az eredményeinket. Először azt ellenőriztük, hogy az A. thaliana mintákban valamelyik TSP-hely korrelál-e a populációszerkezettel, bár ez a szerkezet nem befolyásolja az A. thaliana és a C. rubella fajfájának megfigyelési valószínűségét. Az ADMIXTURE segítségével azt találtuk, hogy a 80 A. thaliana-mintát két csoportba lehet sorolni (Additional file 3: S3 ábra; Additional file 6: S9 táblázat), és csak az AT5G38460 gén két helyének allélbesorolása korrelál szignifikánsan a populációszerkezettel (chi-négyzet teszt, FDR-korrigált P < 0,05,; Additional file 1: S10 táblázat). Ezért az AT5G38460-at kizártuk a későbbi ökológiai elemzésekből.

Az ökológiai divergencia alapos megértéséhez 1135 nemrégiben publikált A. thaliana genomot használtunk . Először egy “ritkítási” eljárást alkalmaztunk, hogy garantáljuk, hogy minden minta nagymértékben reprezentálja a természetes élőhelyét, így 584 minta maradt (lásd “Módszerek”). Másodszor, minden egyes gén esetében az 584 A. thaliana-akkcessziót két csoportba soroltuk a két TSP-helyhez tartozó fázisos haplotípusok alapján (kiegészítő fájl 5: S8B, C táblázat, néhány mintát eltávolítottunk, mert nem lehetett fázisosítani). Ezután értékeltük a két hozzáférési csoport közötti eltérést a 48 ökológiai tényező tekintetében mind a négy gén esetében. Érdekes módon mind a négy gén összefüggött néhány specifikus ökológiai paraméter divergenciájával. Különösen az AT1G35220 és az AT4G29360 mutatott szignifikáns divergenciát a legtöbb hőmérséklettel kapcsolatos ökológiai tényező tekintetében (Additional file 5: Table S8 A, Wilcoxon-Mann-Whitney teszt, FDR-korrigált P < 0,05).

Ezután mind a négy gén esetében modelleztük az ökológiai fülkéket. Úgy tűnik, a minták két csoportja minden gén esetében, amint azt a niche hasonlóságát mérő Warren I statisztika jelzi , szignifikánsan alacsonyabb megfigyelt niche-azonosságot mutatott, mint 100 véletlenszerű permutáció (egymintás t-próba, FDR-korrigált P < 0,01; 5a. ábra, Additional file 5: Table S8 D). Más szóval, a minták két allélcsoportja jelentős niche-divergenciát mutat. Továbbá az egyes alléltípusok mintái minden gén esetében szétszórtan helyezkedtek el, ahelyett, hogy egy kis helyi területre izolálódtak volna (Additional file 3: Figure S4). Ezek az eredmények arra utalnak, hogy ezek a lokuszok mindegyike korrelál az adaptációval.

5. ábra
5. ábra

Ökológiai és expressziós divergencia. a Szignifikáns ökológiai divergencia a két mintatípus között mind a négy gén esetében, amit a megfigyelt I pontszám (I O) és a szimulált I pontszám (I S) jelez. b Az AT5G44000 gén expressziós divergenciája. c Balra: A két mintatípus nagy valószínűségű (≥ 0,5) niche modellezése az AT5G44000 esetében. Jobbra: Szignifikancia-eredmények különböző permutációs stratégiák mellett (≥ 0,5 valószínűségű fülkékre; I O = 0,673, 100 permutáció)

A négy gén expressziós differenciálódását is megvizsgáltuk a két megfelelő csoport között a két TSP-helyen lévő fázisos haplotípusok alapján, kiválasztva 84 publikált, levélszövetből extrahált transzkriptomot A. thaliana (minden egyes csatlakozáshoz egy mintát szekvenáltunk, és az expressziós szintet az exonok kilobázisonkénti fragmentumaként mértük egymillió leképezett fragmentumra vetítve ), mint korábbi tanulmányunkban . Egy gén, az AT5G44000, szignifikáns expressziós különbséget mutatott (Wilcoxon-Mann-Whitney teszt, FDR-korrigált P < 0,05, 5b ábra) a két haplotípuscsoport között.

Ezért mélyreható niche-modellezést végeztünk az AT5G44000-re (5c ábra), és megvizsgáltuk a két mintacsoport (503 vs 75) diverzifikációját. Először összehasonlítottuk az AT5G44000 két haplotípuscsoportja közötti niche-azonosságot úgy, hogy elemzésünket a nagy valószínűségű (≥ 0,5) niche-ekre korlátoztuk, és hasonló eredményeket kaptunk (5c. ábra, 5. kiegészítő fájl: S8 D táblázat). Annak megállapítására, hogy a kiegyensúlyozatlan mintaméret befolyásolhatja-e az eredményeket, egy másik permutációs stratégiát alkalmaztunk úgy, hogy az elemzést mindkét halmaz esetében azonos mintaméretre (75) korlátoztuk minden egyes ismétlésben (> 0,5 valószínűséggel). Amint az 5c. ábrán látható, amikor a permutációt a valódi mintacsoportokra végeztük (1. szimuláció), a megfigyelt I érték (0,673) nem mutatott szignifikáns különbséget (egymintás t-próba, P = 0,166), ami azt jelzi, hogy a megfigyelt érték megbízható volt, függetlenül a mintaméret különbségétől. Amikor a két valós csoportot összekeverték, és két valós méretű véletlen csoportot (2. szimuláció) vagy két azonos méretű véletlen csoportot (75) választottak ki (3. szimuláció), a megfigyelt érték és a permutációk közötti különbség ismét szignifikáns volt (egymintás t-próba, P = 1,9 × 10-75 a 2. szimuláció esetében és P = 2,6 × 10-75 a 3. szimuláció esetében). Ezek az eredmények arra utalnak, hogy az AT5G44000 két funkcionálisan differenciált haplotípuscsoportja eltérő ökológiai élőhelyekhez alkalmazkodott.

Szólj hozzá!