Selecția de echilibrare pe termen lung contribuie la adaptarea la Arabidopsis și la rudele sale

Primorfismele împărtășite sunt abundente între A. thaliana și C. rubella

Într-o populație de 80 de accesiuni de A. thaliana , au existat 4.902.039 de SNP-uri (din 119.146.348 de situri), dintre care 2.044.731 au avut o frecvență a alelei minore (MAF) de > 0,05. În populația de C. rubella, prin apelarea SNP-urilor din 22 de accesiuni de C. rubella (Fișier suplimentar 1: Tabelul S1, inclusiv 21 de accesiuni publicate și o accesiune secvențiată în acest studiu ) față de genomul de referință al C. rubella , am identificat 2.149.643 SNP-uri (din 134.834.574 de situri), dintre care 1.240.547 au avut o MAF > 0,05. Pentru a identifica polimorfismele comune între cele două specii, definite ca fiind aceeași pereche de alele la un anumit sit ortolog, am construit mai întâi setul de perechi de gene ortologe între cele două specii. Pentru a garanta că genele ortologe sunt conservate, în plus față de genomurile de referință ale A. thaliana și C. rubella, am inclus Arabidopsis lyrata , un congener al A. thaliana. Am obținut 16.047 de perechi de gene ortologe și am eliminat 33 care aveau duplicații în tandem în oricare dintre cele trei referințe și, în final, am obținut un total de 16.014 perechi de gene ortologe între A. thaliana și C. rubella pentru o analiză ulterioară.

Regiunea genică a celor 16.014 gene ortologe din A. thaliana se întindea pe 39.275.210 pb și, în mod similar, în C. rubella, se întindea pe 40.936.262 pb. Aceste regiuni conțineau 3.889.495 de diferențe fixe, iar acest raport ridicat (~ 10%) este în concordanță cu timpul lung de divergență (~ 8 MYA) al celor două specii . În aceste regiuni, am găsit 1.122.845 de situri bi-alelice (426.123 cu MAF > 0,05) în A. thaliana și 452.116 situri bi-alelice (279.780 cu MAF > 0,05) în C. rubella. Dintre aceste situri polimorfe, 19.732 de situri ortologice au fost polimorfe în ambele specii, dintre care 8535 au împărtășit aceeași pereche de alele (SNP partajat ) (Fișier suplimentar 1: Tabelul S2).

În comparație cu secvențele din regiunile necodificatoare, secvențele din regiunile codificatoare sunt mai conservate și produc alinieri robuste între cele două specii foarte divergente; prin urmare, ne-am concentrat mai întâi pe shSNP-urile din regiunile codificatoare. MAF > 0,05 a fost necesar în ambele specii pentru a garanta fiabilitatea SNP și pentru a ține cont de excesul așteptat de alele cu frecvențe intermediare pentru situsurile supuse selecției de echilibrare pe termen lung. Am găsit 1503 shSNP în regiunile codificatoare a 1007 gene.

Am aplicat o filtrare suplimentară celor 1503 shSNP pentru a evita erorile de genotipare și de cartografiere. Filtrarea a fost aplicată numai la datele SNP din C. rubella, deoarece am descărcat matricea SNP pentru A. thaliana. Pentru a evita SNP-urile false cauzate de duplicările din genom, am evaluat capacitatea de cartografiere a fiecărei regiuni de 50 de pb din C. rubella și am reținut doar siturile care se aflau în regiuni cu capacitate de cartografiere unică pentru analiza ulterioară. Astfel, au rămas doar 580 de situri. În cele din urmă, după ce am eliminat site-urile de calitate scăzută marcate de instrumentul de apelare a SNP-urilor, am obținut 546 de SNP-uri codificatoare comune fiabile în 433 de gene. Detaliile procesului de filtrare pot fi găsite în secțiunea „Metode”, iar o vizualizare a procesului este reprezentată în Fig. 2.

Fig. 2
figura2

Pipeline a procesului de filtrare a SNP pentru identificarea situsurilor TSP candidate

Istoria demografică a celor două specii

Detectarea semnalelor TSP reale din polimorfismele comune abundente se bazează pe o înțelegere completă a istoriei demografice a celor două specii. Spectrul de frecvență al situsului comun (SFS comun) a fost utilizat pe scară largă pentru a studia istoria demografică a diverselor organisme . Prin urmare, am extras mai întâi site-urile degenerate de patru ori din alinierile genomurilor de referință ale A. thaliana și C. rubella pe cei 16.014 ortologi. În cele din urmă, am obținut 2.011.573 de situri pentru analiza demografică (a se vedea „Metode” pentru detalii).

Simulările de coalescență au fost apoi rulate folosind fastsimcoal2 sub un model de bază fără flux genetic (M1, Fig. 3) și un model care încorporează un flux genetic antic între cele două genuri (M2, Fig. 3). Am luat în considerare doar fluxul genetic străvechi între cele două specii, deoarece este foarte puțin probabil ca speciile care aparțin unor genuri diferite și care au un număr diferit de cromozomi (cinci față de opt) să aibă o introgresie recentă. În plus, în ambele genuri, A. thaliana este singura specie cu cinci în loc de opt cromozomi; prin urmare, am restrâns fluxul genetic antic înainte ca A. thaliana să se fi separat de restul genului Arabidopsis. În fiecare model, am stabilit timpul de divergență al celor două genuri la 8 MYA , ceea ce înseamnă 8 milioane de generații în urmă, și am presupus o rată de mutație spontană de 7 × 10-9 per bp pe generație . Am luat în considerare diferite mărimi ale populației pentru ambele specii, pe baza evenimentelor de tranziție de la progenitorii lor respectivi; A. thaliana a suferit o reducere a populației după ce a deviat de restul genului Arabidopsis în jurul valorii de 6 MYA, iar C. rubella a suferit o gâtuire foarte recentă asociată cu speciația din C. grandiflora . Am folosit simulări de coalescență aplicând metoda de verosimilitate compozită implementată în fastsimcoal2 pentru a potrivi ambele modele la SFS comună a celor două specii calculată din cele 2 011 573 de situsuri degenerate cvadruple trans-specie extrase. Am comparat cele două modele folosind criteriul de informare Akaike (AIC) și greutatea dovezilor Akaike (w), ca în Excoffier et al. Modelul fără flux genetic antic (M1) se potrivește puțin mai bine (Max EstLhood: -682010 vs -682028), cu un AIC mai mic și o pondere mai mare decât cele ale celuilalt model (Fig. 3, Fișier suplimentar 2: Tabelul S3). În plus, cele două verosimilitudini apropiate indică faptul că efectul fluxului genetic ancestral ar fi trebuit să fie șters pe o scară de timp lungă și contribuie puțin la calitatea modelului.

Fig. 3
figura3

Stimări ale parametrilor demografici pentru două modele de divergență a celor două specii

În cadrul modelului M1, actualul N e al lui A. thaliana a fost de ~ 519.000 cu un interval de încredere (IC) de 95% de 486.368-527.574, de la o populație ancestrală mare (~ 2.230.000, IC 95% = 1.085.330-4.876.051) înainte de a se separa de restul genului Arabidopsis la ~ 5,84 MYA (IC 95% = 5,27-6,70). C. rubella a evoluat ~ 0,40 MYA (95% CI = 321.998-500.317) de la o populație ancestrală cu un N e mare de ~ 4.037.000 (95% CI = 2.076.868-5.165.614) și un N e actual de ~ 129.000 (95% CI = 126.383-157.779). Cele două genuri au deviat de la o populație ancestrală cu N e = ~ 4.930.000 (95% CI = 4.560.931-4.969.696). În cadrul modelului M2 cu flux genetic, s-au obținut estimări similare ale parametrilor, cu excepția unui N e ancestral mai mare pentru genul Arabidopsis (~ 3 270 000, IC 95% = 797 016-4 342 346) și un N e mai mic pentru genul Capsella (~ 1 972 000, IC 95% = 2 126 346-6 248 003). S-a estimat un flux genetic mai puternic de la Capsella la Arabidopsis decât în sens invers (rata de migrație pe generație; 1 × 10-8, IC 95% = 4,0 × 10-15-1,1 × 10-6 vs 7 × 10-14, IC 95% = 5,7 × 10-15-6,1 × 10-5), deși ambele au fost slabe (a se vedea fișierul suplimentar 2: tabelul S3 pentru detalii).

Primorfismele trans-specie între cele două specii trebuie să fie supuse unei selecții de echilibrare

Primorfismele trans-specie pot fi neutre, iar probabilitatea sa poate fi aproximată având în vedere parametrii demografici specifici. Similar cu un studiu al TSP-urilor la om și cimpanzeu , în condițiile unei evoluții neutre, polimorfismele partajate au fost identice prin descendență în sistemul nostru doar dacă: (1) cel puțin două neamuri de A. thaliana și două neamuri de C. rubella nu au fuzionat înainte de separarea A. thaliana-C. rubella; și (2) neamurile purtătoare alelei identice au fuzionat înaintea neamurilor purtătoare de alele diferite. Această probabilitate este determinată în principal de condiția (1) și poate fi aproximată prin următoarea aproximație bazată pe teoria coalescenței :

$$ P={e}^{-\frac{T}{2{N}_A}\ast }{e}^{-\frac{T}{2{N}_C}}, $$

unde T se referă la timpul de divergență al celor două genuri și N A/N C se referă la dimensiunile populațiilor de A. thaliana și A. thaliana. thaliana/C. rubella, respectiv. Conform estimărilor noastre în cadrul modelului M1, luând în considerare modificările dimensiunii populației, această probabilitate de identitate prin descendență este de ordinul a 10-9. Având în vedere că avem < 39.275.210 situri aliniate între cele două specii în regiunea genică, ne așteptăm ca numărul total de TSP-uri neutre să fie < 1 doar prin derivă genetică.

Am presupus împerecherea aleatorie în modelul nostru; cu toate acestea, ambele specii se autoalimentează și probabil că există o structură a populației în cadrul speciei. Cu toate acestea, evenimentele demografice recente ar trebui să aibă un efect relativ mic, deoarece avem nevoie de evenimente de coalescență profundă din întâmplare în ambele specii în aceeași regiune a genomului . După cum s-a ilustrat în studiul anterior , chiar și structura profundă a populației în cadrul oamenilor moderni ar trebui să aibă un efect minim asupra probabilității. În acest studiu, ambele specii au un istoric de încrucișare predominantă. A. thaliana a trecut de la încrucișare la autoîncrucișare cu numai un milion de ani în urmă, iar C. rubella a trecut mult mai recent. Chiar și ca specie care se autoînmulțește, rata de încrucișare a populațiilor locale este de până la 14,5% . Prin urmare, este puțin probabil ca structurile populaționale, dacă există, să persiste pe o scară de timp îndelungată, iar impactul său asupra probabilității poate fi astfel ignorat.

Identificarea polimorfismelor trans-specie sub selecție de echilibrare

TSP pot fi distinse de mutațiile neutre deoarece regiunile supuse selecției de echilibrare pe termen lung se grupează în funcție de alele, mai degrabă decât de specie . Prin urmare, ne-am concentrat în continuare asupra celor 433 de gene candidate cu SNP-uri partajate fiabile în regiunea codificatoare și am examinat haplotipurile care acoperă fiecare SNP bi-alelic partajat cu MAF > 0,05 în regiunile genice.

Pentru a estima lungimea fiecărui segment care poartă un semnal de TSP-uri, am folosit o formulă derivată anterior care se bazează în mare măsură pe rata de recombinare. Din punctul de vedere al coalescenței, un astfel de segment nu este rupt prin recombinare până când toate liniile de descendență din aceeași clasă alelică nu coalesc la strămoșul lor comun cel mai recent din populația ancestrală . Adoptând o rată de recombinare de 3,6 cM/Mb pentru ambele specii, lungimea segmentului a fost extrem de scurtă, adică doar câteva perechi de baze, din punct de vedere teoretic. Având în vedere că ambele specii au apărut recent din progenitoarele lor respective care se încrucișează și că rata efectivă de recombinare ar putea fi mult mai mare în trecut, lungimea așteptată poate fi chiar mai scurtă. Această estimare sugerează, în circumstanțele neutre din sistemul nostru, că este extrem de dificil să se descopere vreun segment fără o pauză de recombinare. Cu toate acestea, atunci când există selecție de echilibrare, selecția poate suprima recombinarea în regiunea înconjurătoare . Prin urmare, lungimea segmentului ar trebui să fie mai mare decât cea estimată teoretic în cadrul unui model neutru. Astfel, am scanat regiunea genică folosind o dimensiune a ferestrei de 100 pb și o dimensiune a pasului de 1 pb.

În cele 433 de gene candidate, am detectat 975 de SNP bi-alelice partajate (incluzând atât SNP-uri exonice, cât și intronice cu MAF > 0,05). Similar studiilor anterioare , am căutat apoi ferestrele care acoperă cel puțin două dintre cele 975 de SNP-uri care se află în dezechilibru puternic de legătură (r 2 > 0,5) în ambele specii printre ferestrele calificate (aliniate la cel puțin 95% din lungime; a se vedea „Metode” pentru detalii) pentru a identifica arborii alelici. Aceste restricții pot reduce foarte mult falsurile pozitive și pot produce arbori alelici, în cazul în care aceștia există, cu o rezoluție ridicată. În cele din urmă, am identificat ferestrele din cinci gene, AT1G35220, AT2G16570, AT4G29360, AT5G38460 și AT5G44000, care implică zece situsuri, ca TSP-uri candidate supuse selecției de echilibrare pe termen lung (Fișier suplimentar 3: Figura S1). Niciuna dintre cele cinci gene ortologe pe care le-am găsit aici nu este corelată cu variația numărului de copii (CNV) și toate au doar o singură potrivire atunci când le-am comparat cu referințele celor două specii, respectiv (a se vedea „Metode” pentru detalii).

Pentru a verifica regiunile identificate, am determinat mai întâi toate haplotipurile din regiunile identificate din fiecare populație și am resecvențiat accesiuni reprezentative pentru fiecare haplotip (a se vedea Fișierul suplimentar 1: Tabelul S4 pentru primeri). Așa cum era de așteptat, toate situsurile TSP candidate din cele cinci gene au fost validate, iar secvențele celor două specii din regiunile candidate s-au grupat în funcție de alele, mai degrabă decât de specie (Fig. 4). În gena AT1G35220, cele două situri TSP candidate se aflau în dezechilibru de legătură complet într-o regiune intronică; această regiune poate fi ținta selecției de echilibrare sau legată de un sit TSP codificator nedetectat.

Fig. 4
figura4

Toate regiunile candidate din cele cinci gene produc un arbore alelic, mai degrabă decât un arbore al speciilor

Deși haplotipurile din fiecare regiune s-au grupat în funcție de alele, mai degrabă decât pe specii, partajarea haplotipurilor între cele două specii a fost rareori detectată, cu excepția AT2G16570 (Col-0 și-a împărțit haplotipul cu mai multe specii de C. rubella; Fig. 4). Acest lucru nu este surprinzător, având în vedere timpul lung de divergență; partajarea extinsă a haplotipurilor apare de obicei la o scară de timp mult mai mică și este indusă de evenimente precum introgresia recentă între specii strâns înrudite.

Studiile de simulare neutră validează cele cinci gene candidate

Pentru a vedea dacă ferestrele observate ar putea fi generate aleatoriu în condiții de evoluție neutră, ceea ce ar duce la falsuri pozitive, am efectuat simulări suplimentare pe baza parametrilor demografici estimați folosind fastsimcoal2 (Fișier suplimentar 4: Text S1). În afară de mutațiile recurente neutre, fluxul de gene poate duce, de asemenea, la SNP-uri partajate. În consecință, am efectuat simulări atât în cadrul modelului M1 (fără flux genetic), cât și M2 (cu flux genetic străvechi), deși analiza noastră demografică a indicat că M1 se potrivește puțin mai bine datelor. În ambele simulări, am luat în considerare eterogenitatea ratelor de mutație pentru diferite clase de mutații, în special rata mai mare de mutație la siturile CpG, care poate duce la rezultate fals pozitive (Fișier suplimentar 1: Tabelul S5, Fișier suplimentar 4: Text S1). Folosind fastsimcoal2 , am generat 1.000.000 de segmente neutre de 100 bp în cadrul fiecărui model și le-am căutat pe cele cu două sau mai multe SNP-uri partajate și grupate pe alele în timp ce căutam TSP-uri.

Pentru ambele modele, niciunul dintre cele 1.000.000 de rulări nu a dat naștere unei ferestre care să îndeplinească criteriile noastre (Fișier suplimentar 1: Tabelul S6). În ciuda existenței SNP-urilor neutre partajate, nicio fereastră simulată nu a redat un arbore alelic, deoarece toate ferestrele cu SNP-uri partajate au fost însoțite de mult mai multe diferențe fixe între cele două specii, implicând niveluri de divergență mai mari decât diversitate. Acest rezultat sugerează că aceste SNP-uri neutre partajate simulate sunt mutații recurente, mai degrabă decât TSP-uri și, mai important, cele cinci gene pe care le-am găsit nu sunt compatibile cu o evoluție neutră și, prin urmare, s-au dovedit a fi TSP-uri reale sub selecție de echilibrare. Siturile și genele TSP finale sunt enumerate în tabelul 1. În plus, împreună cu studiul demografic menționat mai sus, rezultatele noastre implică faptul că, chiar dacă a avut loc un flux genetic străvechi, în condițiile unei evoluții neutre, TSP-urile ar fi pierdute prin derivă în acest sistem.

Tabelul 1 Informații privind genele candidate și situsurile TSP

Proprietățile genelor supuse selecției de echilibrare

Apoi am calculat diversitatea nucleotidelor (π) pentru toate regiunile TSP din cele cinci gene din fiecare specie și am folosit secvențele neutre simulate sub M1 pentru a determina nivelurile de diversitate de fond. Toate regiunile din cele cinci gene au prezentat valori π semnificativ mai mari decât nivelurile de fond atât la C. rubella, cât și la A. thaliana (testul Wilcoxon-Mann-Whitney, P < 0,05 corectat FDR, Tabelul 2, Fișierul suplimentar 3: Figura S2A), cu excepția AT5G38460 la A. thaliana. În plus, alelele acestor gene au prezentat o tendință spre frecvențe intermediare (testul Wilcoxon-Mann-Whitney, P = 0,0752/0,03474 pentru A. thaliana/C. rubella; fișier suplimentar 3: Figura S2B). Cu toate acestea, o frecvență intermediară este un indiciu al selecției de echilibrare, dar nu o dovadă definitivă, deoarece se așteaptă ca distribuția frecvenței alelelor situsurilor legate de un polimorfism echilibrat să prezinte o deplasare spre echilibrul de frecvență, care poate fi la orice frecvență alelelor .

Tabelul 2 Caracteristicile genetice ale situsurilor TSP

Una dintre cele cinci gene supuse selecției de echilibrare pe termen lung în acest studiu, AT1G35220, are o funcție necunoscută, dar prezintă fosforilarea proteinelor sub tratament cu etilenă . Printre altele, AT2G16570 este o enzimă cheie în calea biosintezei nucleotidelor purinice și este importantă pentru diviziunea celulară, biogeneza cloroplastelor și germinarea semințelor; AT4G29360 este o proteină O-glicozil hidrolază din familia 17, implicată în răspunsurile de apărare ; AT5G38460 este o glicoziltransferază și catalizează transferul unei grupări glicozilice de la un compus (donor) la altul (acceptor) și este implicată în diverse funcții, inclusiv în stresul biotic ; AT5G44000 este o glutation S-transferază, care este de obicei implicată în răspunsul la stresul abiotic și biotic . Aparent, aceste gene sunt potențial implicate în răspunsul la stresul biotic sau abiotic (AT4G29360, AT5G38460 și AT5G44000) sau în funcții biochimice fundamentale (AT2G16570).

După cum era de așteptat, genele supuse selecției de echilibrare au fost importante din punct de vedere funcțional și toți omologii celor cinci gene existau deja în cel mai recent strămoș comun al plantelor verzi. După cum se indică în Tabelul S7 (Fișierul suplimentar 1: Tabelul S7), omologii (fie orthologi, fie paralogi) pot fi găsiți chiar și în cea mai bazală specie de plante verzi, Chlamydomonas reinhardtii, pentru toate cele cinci gene, cu excepția AT4G29360, care poate fi urmărită până la Physcomitrella patens.

Cu toate acestea, loci care sunt acceptați pe scară largă ca fiind supuși selecției de echilibrare, cum ar fi S-locus sau genele R , nu s-au evidențiat în acest studiu. Acest lucru este de așteptat, deoarece acești loci sunt prea variabili pentru a fi identificați pe baza citirilor scurte. De exemplu, genele R sunt prea dinamice pentru a numi SNP-uri; S-locus nu există în cea mai recentă adnotare a genomului Arabidopsis și doar un singur haplotip S-locus este menținut la C. rubella de la tranziția de la încrucișare la autoîncrucișare și de la dispariția autoincompatibilității . În plus, S-locusul nu mai este supus selecției de echilibrare, deoarece ambele specii se autoînmulțesc în prezent. În schimb, genele pe care le-am identificat aici, deși sunt vechi, nu au fost studiate în mod cuprinzător și pot oferi o perspectivă asupra tipurilor de gene supuse selecției de echilibrare.

Selecția de echilibrare a contribuit la adaptarea la habitate divergente

Pentru a vedea dacă variantele alelice supuse selecției de echilibrare pe termen lung sunt asociate cu diversificarea ecologică, am investigat divergența în ceea ce privește 48 de factori ecologici (Fișier suplimentar 5: Tabelul S8A). Din cauza lipsei de informații GPS și a dimensiunii reduse a eșantionului de C. rubella, această analiză a fost posibilă numai pentru eșantioanele de A. thaliana. Structura populației este, de obicei, foarte corelată cu diversificarea ecologică și, prin urmare, poate confunda rezultatele noastre. Am verificat mai întâi dacă vreun sit TSP a fost corelat cu structura populației în eșantioanele de A. thaliana, deși o astfel de structură nu afectează probabilitatea de a observa arborele speciilor de A. thaliana și C. rubella. Utilizând ADMIXTURE , am constatat că cele 80 de eșantioane de A. thaliana pot fi clasificate în două grupe (Fișier suplimentar 3: Figura S3; Fișier suplimentar 6: Tabelul S9) și numai clasificările alelice ale celor două situsuri din gena AT5G38460 sunt corelate în mod semnificativ cu structura populației (test chi-pătrat, P < 0,05 corectat FDR,; Fișier suplimentar 1: Tabelul S10). Astfel, am exclus AT5G38460 din analizele ecologice ulterioare.

Pentru a obține o înțelegere aprofundată a divergenței ecologice, am folosit 1135 genomuri de A. thaliana publicate recent . În primul rând, am aplicat un proces de „subțiere” pentru a garanta că fiecare eșantion era foarte reprezentativ pentru habitatul său natural, ceea ce a lăsat 584 de eșantioane (a se vedea „Metode”). În al doilea rând, pentru fiecare genă, am clasificat cele 584 de accesiuni de A. thaliana în două grupuri pe baza haplotipurilor fazate pentru cele două situri TSP (Fișier suplimentar 5: Tabelul S8B, C, unele probe au fost eliminate deoarece nu au putut fi fazate). Apoi am evaluat divergența dintre cele două grupuri de accesiuni în ceea ce privește cei 48 de factori ecologici pentru fiecare dintre cele patru gene. În mod interesant, toate aceste patru gene au fost asociate cu divergența unor parametri ecologici specifici. AT1G35220 și AT4G29360, în special, au prezentat o divergență semnificativă în ceea ce privește majoritatea factorilor ecologici legați de temperatură (Fișier suplimentar 5: Tabelul S8 A, testul Wilcoxon-Mann-Whitney, P < 0,05 corectat FDR).

Am modelat apoi nișele ecologice pentru toate cele patru gene. Aparent, cele două grupuri de eșantioane pentru fiecare genă, după cum indică statisticile Warren’s I care măsoară similaritatea nișei , au prezentat o identitate de nișă observată semnificativ mai mică decât 100 de permutări aleatorii (testul t cu un eșantion, FDR corectat P < 0,01; Fig. 5a, Fișier suplimentar 5: Tabelul S8 D). Cu alte cuvinte, cele două grupuri alelice de eșantioane prezintă o divergență de nișă semnificativă. Mai mult, eșantioanele fiecărui tip de alelă pentru fiecare genă au fost împrăștiate, în loc să fie izolate într-o zonă locală mică (Fișier suplimentar 3: Figura S4). Aceste rezultate sugerează că toți acești loci sunt corelați cu adaptarea.

Fig. 5
fig. 5

Diferența ecologică și de expresie. a Divergență ecologică semnificativă între cele două tipuri de eșantioane pentru fiecare dintre cele patru gene, după cum indică scorul I observat (I O) și scorurile I simulate (I S). b Divergența de expresie a genei AT5G44000. c Stânga: modelarea nișei cu o probabilitate ridicată (≥ 0,5) a celor două tipuri de eșantioane pentru AT5G44000. Dreapta: Rezultatele semnificației în cadrul diferitelor strategii de permutare (pentru nișe cu probabilitate ≥ 0,5; I O = 0,673, 100 de permutări)

Am examinat, de asemenea, diferențierea expresiei pentru cele patru gene între cele două grupuri corespunzătoare pe baza haplotipurilor fazate la cele două situsuri TSP, alegând 84 de transcriptomi publicați extrași din țesuturi de frunze din A. thaliana (un eșantion a fost secvențiat pentru fiecare accesoriu, iar nivelul de expresie a fost măsurat ca fragmente pe kilobază de exon la un milion de fragmente cartografiate ) ca în studiul nostru anterior . O genă, AT5G44000, a prezentat o diferență semnificativă de expresie (testul Wilcoxon-Mann-Whitney, P < 0,05 corectat FDR, Fig. 5b) între cele două grupuri de haplotipuri.

Prin urmare, am efectuat o modelare în profunzime a nișei AT5G44000 (Fig. 5c) și am examinat diversificarea celor două grupuri de probe (503 vs 75). Am comparat mai întâi identitatea de nișă între cele două grupuri de haplotipuri ale AT5G44000 prin restricționarea analizei noastre la nișele cu o probabilitate ridicată (≥ 0,5) și am obținut rezultate similare (Fig. 5c, Fișier suplimentar 5: Tabelul S8 D). Pentru a vedea dacă dimensiunea neechilibrată a eșantionului ar putea afecta rezultatele, am utilizat o altă strategie de permutare prin restricționarea analizei la aceeași dimensiune a eșantionului (75) pentru ambele seturi în fiecare repetiție (cu probabilitate > 0,5). După cum este prezentat în Fig. 5c, atunci când permutarea a fost efectuată pentru grupurile de eșantioane reale (simularea 1), valoarea I observată (0,673) nu a prezentat o diferență semnificativă (testul t cu o singură mostră, P = 0,166), ceea ce indică faptul că valoarea observată a fost fiabilă, indiferent de diferența de mărime a eșantionului. Atunci când cele două grupuri reale au fost amestecate și au fost selectate două grupuri aleatorii de dimensiuni reale (simularea 2) sau două grupuri aleatorii de dimensiuni egale (75) (simularea 3), diferența dintre valoarea observată și permutările a fost din nou semnificativă (testul t cu un eșantion, P = 1,9 × 10-75 pentru simularea 2 și P = 2,6 × 10-75 pentru simularea 3). Aceste rezultate implică faptul că cele două grupuri de haplotipuri diferențiate din punct de vedere funcțional ale AT5G44000 s-au adaptat la habitate ecologice divergente.

Lasă un comentariu