Gedeelde polymorfismen zijn overvloedig aanwezig tussen A. thaliana en C. rubella
In een populatie van 80 A. thaliana toetredingen waren er 4.902.039 SNPs (van 119.146.348 sites), waaronder 2.044.731 een minor allele frequency (MAF) van > 0,05 hadden. In de C. rubella populatie identificeerden we, door SNPs van 22 C. rubella accessies (Additional file 1: Tabel S1, inclusief 21 gepubliceerde accessies en één in deze studie gesequeneerde accessie) te vergelijken met het C. rubella referentiegenoom, 2.149.643 SNPs (van 134.834.574 sites), waarvan 1.240.547 een MAF > 0,05 hadden. Om gedeelde polymorfismen tussen de twee soorten te identificeren, gedefinieerd als hetzelfde allelenpaar op een bepaalde orthologe plaats, construeerden wij eerst de set van orthologe genenparen tussen de twee soorten. Om te garanderen dat de orthologe genen geconserveerd zijn, hebben we, naast de referentiegenen van A. thaliana en C. rubella, ook Arabidopsis lyrata opgenomen, een congeneer van A. thaliana. We kregen 16.047 orthologe genenparen en verwijderden 33 die tandem duplicaties hadden in een van de drie referenties en verkregen uiteindelijk een totaal van 16.014 orthologe genenparen tussen A. thaliana en C. rubella voor verdere analyse.
De genische regio van de 16.014 orthologe genen in A. thaliana besloeg 39.275.210 bp en evenzo, in C. rubella, besloeg het 40.936.262 bp. Deze regio’s bevatten 3.889.495 vaste verschillen en deze hoge verhouding (~ 10%) is consistent met de lange divergentie tijd (~ 8 MYA) van de twee soorten. In deze regio’s vonden we 1.122.845 bi-allelische sites (426.123 met MAF > 0,05) in A. thaliana en 452.116 bi-allelische sites (279.780 met MAF > 0,05) in C. rubella. Onder deze polymorfe sites waren 19.732 orthologe sites polymorf in beide soorten, waarvan 8535 hetzelfde allelpaar deelden (gedeelde SNP ) (Additional file 1: Table S2).
Vergeleken met niet-coderende regio-sequenties, zijn coderende regio-sequenties meer geconserveerd en leveren robuuste alignments op tussen de twee sterk uiteenlopende soorten; daarom hebben we ons eerst gericht op shSNPs in coderende regio’s. MAF > 0.05 was vereist in beide soorten om SNP betrouwbaarheid te garanderen en rekening te houden met de verwachte overmaat aan allelen met intermediaire frequenties voor sites onder langdurige balancerende selectie. We vonden 1503 shSNP’s in de coderende regio’s van 1007 genen.
Op de 1503 shSNP’s werd verdere filtering toegepast om genotyperings- en mappingfouten te vermijden. De filtering werd alleen toegepast op de C. rubella SNP gegevens, omdat we de SNP matrix voor A. thaliana gedownload. Om ongewenste SNP’s als gevolg van duplicaties in het genoom te vermijden, hebben wij de mappability van elke 50-bp regio in C. rubella beoordeeld en alleen sites die zich in uniek mappable regio’s bevonden voor verdere analyse behouden. Zo bleven er slechts 580 sites over. Ten slotte, na het verwijderen van sites van lage kwaliteit, gemarkeerd door het SNP calling tool, verkregen we 546 betrouwbare gedeelde coderende SNPs in 433 genen. Details van het filterproces zijn te vinden in het gedeelte “Methoden” en een weergave van het proces is te zien in Fig. 2.
Demografische geschiedenis van de twee soorten
De detectie van echte TSP signalen uit de overvloedige gedeelde polymorfismen is afhankelijk van een volledig begrip van de demografische geschiedenis van de twee soorten. Het gezamenlijke plaatsfrequentiespectrum (gezamenlijke SFS) is veel gebruikt om de demografische geschiedenis van diverse organismen te bestuderen. Daarom hebben we eerst de viervoudige ontaarde sites geëxtraheerd uit de alignementen van de referentiegenen van A. thaliana en C. rubella op de 16.014 orthologen. Uiteindelijk verkregen we 2.011.573 sites voor de demografische analyse (zie “Methoden” voor details).
Coalescence simulaties werden vervolgens uitgevoerd met fastsimcoal2 onder een basismodel zonder genenstroom (M1, Fig. 3) en een model met oude genenstroom tussen de twee genera (M2, Fig. 3). We hebben alleen rekening gehouden met oude genenstromen tussen de twee soorten, omdat het hoogst onwaarschijnlijk is dat soorten die tot verschillende geslachten behoren en een verschillend aantal chromosomen hebben (vijf vs. acht), recente introgressie hebben. Bovendien is A. thaliana in beide geslachten de enige soort met vijf in plaats van acht chromosomen; daarom hebben we de oude genenstroom beperkt tot de periode voordat A. thaliana zich van de rest van het Arabidopsis-geslacht scheidde. In elk model hebben wij de divergentieperiode van de twee geslachten gesteld op 8 MYA , wat neerkomt op 8 miljoen generaties geleden, en zijn wij uitgegaan van een spontane mutatiesnelheid van 7 × 10-9 per bp per generatie. We hebben verschillende populatiegroottes overwogen voor beide soorten op basis van de overgangsgebeurtenissen van hun respectieve voorouders; A. thaliana onderging een populatievermindering nadat het rond 6 MYA uit de rest van het Arabidopsis-geslacht was gedivergeerd en C. rubella onderging een zeer recente bottleneck in verband met de soortvorming uit C. grandiflora . We gebruikten coalescentie simulaties waarbij de samengestelde waarschijnlijkheidsmethode, geïmplementeerd in fastsimcoal2, werd toegepast om beide modellen te passen op de gezamenlijke SFS van de twee soorten, berekend uit de geëxtraheerde 2.011.573 trans-species viervoudige degenerate sites. We vergeleken de twee modellen met behulp van Akaike’s informatiecriterium (AIC) en Akaike’s gewicht van bewijs (w), zoals in Excoffier et al. Het model zonder oude genenstroom (M1) paste iets beter (Max EstLhood: -682010 vs -682028), met een lagere AIC en een hoger gewicht dan die van het andere model (Fig. 3, Additional file 2: Tabel S3). Bovendien geven de twee dicht bij elkaar liggende waarschijnlijkheden aan dat het effect van voorouderlijke genenstroom over de lange tijdschaal moet zijn weggevaagd en weinig bijdraagt aan de kwaliteit van het model.
Onder model M1 bedroeg het huidige N e van A. thaliana ~ 519.000 met een 95% betrouwbaarheidsinterval (CI) van 486.368-527.574, uit een grote voorouderlijke populatie (~ 2.230.000, 95% CI = 1.085.330-4.876.051), alvorens zich af te scheiden van de rest van het Arabidopsis-geslacht op ~ 5,84 MYA (95% CI = 5,27-6,70). C. rubella evolueerde ~ 0,40 MYA (95% CI = 321.998-500.317) uit een voorouderlijke populatie met een grote N e van ~ 4.037.000 (95% CI = 2.076.868-5.165.614) en een huidige N e van ~ 129.000 (95% CI = 126.383-157.779). De twee geslachten divergeerden van een voorouderlijke populatie met N e = ~ 4.930.000 (95% CI = 4.560.931-4.969.696). Onder Model M2 met genenstroom werden vergelijkbare parameterschattingen verkregen, behalve een grotere voorouderlijke N e voor het Arabidopsis genus (~ 3.270.000, 95% CI = 797.016-4.342.346) en een kleinere N e voor het Capsella genus (~ 1.972.000, 95% CI = 2.126.346-6.248.003). Sterkere genenstroom werd geschat van Capsella naar Arabidopsis dan in omgekeerde richting (migratiesnelheid per generatie; 1 × 10-8, 95% CI = 4,0 × 10-15-1,1 × 10-6 vs 7 × 10-14, 95% CI = 5,7 × 10-15-6,1 × 10-5), hoewel beide zwak waren (zie aanvullend bestand 2: tabel S3 voor de details).
Trans-species polymorfismen tussen de twee soorten moeten onder balancerende selectie staan
Trans-species polymorfismen kunnen neutraal zijn en de waarschijnlijkheid ervan kan worden benaderd gegeven specifieke demografische parameters. Vergelijkbaar met een studie van TSPs bij mensen en chimpansees , onder neutrale evolutie, gedeelde polymorfismen waren identiek door afstamming in ons systeem alleen als: (1) ten minste twee A. thaliana-lijnen en twee C. rubella-lijnen niet samengroeiden vóór de A. thaliana-C. rubella-splitsing; en (2) lijnen met hetzelfde allel eerder samengroeiden dan lijnen met verschillende allelen. Deze waarschijnlijkheid wordt hoofdzakelijk bepaald door voorwaarde (1) en kan op basis van de coalescentietheorie als volgt benaderd worden :
waarbij T verwijst naar de divergentieperiode van de twee geslachten en N A/N C verwijst naar de populatiegroottes van A. thaliana/C. rubella, respectievelijk. Volgens onze schattingen volgens model M1, waarbij rekening is gehouden met veranderingen in de populatiegrootte, ligt deze kans op identiteit door afstamming in de orde van 10-9. Gegeven het feit dat we < 39.275.210 uitgelijnde sites hebben tussen de twee soorten in de genische regio, verwachten we dat het totale aantal neutrale TSP’s < 1 is door genetische drift alleen.
Wij veronderstelden willekeurige paring in ons model; beide soorten zijn echter zelf bevruchtend en er bestaat waarschijnlijk populatiestructuur binnen de soorten. Niettemin zouden recente demografische gebeurtenissen relatief weinig effect moeten hebben, omdat we diepe coalescentiegebeurtenissen bij toeval in beide soorten in hetzelfde gebied van het genoom vereisen. Zoals geïllustreerd in de vorige studie, zou zelfs diepe populatiestructuur binnen de moderne mens een minimaal effect moeten hebben op de waarschijnlijkheid. In deze studie hebben beide soorten een geschiedenis van overwegend uitkruisen. A. thaliana ging slechts een miljoen jaar geleden over van uitkruisen naar zelfkruisen en C. rubella ging veel recenter over. Zelfs als zelfkruizende soorten, is het uitkruisingspercentage van lokale populaties maar liefst 14,5%. Daarom is het onwaarschijnlijk dat populatiestructuren, indien aanwezig, over een lange tijdschaal blijven bestaan en de invloed ervan op de waarschijnlijkheid kan dus worden genegeerd.
Identificatie van trans-species polymorfismen onder balancerende selectie
TSP’s kunnen worden onderscheiden van neutrale mutaties omdat regio’s onder langdurige balancerende selectie clusteren per allel, in plaats van per soort . Daarom richtten we ons vervolgens op de 433 kandidaatgenen met betrouwbare gedeelde SNPs in de coderende regio en onderzochten we de haplotypes die elke gedeelde bi-allelische SNP met MAF > 0.05 in de genische regio’s omvatten.
Om de lengte te schatten van elk segment dat een signaal van TSPs draagt, gebruikten we een eerder afgeleide formule die grotendeels afhangt van de recombinatiesnelheid. Vanuit het oogpunt van coalescentie wordt een dergelijk segment niet door recombinatie opgesplitst totdat alle lineages van dezelfde allelische klasse coalescent zijn naar hun meest recente gemeenschappelijke voorouder in de voorouderlijke populatie. Uitgaande van een recombinatiesnelheid van 3,6 cM/Mb voor beide soorten, was de lengte van het segment extreem kort, d.w.z. slechts enkele basenparen, theoretisch. Gezien het feit dat beide soorten recent ontstonden uit hun respectievelijke uitkruisende voorouders en de effectieve recombinatiesnelheid in het verleden veel hoger zou kunnen zijn, zou de verwachte lengte nog korter kunnen zijn. Deze schatting suggereert, onder de neutrale omstandigheden in ons systeem, dat het zeer moeilijk is om een segment te ontdekken zonder een breuk van recombinatie. Echter, wanneer er balancerende selectie bestaat, kan selectie recombinatie in de omliggende regio onderdrukken. Daarom moet de segmentlengte langer zijn dan de theoretische geschatte lengte onder een neutraal model. We hebben daarom de genische regio gescand met behulp van een venstergrootte van 100 bp en een stapgrootte van 1 bp.
In de 433 kandidaat-genen, ontdekten we 975 gedeelde bi-allelische SNPs (inclusief zowel exonische als intronische SNPs met MAF > 0,05). Vergelijkbaar met eerdere studies, zochten we vervolgens naar vensters die ten minste twee van de 975 SNP’s omvatten die in sterk linkage disequilibrium (r 2 > 0,5) zijn in beide soorten onder de gekwalificeerde vensters (uitgelijnd op een minimum van 95% van de lengte; zie “Methoden” voor details) om allelische bomen te identificeren. Deze beperkingen kunnen vals-positieven sterk verminderen en allelbomen, als ze bestaan, met hoge resolutie opleveren. Tenslotte identificeerden we vensters van vijf genen, AT1G35220, AT2G16570, AT4G29360, AT5G38460, en AT5G44000, waarbij tien sites betrokken waren, als kandidaat TSP’s onder lange-termijn balancerende selectie (Additional file 3: Figuur S1). Geen van de vijf orthologe genen die we hier vonden, is gecorreleerd met kopiegetalvariatie (CNV) en ze hebben allemaal slechts één hit wanneer we ze vergelijken met de referenties van de twee soorten, respectievelijk (zie “Methoden” voor details).
Om de geïdentificeerde regio’s te verifiëren, hebben we eerst alle haplotypes in de geïdentificeerde regio’s van elke populatie bepaald en representatieve accessies voor elk haplotype opnieuw gesequenced (zie Aanvullend bestand 1: Tabel S4 voor de primers). Zoals verwacht werden alle kandidaat-TSP-gebieden in de vijf genen gevalideerd en de sequenties van de twee soorten in de kandidaat-gebieden geclusterd per allel, in plaats van per soort (Fig. 4). In het gen AT1G35220 waren de twee kandidaat TSP sites in volledige linkage disequilibrium in een intronic regio; deze regio kan het doel zijn van balancerende selectie of gekoppeld zijn aan een niet-gedetecteerde coderende TSP site.
Hoewel de haplotypes van elke regio per allel geclusterd zijn, in plaats van per soort, werd het delen van haplotypen tussen de twee soorten zelden gedetecteerd, behalve in AT2G16570 (Col-0 deelde zijn haplotype met verschillende C. rubella; Fig. 4). Dit is niet verwonderlijk gezien de lange divergentie tijd; uitgebreide haplotype sharing verschijnt gewoonlijk op een veel kleinere tijdschaal en wordt geïnduceerd door gebeurtenissen zoals recente introgressie tussen nauw verwante soorten.
Neutrale simulatie studies valideren de vijf kandidaat genen
Om te zien of de waargenomen vensters willekeurig gegenereerd kunnen worden onder neutrale evolutie, resulterend in valse positieven, hebben we aanvullende simulaties uitgevoerd op basis van de geschatte demografische parameters met behulp van fastsimcoal2 (Additional file 4: Text S1). Naast neutrale recurrente mutaties kan genenstroom ook resulteren in gedeelde SNPs. Daarom voerden wij simulaties uit volgens zowel model M1 (zonder genenstroom) als M2 (met oude genenstroom), hoewel onze demografische analyse aangaf dat M1 iets beter bij de gegevens paste. In beide simulaties hebben we rekening gehouden met heterogeniteit in mutatiepercentages voor verschillende klassen van mutaties, met name het hogere mutatiepercentage op CpG-plaatsen, wat kan resulteren in fout-positieven (Additional file 1: tabel S5, Additional file 4: tekst S1). Met behulp van fastsimcoal2 genereerden we onder elk model 1.000.000 neutrale segmenten van 100 bp en zochten we naar die met twee of meer gedeelde SNPs en cluster per allel zoals we naar TSPs zochten.
Voor beide modellen gaf geen van de 1.000.000 runs aanleiding tot een venster dat aan onze criteria voldeed (Additional file 1: Tabel S6). Ondanks het bestaan van neutrale gedeelde SNPs, leverde geen enkel gesimuleerd venster een allelische boom op, aangezien alle vensters met gedeelde SNPs vergezeld gingen van veel meer vaste verschillen tussen de twee soorten, wat hogere divergentieniveaus dan diversiteit impliceert. Dit resultaat suggereert dat deze gesimuleerde neutrale gedeelde SNPs recurrente mutaties zijn, eerder dan TSPs, en belangrijker nog, de vijf genen die we vonden zijn niet consistent met neutrale evolutie en bleken dus echte TSPs te zijn onder balancerende selectie. De uiteindelijke TSP sites en genen staan vermeld in Tabel 1. Bovendien impliceren onze resultaten, samen met de eerder genoemde demografische studie, dat zelfs als er oude genenstromen zouden hebben plaatsgevonden, onder neutrale evolutie TSP’s in dit systeem door drift verloren zouden gaan.
Eigenschappen van de genen onder balancerende selectie
Wij berekenden vervolgens de nucleotidediversiteit (π) voor alle TSP-regio’s in de vijf genen in elke soort en gebruikten de gesimuleerde neutrale sequenties onder M1 om achtergronddiversiteitsniveaus te bepalen. Alle regio’s in de vijf genen vertoonden significant hogere π-waarden dan achtergrondniveaus in zowel C. rubella als A. thaliana (Wilcoxon-Mann-Whitney test, FDR-gecorrigeerde P < 0,05, Tabel 2, Additional file 3: Figuur S2A), behalve AT5G38460 in A. thaliana. Bovendien vertoonden de allelen van deze genen een trend naar intermediaire frequenties (Wilcoxon-Mann-Whitney test, P = 0,0752/0,03474 voor A. thaliana/C. rubella; Additional file 3: Figuur S2B). Een intermediaire frequentie is echter een aanwijzing voor evenwichtsselectie, maar geen definitief bewijs, aangezien de allelfrequentieverdeling van sites die gekoppeld zijn aan een evenwichtig polymorfisme naar verwachting een verschuiving zal vertonen in de richting van het frequentie-evenwicht, dat zich bij elke allelfrequentie kan voordoen .
Een van de vijf genen die in deze studie onder langdurige evenwichtsselectie stonden, AT1G35220, heeft een onbekende functie, maar vertoont eiwitfosforylering onder ethyleenbehandeling . AT2G16570 is onder andere een sleutelenzym in de biosynthese van purinenucleotiden en is belangrijk voor celdeling, chloroplast biogenese en zaadkieming ; AT4G29360 is een O-glycosyl hydrolase familie 17 eiwit, betrokken bij verdedigingsreacties ; AT5G38460 is een glycosyltransferase en katalyseert de overdracht van een glycosylgroep van een verbinding (donor) naar een andere (acceptor) en is betrokken bij diverse functies, waaronder biotische stress ; AT5G44000 is een glutathion S-transferase, dat gewoonlijk betrokken is bij de reactie op abiotische en biotische stress . Blijkbaar zijn deze genen mogelijk betrokken bij de reactie op biotische of abiotische stress (AT4G29360, AT5G38460, en AT5G44000) of fundamentele biochemische functies (AT2G16570).
Zoals verwacht waren de genen onder balancerende selectie functioneel belangrijk en bestonden alle homologen van de vijf genen reeds in de meest recente gemeenschappelijke voorouder van groene planten. Zoals aangegeven in Tabel S7 (Additional file 1: Table S7), kunnen homologen (orthologen of paralogen) zelfs in de meest basale soort van groene planten, Chlamydomonas reinhardtii, worden gevonden voor alle vijf genen, behalve AT4G29360, dat kan worden teruggevoerd op Physcomitrella patens.
Loci waarvan algemeen wordt aangenomen dat ze onder balanceringsselectie staan, zoals de S-locus of R-genen , vielen in deze studie echter niet op. Dit is te verwachten, omdat deze loci te variabel zijn om te identificeren op basis van short reads. Bijvoorbeeld, R-genen zijn te dynamisch om SNPs op te roepen; de S-locus bestaat niet in de laatste annotatie van het Arabidopsis genoom en slechts één S-locus haplotype wordt gehandhaafd in C. rubella sinds de overgang van uitkruisen naar zelf-kruisen en de afbraak van zelf-incompatibiliteit . Bovendien is de S-locus niet langer onderhevig aan balancerende selectie, aangezien beide soorten nu zelfzuchtig zijn. Daarentegen zijn de genen die we hier geïdentificeerd hebben, hoewel oud, niet uitgebreid bestudeerd en kunnen ze inzicht verschaffen in de soorten genen die onder evenwichtsselectie staan.
Balanceringsselectie droeg bij tot aanpassing aan uiteenlopende habitats
Om te zien of de allelische varianten die onder langdurige evenwichtsselectie staan, geassocieerd zijn met ecologische diversificatie, onderzochten we de divergentie met betrekking tot 48 ecologische factoren (Additional file 5: Tabel S8A). Door een gebrek aan GPS informatie en de kleine steekproefgrootte van C. rubella, was deze analyse alleen mogelijk voor de A. thaliana monsters. Populatiestructuur is gewoonlijk sterk gecorreleerd met ecologische diversificatie en kan daarom onze resultaten verstoren. We gingen eerst na of een TSP site gecorreleerd was met populatiestructuur in de A. thaliana stalen, hoewel een dergelijke structuur geen invloed heeft op de waarschijnlijkheid van het waarnemen van de soortenboom van A. thaliana en C. rubella. Met behulp van ADMIXTURE vonden we dat de 80 A. thaliana monsters in twee groepen kunnen worden ingedeeld (Additional file 3: Figuur S3; Additional file 6: Tabel S9) en dat alleen de allelische classificaties van de twee sites van het gen AT5G38460 significant gecorreleerd zijn met de populatiestructuur (chi-kwadraat test, FDR-gecorrigeerde P < 0.05,; Additional file 1: Tabel S10). Daarom hebben we AT5G38460 uitgesloten van verdere ecologische analyses.
Om een grondig inzicht te krijgen in ecologische divergentie, gebruikten we 1135 recent gepubliceerde A. thaliana genomen . Eerst pasten we een “thinning” proces toe om te garanderen dat elk monster zeer representatief was voor zijn natuurlijke habitat, waardoor 584 monsters overbleven (zie “Methoden”). Ten tweede, voor elk gen, classificeerden we de 584 accessies van A. thaliana in twee groepen op basis van de gefaseerde haplotypes voor de twee TSP sites (Additional file 5: Tabel S8B, C, sommige monsters werden verwijderd omdat ze niet konden worden gefaseerd). Vervolgens evalueerden we de divergentie tussen de twee groepen van accessies met betrekking tot de 48 ecologische factoren voor elk van de vier genen. Interessant is dat al deze vier genen geassocieerd waren met de divergentie van enkele specifieke ecologische parameters. AT1G35220 en AT4G29360, in het bijzonder, vertoonden significante divergentie met betrekking tot de meeste van de temperatuur-gerelateerde ecologische factoren (Additional file 5: Tabel S8 A, Wilcoxon-Mann-Whitney test, FDR-gecorrigeerde P < 0.05).
We modelleerden vervolgens de ecologische niches voor alle vier de genen. Blijkbaar vertoonden de twee groepen monsters voor elk gen, zoals aangegeven door Warren’s I-statistieken die de niche-gelijkenis meten, significant lagere waargenomen niche-identiteit dan 100 willekeurige permutaties (one-sample t-test, FDR-gecorrigeerde P < 0,01; Fig. 5a, Additional file 5: Tabel S8 D). Met andere woorden, de twee allelgroepen van monsters vertonen significante nichedivergentie. Bovendien waren de monsters van elk allelisch type voor elk gen verspreid, in plaats van geïsoleerd te zijn in een klein lokaal gebied (Additional file 3: Figuur S4). Deze resultaten suggereren dat al deze loci gecorreleerd zijn met adaptatie.
We onderzochten ook expressiedifferentiatie voor de vier genen tussen de twee overeenkomstige groepen op basis van de gefaseerde haplotypen op de twee TSP-locaties door te kiezen voor 84 gepubliceerde uit bladweefsel geëxtraheerde transcriptomen van A. thaliana (een monster werd gesequenced voor elke toetreding en het expressieniveau werd gemeten als fragmenten per kilobase van exon per miljoen in kaart gebrachte fragmenten) als onze vorige studie . Eén gen, AT5G44000, vertoonde een significant expressieverschil (Wilcoxon-Mann-Whitney test, FDR-gecorrigeerde P < 0,05, Fig. 5b) tussen de twee haplotype groepen.
We voerden daarom een diepgaande niche modellering van AT5G44000 uit (Fig. 5c) en onderzochten de diversificatie van de twee groepen monsters (503 vs 75). We vergeleken eerst de niche-identiteit tussen de twee haplotype groepen van AT5G44000 door onze analyse te beperken tot niches met een hoge waarschijnlijkheid (≥ 0,5) en verkregen vergelijkbare resultaten (Fig. 5c, Additional file 5: Tabel S8 D). Om te zien of de onevenwichtige steekproefomvang van invloed kunnen zijn op de resultaten, gebruikten we een andere permutatie strategie door het beperken van de analyse tot dezelfde steekproefomvang (75) voor beide sets in elke herhaling (met een waarschijnlijkheid > 0,5). Zoals in fig. 5c te zien is, vertoonde de waargenomen I-waarde (0,673) bij permutatie voor de echte steekproefgroepen (simulatie 1) geen significant verschil (one-sample t-test, P = 0,166), wat erop wijst dat de waargenomen waarde betrouwbaar was, ongeacht het verschil in steekproefgrootte. Wanneer de twee echte groepen werden gemengd en twee willekeurige groepen van echte grootte werden geselecteerd (simulatie 2) of twee willekeurige groepen van gelijke grootte (75) werden geselecteerd (simulatie 3), was het verschil tussen de waargenomen waarde en de permutaties opnieuw significant (one-sample t-test, P = 1,9 × 10-75 voor simulatie 2 en P = 2,6 × 10-75 voor simulatie 3). Deze resultaten impliceren dat de twee functioneel gedifferentieerde haplotype-groepen van AT5G44000 zich hebben aangepast aan uiteenlopende ecologische habitats.