Langfristige ausgleichende Selektion trägt zur Anpassung in Arabidopsis und seinen Verwandten bei | Genome Biology

Gemeinsame Polymorphismen sind häufig zwischen A. thaliana und C. rubella

In einer Population von 80 A. thaliana-Akzessionen gab es 4.902.039 SNPs (von 119.146.348 Stellen), von denen 2.044.731 eine geringere Allelfrequenz (MAF) von > 0,05 aufwiesen. In der C. rubella-Population identifizierten wir 2.149.643 SNPs (von 134.834.574 Stellen), von denen 1.240.547 eine MAF > 0,05 aufwiesen, indem wir SNPs aus 22 C. rubella-Zugängen (Additional file 1: Table S1, einschließlich 21 veröffentlichter Zugänge und einem in dieser Studie sequenzierten Zugang) mit dem C. rubella-Referenzgenom verglichen. Um gemeinsame Polymorphismen zwischen den beiden Arten zu identifizieren, die als das gleiche Allelpaar an einer bestimmten orthologen Stelle definiert sind, haben wir zunächst die Menge der orthologen Genpaare zwischen den beiden Arten zusammengestellt. Um sicherzustellen, dass die orthologen Gene konserviert sind, haben wir zusätzlich zu den Referenzgenomen von A. thaliana und C. rubella auch Arabidopsis lyrata , eine Verwandte von A. thaliana, einbezogen. Wir erhielten 16.047 orthologe Genpaare und entfernten 33, die in einem der drei Referenzgenome Tandemduplikationen aufwiesen, und erhielten schließlich insgesamt 16.014 orthologe Genpaare zwischen A. thaliana und C. rubella für die weitere Analyse.

Die Genregion der 16.014 orthologen Gene in A. thaliana umfasste 39.275.210 bp und in C. rubella 40.936.262 bp. Diese Regionen enthielten 3.889.495 feste Unterschiede, und dieses hohe Verhältnis (~ 10 %) steht im Einklang mit der langen Divergenzzeit (~ 8 MYA) der beiden Arten. In diesen Regionen fanden wir 1.122.845 bi-allelische Stellen (426.123 mit MAF > 0,05) in A. thaliana und 452.116 bi-allelische Stellen (279.780 mit MAF > 0,05) in C. rubella. Unter diesen polymorphen Stellen waren 19.732 orthologe Stellen in beiden Arten polymorph, von denen 8535 das gleiche Allelpaar (gemeinsamer SNP) aufwiesen (Additional file 1: Tabelle S2).

Im Vergleich zu den Sequenzen der nicht-kodierenden Regionen sind die Sequenzen der kodierenden Regionen konservierter und liefern robuste Alignments zwischen den beiden stark divergierenden Arten; daher konzentrierten wir uns zunächst auf shSNPs in kodierenden Regionen. Der MAF > 0,05 war bei beiden Arten erforderlich, um die Zuverlässigkeit der SNPs zu gewährleisten und den erwarteten Überschuss an Allelen mit Zwischenhäufigkeiten an Stellen mit langfristiger ausgleichender Selektion zu berücksichtigen. Wir fanden 1503 shSNPs in den kodierenden Regionen von 1007 Genen.

Für die 1503 shSNPs wurde eine weitere Filterung vorgenommen, um Genotypisierungs- und Kartierungsfehler zu vermeiden. Die Filterung wurde nur auf die SNP-Daten von C. rubella angewendet, da wir die SNP-Matrix für A. thaliana heruntergeladen haben. Um falsche SNPs zu vermeiden, die durch Duplikationen im Genom entstanden sind, haben wir die Kartierbarkeit jeder 50-bp-Region in C. rubella bewertet und nur die Stellen, die sich in eindeutig kartierbaren Regionen befanden, für die weitere Analyse ausgewählt. So blieben nur 580 Stellen übrig. Nach der Entfernung von minderwertigen Stellen, die vom SNP-Calling-Tool markiert wurden, erhielten wir schließlich 546 zuverlässige gemeinsame kodierende SNPs in 433 Genen. Einzelheiten zum Filterungsprozess sind im Abschnitt „Methoden“ zu finden, und ein Überblick über den Prozess ist in Abb. 2 dargestellt.

Demografische Geschichte der beiden Arten

Die Erkennung echter TSP-Signale aus den reichlich vorhandenen gemeinsamen Polymorphismen hängt von einem vollständigen Verständnis der demografischen Geschichte der beiden Arten ab. Das gemeinsame Häufigkeitsspektrum (Joint Site Frequency Spectrum, SFS) wurde häufig zur Untersuchung der demografischen Geschichte verschiedener Organismen verwendet. Daher extrahierten wir zunächst die vierfach degenerierten Stellen aus den Alignments der Referenzgenome von A. thaliana und C. rubella an den 16.014 Orthologen. Schließlich erhielten wir 2.011.573 Stellen für die demografische Analyse (siehe „Methoden“ für weitere Einzelheiten).

Anschließend wurden mit fastsimcoal2 Simulationen der Koaleszenz durchgeführt, und zwar sowohl für ein Basismodell ohne Genfluss (M1, Abb. 3) als auch für ein Modell mit altem Genfluss zwischen den beiden Gattungen (M2, Abb. 3). Wir haben nur den alten Genfluss zwischen den beiden Arten berücksichtigt, da es bei Arten, die zu verschiedenen Gattungen gehören und eine unterschiedliche Anzahl von Chromosomen haben (fünf gegenüber acht), höchst unwahrscheinlich ist, dass es zu einer rezenten Introgression gekommen ist. Darüber hinaus ist A. thaliana in beiden Gattungen die einzige Art mit fünf statt acht Chromosomen; wir haben daher den alten Genfluss vor der Trennung von A. thaliana vom Rest der Gattung Arabidopsis eingeschränkt. In jedem Modell setzten wir den Zeitpunkt der Divergenz der beiden Gattungen auf 8 MYA fest, d. h. vor 8 Millionen Generationen, und nahmen eine Spontanmutationsrate von 7 × 10-9 pro bp pro Generation an. Wir berücksichtigten verschiedene Populationsgrößen für beide Arten auf der Grundlage der Übergangsereignisse von ihren jeweiligen Stammvätern; A. thaliana erfuhr eine Populationsverkleinerung, nachdem sie sich vom Rest der Gattung Arabidopsis um 6 MYA abspaltete, und C. rubella erlebte einen sehr jungen Engpass im Zusammenhang mit der Artbildung von C. grandiflora . Wir verwendeten Koaleszenzsimulationen unter Anwendung der in fastsimcoal2 implementierten Composite-Likelihood-Methode, um beide Modelle an die gemeinsame SFS der beiden Arten anzupassen, die aus den extrahierten 2.011.573 artenübergreifenden vierfach degenerierten Stellen berechnet wurde. Wir verglichen die beiden Modelle anhand des Akaike-Informationskriteriums (AIC) und der Akaike-Beweiskraft (w), wie in Excoffier et al. beschrieben. Das Modell ohne alten Genfluss (M1) passte etwas besser (Max EstLhood: -682010 vs. -682028), mit einem niedrigeren AIC und höherem Gewicht als das andere Modell (Abb. 3, Zusatzdatei 2: Tabelle S3). Darüber hinaus deuten die beiden nahe beieinander liegenden Likelihoods darauf hin, dass der Effekt des Genflusses der Vorfahren auf der langen Zeitskala ausgelöscht worden sein sollte und wenig zur Modellqualität beiträgt.

Unter Modell M1 lag die aktuelle N e von A. thaliana ~ 519.000 mit einem 95% Konfidenzintervall (CI) von 486.368-527.574, aus einer großen Vorfahrenpopulation (~ 2.230.000, 95% CI = 1.085.330-4.876.051), bevor sie sich vom Rest der Gattung Arabidopsis bei ~ 5,84 MYA (95% CI = 5,27-6,70) trennte. C. rubella entwickelte sich ~ 0,40 MYA (95% CI = 321.998-500.317) aus einer Vorläuferpopulation mit einer großen N e von ~ 4.037.000 (95% CI = 2.076.868-5.165.614) und einer aktuellen N e von ~ 129.000 (95% CI = 126.383-157.779). Die beiden Gattungen haben sich von einer Vorgängerpopulation mit N e = ~ 4.930.000 (95% CI = 4.560.931-4.969.696) getrennt. Das Modell M2 mit Genfluss ergab ähnliche Parameterschätzungen, mit Ausnahme eines größeren angestammten N e für die Gattung Arabidopsis (~ 3.270.000, 95% CI = 797.016-4.342.346) und eines kleineren N e für die Gattung Capsella (~ 1.972.000, 95% CI = 2.126.346-6.248.003). Es wurde ein stärkerer Genfluss von Capsella zu Arabidopsis geschätzt als in umgekehrter Richtung (Migrationsrate pro Generation; 1 × 10-8, 95% CI = 4,0 × 10-15-1,1 × 10-6 vs 7 × 10-14, 95% CI = 5,7 × 10-15-6,1 × 10-5), obwohl beide schwach waren (siehe Zusatzdatei 2: Tabelle S3 für die Details).

Trans-Spezies-Polymorphismen zwischen den beiden Arten müssen einer ausgleichenden Selektion unterliegen

Trans-Spezies-Polymorphismen können neutral sein, und ihre Wahrscheinlichkeit kann anhand bestimmter demografischer Parameter angenähert werden. Ähnlich wie bei einer Studie über TSPs bei Menschen und Schimpansen waren bei neutraler Evolution gemeinsame Polymorphismen in unserem System nur dann durch Abstammung identisch, wenn: (1) mindestens zwei A.-thaliana-Linien und zwei C.-Röteln-Linien nicht vor der A.-thaliana-C.-Röteln-Spaltung zusammengewachsen sind; und (2) Linien, die das gleiche Allel tragen, vor Linien mit unterschiedlichen Allelen zusammengewachsen sind. Diese Wahrscheinlichkeit wird hauptsächlich durch die Bedingung (1) bestimmt und kann auf der Grundlage der Koaleszenztheorie wie folgt angenähert werden:

$$ P={e}^{-\frac{T}{2{N}_A}\ast }{e}^{-\frac{T}{2{N}_C}}, $$

wobei sich T auf die Divergenzzeit der beiden Gattungen und N A/N C auf die Populationsgrößen von A. thaliana/C. rubella bezeichnen. Nach unseren Schätzungen gemäß Modell M1 und unter Berücksichtigung von Änderungen der Populationsgröße liegt diese Wahrscheinlichkeit der Identität durch Abstammung in der Größenordnung von 10-9. In Anbetracht der Tatsache, dass wir < 39.275.210 ausgerichtete Stellen zwischen den beiden Arten in der Genregion haben, erwarten wir, dass die Gesamtzahl der neutralen TSPs allein durch genetische Drift < 1 beträgt.

Wir haben in unserem Modell eine zufällige Paarung angenommen; beide Arten sind jedoch selfing und es gibt wahrscheinlich eine Populationsstruktur innerhalb der Arten. Dennoch dürften die jüngsten demografischen Ereignisse relativ geringe Auswirkungen haben, da wir bei beiden Arten in derselben Region des Genoms tiefe Koaleszenzereignisse als Zufall voraussetzen. Wie in der vorangegangenen Studie gezeigt wurde, dürfte selbst eine tiefe Populationsstruktur innerhalb des modernen Menschen nur minimale Auswirkungen auf die Wahrscheinlichkeit haben. In dieser Studie haben beide Arten eine Geschichte mit überwiegendem Outcrossing. A. thaliana ging erst vor einer Million Jahren von der Auskreuzung zur Selbstbefruchtung über, während C. rubella erst vor viel kürzerer Zeit dazu überging. Selbst als selbstkreuzende Arten liegt die Auskreuzungsrate lokaler Populationen bei bis zu 14,5 %. Daher ist es unwahrscheinlich, dass Populationsstrukturen, wenn sie denn existieren, über einen langen Zeitraum bestehen bleiben, und ihre Auswirkungen auf die Wahrscheinlichkeit können daher vernachlässigt werden.

Identifizierung von artenübergreifenden Polymorphismen unter ausgleichender Selektion

TSPs können von neutralen Mutationen unterschieden werden, da Regionen, die einer langfristigen ausgleichenden Selektion unterliegen, nach Allelen und nicht nach Arten geclustert werden. Daher konzentrierten wir uns als nächstes auf die 433 Kandidatengene mit zuverlässigen gemeinsamen SNPs in der kodierenden Region und untersuchten die Haplotypen, die jeden gemeinsamen bi-allelischen SNP mit MAF > 0,05 in den Genregionen abdecken.

Um die Länge jedes Segments, das ein Signal von TSPs trägt, zu schätzen, verwendeten wir eine zuvor abgeleitete Formel, die sich weitgehend auf die Rekombinationsrate stützt. Unter dem Gesichtspunkt der Koaleszenz wird ein solches Segment erst dann durch Rekombination aufgelöst, wenn alle Linien derselben Allelklasse mit ihrem jüngsten gemeinsamen Vorfahren in der Stammpopulation koaleszieren. Nimmt man für beide Arten eine Rekombinationsrate von 3,6 cM/Mb an, so war die Länge des Segments extrem kurz, d. h. theoretisch nur einige Basenpaare. Da beide Arten erst vor kurzem aus ihren jeweiligen auskreuzenden Vorfahren hervorgegangen sind und die effektive Rekombinationsrate in der Vergangenheit viel höher gewesen sein könnte, könnte die erwartete Länge noch kürzer sein. Diese Schätzung deutet darauf hin, dass es unter den neutralen Bedingungen in unserem System äußerst schwierig ist, ein Segment ohne eine Unterbrechung der Rekombination zu entdecken. Wenn jedoch eine ausgleichende Selektion stattfindet, kann die Selektion die Rekombination in der umgebenden Region unterdrücken. Daher sollte die Segmentlänge größer sein als die theoretisch geschätzte Länge unter einem neutralen Modell. Wir scannten die Genregion mit einer Fenstergröße von 100 bp und einer Schrittgröße von 1 bp.

In den 433 Kandidatengenen entdeckten wir 975 gemeinsame bi-allelische SNPs (einschließlich exonischer und intronischer SNPs mit MAF > 0,05). Ähnlich wie in früheren Studien suchten wir als Nächstes nach Fenstern, die mindestens zwei der 975 SNPs abdeckten, die in beiden Spezies unter den qualifizierten Fenstern in starkem Kopplungsungleichgewicht (r 2 > 0,5) stehen (ausgerichtet auf mindestens 95 % der Länge; siehe „Methoden“ für Details), um Allelbäume zu identifizieren. Diese Einschränkungen können falsch-positive Ergebnisse stark reduzieren und Allelbäume, falls vorhanden, mit hoher Auflösung liefern. Schließlich identifizierten wir Fenster von fünf Genen, AT1G35220, AT2G16570, AT4G29360, AT5G38460 und AT5G44000, die zehn Stellen umfassen, als TSP-Kandidaten unter langfristiger ausgleichender Selektion (Zusatzdatei 3: Abbildung S1). Keines der fünf orthologen Gene, die wir hier gefunden haben, ist mit der Kopienzahlvariation (CNV) korreliert, und alle haben nur einen Treffer, wenn wir sie mit den Referenzen der beiden Arten vergleichen (siehe „Methoden“ für Details).

Um die identifizierten Regionen zu überprüfen, haben wir zunächst alle Haplotypen in den identifizierten Regionen aus jeder Population bestimmt und repräsentative Akzessionen für jeden Haplotyp neu sequenziert (siehe Zusatzdatei 1: Tabelle S4 für die Primer). Wie erwartet wurden alle TSP-Kandidaten in den fünf Genen validiert und die Sequenzen der beiden Arten in den Kandidatenregionen nach Allel und nicht nach Art geclustert (Abb. 4). Im Gen AT1G35220 befanden sich die beiden TSP-Kandidatenstellen in einer intronischen Region in vollständigem Kopplungsungleichgewicht; diese Region könnte das Ziel einer ausgleichenden Selektion sein oder mit einer unentdeckten kodierenden TSP-Stelle verbunden sein.

Obwohl die Haplotypen jeder Region nach Allel geclustert sind, Obwohl die Haplotypen jeder Region eher nach Allel als nach Spezies geclustert waren, wurde eine gemeinsame Nutzung von Haplotypen zwischen den beiden Spezies nur selten festgestellt, außer bei AT2G16570 (Col-0 teilte seinen Haplotyp mit mehreren C. rubella Akzessionen; Abb. 4). Dies ist angesichts der langen Divergenzzeit nicht überraschend; extensiver Haplotyp-Austausch tritt in der Regel auf einer viel kleineren Zeitskala auf und wird durch Ereignisse wie jüngste Introgression zwischen eng verwandten Arten ausgelöst.

Neutrale Simulationsstudien validieren die fünf Kandidatengene

Um zu sehen, ob die beobachteten Fenster bei neutraler Evolution zufällig erzeugt werden könnten, was zu falsch-positiven Ergebnissen führen würde, führten wir zusätzliche Simulationen auf der Grundlage der geschätzten demografischen Parameter mit fastsimcoal2 durch (Additional file 4: Text S1). Abgesehen von neutralen wiederkehrenden Mutationen kann der Genfluss auch zu gemeinsamen SNPs führen. Dementsprechend führten wir Simulationen sowohl nach Modell M1 (ohne Genfluss) als auch nach Modell M2 (mit altem Genfluss) durch, obwohl unsere demografische Analyse darauf hindeutete, dass M1 die Daten etwas besser erfüllte. In beiden Simulationen berücksichtigten wir die Heterogenität der Mutationsraten für verschiedene Klassen von Mutationen, insbesondere die höhere Mutationsrate an CpG-Stellen, die zu falsch-positiven Ergebnissen führen kann (Additional file 1: Tabelle S5, Additional file 4: Text S1). Unter Verwendung von fastsimcoal2 generierten wir 1.000.000 neutrale Segmente von 100 bp unter jedem Modell und suchten nach solchen mit zwei oder mehr gemeinsamen SNPs und Clustern nach Allelen, während wir nach TSPs suchten.

Für beide Modelle ergab keiner der 1.000.000 Läufe ein Fenster, das unsere Kriterien erfüllte (Zusätzliche Datei 1: Tabelle S6). Trotz des Vorhandenseins neutraler gemeinsamer SNPs ergab kein simuliertes Fenster einen Allelbaum, da alle Fenster mit gemeinsamen SNPs von viel mehr fixen Unterschieden zwischen den beiden Arten begleitet wurden, was auf ein höheres Divergenzniveau als auf Diversität schließen lässt. Dieses Ergebnis deutet darauf hin, dass es sich bei diesen simulierten neutralen gemeinsamen SNPs um wiederkehrende Mutationen und nicht um TSPs handelt. Noch wichtiger ist, dass die fünf von uns gefundenen Gene nicht mit einer neutralen Evolution vereinbar sind und sich somit als echte TSPs unter ausgleichender Selektion erweisen. Die endgültigen TSP-Stellen und -Gene sind in Tabelle 1 aufgeführt. Zusammen mit der oben erwähnten demografischen Studie deuten unsere Ergebnisse außerdem darauf hin, dass TSPs in diesem System durch Drift verloren gehen würden, selbst wenn ein alter Genfluss stattgefunden hat und die Evolution neutral verläuft.

Tabelle 1 Informationen zu den Kandidatengenen und TSP-Stellen

Eigenschaften der Gene unter ausgleichender Selektion

Als Nächstes berechneten wir die Nukleotiddiversität (π) für alle TSP-Regionen in den fünf Genen jeder Spezies und verwendeten die simulierten neutralen Sequenzen unter M1 zur Bestimmung der Hintergrunddiversität. Alle Regionen in den fünf Genen wiesen sowohl bei C. rubella als auch bei A. thaliana signifikant höhere π-Werte als das Hintergrundniveau auf (Wilcoxon-Mann-Whitney-Test, FDR-korrigierter P < 0,05, Tabelle 2, Zusatzdatei 3: Abbildung S2A), außer AT5G38460 in A. thaliana. Darüber hinaus zeigten die Allele dieser Gene einen Trend zu Zwischenhäufigkeiten (Wilcoxon-Mann-Whitney-Test, P = 0,0752/0,03474 für A. thaliana/C. rubella; Additional file 3: Abbildung S2B). Eine Zwischenfrequenz ist jedoch ein Hinweis auf eine ausgleichende Selektion, aber kein definitiver Beweis, da die Allelfrequenzverteilung von Stellen, die mit einem ausgeglichenen Polymorphismus verbunden sind, eine Verschiebung in Richtung des Frequenzgleichgewichts aufweisen sollte, das bei jeder Allelfrequenz liegen kann.

Tabelle 2 Genetische Merkmale der TSP-Stellen

Eines der fünf Gene, die in dieser Studie einer langfristigen ausgleichenden Selektion unterworfen waren, AT1G35220, hat eine unbekannte Funktion, zeigt aber eine Proteinphosphorylierung unter Ethylenbehandlung . AT2G16570 ist ein Schlüsselenzym des Purinnukleotid-Biosynthesewegs und wichtig für die Zellteilung, die Chloroplastenbiogenese und die Samenkeimung; AT4G29360 ist ein Protein der O-Glycosylhydrolase-Familie 17, das an Abwehrreaktionen beteiligt ist; AT5G38460 ist eine Glykosyltransferase, die die Übertragung einer Glykosylgruppe von einer Verbindung (Donor) auf eine andere (Akzeptor) katalysiert und an verschiedenen Funktionen, einschließlich biotischem Stress, beteiligt ist; AT5G44000 ist eine Glutathion-S-Transferase, die in der Regel an der Reaktion auf abiotischen und biotischen Stress beteiligt ist. Offensichtlich sind diese Gene möglicherweise an der Reaktion auf biotischen oder abiotischen Stress (AT4G29360, AT5G38460 und AT5G44000) oder an grundlegenden biochemischen Funktionen (AT2G16570) beteiligt.

Wie erwartet, waren die Gene, die einer ausgleichenden Selektion unterzogen wurden, funktionell wichtig und alle Homologe der fünf Gene existierten bereits im jüngsten gemeinsamen Vorfahren der grünen Pflanzen. Wie aus Tabelle S7 (Additional file 1: Table S7) hervorgeht, lassen sich für alle fünf Gene Homologe (entweder Orthologe oder Paraloge) sogar in der basalsten Art der Grünpflanzen, Chlamydomonas reinhardtii, finden, mit Ausnahme von AT4G29360, das auf Physcomitrella patens zurückgeführt werden kann.

Loci, von denen weithin angenommen wird, dass sie einer ausgleichenden Selektion unterliegen, wie z. B. der S-Locus oder die R-Gene , fielen in dieser Studie jedoch nicht auf. Dies ist zu erwarten, da diese Loci zu variabel sind, um sie auf der Grundlage kurzer Reads zu identifizieren. So sind beispielsweise R-Gene zu dynamisch, um SNPs zu bestimmen; der S-Locus ist in der neuesten Annotation des Arabidopsis-Genoms nicht enthalten, und in C. rubella wird seit dem Übergang von Outcrossing zu Selfing und dem Zusammenbruch der Selbstinkompatibilität nur ein S-Locus-Haplotyp beibehalten. Darüber hinaus unterliegt der S-Locus nicht mehr der ausgleichenden Selektion, da beide Arten nun selbstkreuzend sind. Im Gegensatz dazu sind die Gene, die wir hier identifiziert haben, zwar alt, aber noch nicht umfassend untersucht worden, und sie könnten einen Einblick in die Arten von Genen geben, die unter ausgleichender Selektion stehen.

Ausgleichende Selektion trug zur Anpassung an unterschiedliche Lebensräume bei

Um zu sehen, ob die allelischen Varianten, die unter langfristiger ausgleichender Selektion stehen, mit ökologischer Diversifizierung verbunden sind, haben wir die Divergenz in Bezug auf 48 ökologische Faktoren untersucht (Additional file 5: Tabelle S8A). Aufgrund fehlender GPS-Informationen und der geringen Stichprobengröße von C. rubella war diese Analyse nur für die Proben von A. thaliana möglich. Die Populationsstruktur ist in der Regel stark mit der ökologischen Diversifizierung korreliert und kann daher unsere Ergebnisse verfälschen. Wir überprüften zunächst, ob eine TSP-Stelle mit der Populationsstruktur in den A. thaliana-Proben korreliert war, obwohl eine solche Struktur die Wahrscheinlichkeit der Beobachtung des Artenbaums von A. thaliana und C. rubella nicht beeinflusst. Mithilfe von ADMIXTURE fanden wir heraus, dass die 80 A. thaliana-Proben in zwei Gruppen eingeteilt werden können (Zusätzliche Datei 3: Abbildung S3; Zusätzliche Datei 6: Tabelle S9) und nur die allelischen Klassifizierungen der beiden Standorte des Gens AT5G38460 signifikant mit der Populationsstruktur korreliert sind (Chi-Quadrat-Test, FDR-korrigierter P < 0,05,; Zusätzliche Datei 1: Tabelle S10). Daher haben wir AT5G38460 aus den nachfolgenden ökologischen Analysen ausgeschlossen.

Um ein umfassendes Verständnis der ökologischen Divergenz zu erhalten, haben wir 1135 kürzlich veröffentlichte A. thaliana-Genome verwendet. Zunächst wurde eine Ausdünnung vorgenommen, um zu gewährleisten, dass jede Probe in hohem Maße repräsentativ für ihren natürlichen Lebensraum war, so dass 584 Proben übrig blieben (siehe „Methoden“). Zweitens klassifizierten wir die 584 Akzessionen von A. thaliana für jedes Gen in zwei Gruppen auf der Grundlage der phasierten Haplotypen für die beiden TSP-Standorte (Additional file 5: Tabelle S8B, C, einige Proben wurden entfernt, weil sie nicht phasiert werden konnten). Anschließend bewerteten wir die Divergenz zwischen den beiden Gruppen von Akzessionen im Hinblick auf die 48 ökologischen Faktoren für jedes der vier Gene. Interessanterweise waren alle diese vier Gene mit der Divergenz einiger spezifischer ökologischer Parameter verbunden. Insbesondere AT1G35220 und AT4G29360 wiesen eine signifikante Divergenz in Bezug auf die meisten temperaturbezogenen ökologischen Faktoren auf (Zusatzdatei 5: Tabelle S8 A, Wilcoxon-Mann-Whitney-Test, FDR-korrigierter P < 0,05).

Als nächstes modellierten wir die ökologischen Nischen für alle vier Gene. Offensichtlich, die beiden Gruppen von Proben für jedes Gen, wie von Warren’s I Statistik, die Nischenähnlichkeit misst angezeigt, wies deutlich niedriger beobachtet Nischenidentität als 100 zufällige Permutationen (eine Stichprobe t-Test, FDR-korrigiert P < 0.01; Abb. 5a, zusätzliche Datei 5: Tabelle S8 D). Mit anderen Worten, die beiden Allelgruppen der Proben weisen eine signifikante Nischendivergenz auf. Darüber hinaus waren die Proben jedes Alleltyps für jedes Gen verstreut, anstatt in einem kleinen lokalen Bereich isoliert zu sein (Additional file 3: Abbildung S4). Diese Ergebnisse deuten darauf hin, dass alle diese Loci mit der Anpassung korreliert sind.

Wir untersuchten auch die Expressionsdifferenzierung für die vier Gene zwischen den beiden entsprechenden Gruppen auf der Grundlage der phasierten Haplotypen an den beiden TSP-Stellen, wobei wir 84 veröffentlichte, aus Blattgewebe extrahierte Transkriptome von A. thaliana (für jede Akzession wurde eine Probe sequenziert und das Expressionsniveau wurde als Fragmente pro Kilobase Exon pro Million kartierter Fragmente gemessen) als unsere frühere Studie. Ein Gen, AT5G44000, wies signifikante Expressionsunterschiede (Wilcoxon-Mann-Whitney-Test, FDR-korrigierter P < 0,05, Abb. 5b) zwischen den beiden Haplotyp-Gruppen auf.

Wir führten daher eine eingehende Nischenmodellierung von AT5G44000 durch (Abb. 5c) und untersuchten die Diversifizierung der beiden Probengruppen (503 vs. 75). Wir verglichen zunächst die Nischenidentität zwischen den beiden Haplotypengruppen von AT5G44000, indem wir unsere Analyse auf Nischen mit einer hohen Wahrscheinlichkeit (≥ 0,5) beschränkten, und erhielten ähnliche Ergebnisse (Abb. 5c, Zusatzdatei 5: Tabelle S8 D). Um zu sehen, ob die unausgewogene Stichprobengröße die Ergebnisse beeinflussen könnte, verwendeten wir eine andere Permutationsstrategie, indem wir die Analyse auf die gleiche Stichprobengröße (75) für beide Sätze in jeder Wiederholung beschränkten (mit einer Wahrscheinlichkeit > 0,5). Wie in Abb. 5c dargestellt, zeigte der beobachtete I-Wert (0,673) bei Durchführung der Permutation für die realen Stichprobengruppen (Simulation 1) keinen signifikanten Unterschied (t-Test bei einer Stichprobe, P = 0,166), was darauf hindeutet, dass der beobachtete Wert unabhängig von der unterschiedlichen Stichprobengröße zuverlässig war. Wurden die beiden realen Gruppen gemischt und zwei Zufallsgruppen realer Größe (Simulation 2) oder zwei Zufallsgruppen gleicher Größe (75) ausgewählt (Simulation 3), war der Unterschied zwischen dem beobachteten Wert und den Permutationen erneut signifikant (t-Test bei einer Stichprobe, P = 1,9 × 10-75 für Simulation 2 und P = 2,6 × 10-75 für Simulation 3). Diese Ergebnisse deuten darauf hin, dass sich die beiden funktionell differenzierten Haplotyp-Gruppen von AT5G44000 an unterschiedliche ökologische Lebensräume angepasst haben.