La sélection d’équilibre à long terme contribue à l’adaptation chez Arabidopsis et ses parents

Les polymorphismes partagés sont abondants entre A. thaliana et C. rubella

Dans une population de 80 accessions d’A. thaliana , il y avait 4 902 039 SNP (sur 119 146 348 sites), parmi lesquels 2 044 731 avaient une fréquence allélique mineure (MAF) de > 0,05. Dans la population de C. rubella, en appelant les SNPs de 22 accessions de C. rubella (Fichier additionnel 1 : Tableau S1, incluant 21 accessions publiées et une accession séquencée dans cette étude) contre le génome de référence de C. rubella, nous avons identifié 2 149 643 SNPs (sur 134 834 574 sites), dont 1 240 547 avaient une MAF > 0,05. Pour identifier les polymorphismes partagés entre les deux espèces, définis comme la même paire d’allèles à un site orthologue particulier, nous avons d’abord construit l’ensemble des paires de gènes orthologues entre les deux espèces. Pour garantir que les gènes orthologues sont conservés, nous avons inclus, en plus des génomes de référence de A. thaliana et C. rubella, Arabidopsis lyrata , un congénère de A. thaliana. Nous avons obtenu 16 047 paires de gènes orthologues et en avons éliminé 33 qui présentaient des duplications en tandem dans l’une des trois références, pour finalement obtenir un total de 16 014 paires de gènes orthologues entre A. thaliana et C. rubella pour une analyse plus approfondie.

La région génique des 16 014 gènes orthologues chez A. thaliana s’étendait sur 39 275 210 pb et de même, chez C. rubella, elle s’étendait sur 40 936 262 pb. Ces régions contenaient 3 889 495 différences fixes et ce ratio élevé (~ 10%) est cohérent avec le long temps de divergence (~ 8 MYA) des deux espèces. Dans ces régions, nous avons trouvé 1 122 845 sites bi-alléliques (426 123 avec MAF > 0,05) chez A. thaliana et 452 116 sites bi-alléliques (279 780 avec MAF > 0,05) chez C. rubella. Parmi ces sites polymorphes, 19 732 sites orthologues étaient polymorphes dans les deux espèces, dont 8535 partageaient la même paire d’allèles (SNP partagé ) (fichier additionnel 1 : tableau S2).

Par rapport aux séquences des régions non codantes, les séquences des régions codantes sont plus conservées et donnent des alignements robustes entre les deux espèces hautement divergentes ; par conséquent, nous nous sommes d’abord concentrés sur les shSNP dans les régions codantes. Un MAF > 0,05 était requis dans les deux espèces pour garantir la fiabilité des SNP et tenir compte de l’excès attendu d’allèles avec des fréquences intermédiaires pour les sites soumis à une sélection équilibrante à long terme. Nous avons trouvé 1503 shSNP dans les régions codantes de 1007 gènes.

Un filtrage supplémentaire a été appliqué aux 1503 shSNP pour éviter les erreurs de génotypage et de cartographie. Le filtrage a été appliqué uniquement aux données SNP de C. rubella, puisque nous avons téléchargé la matrice SNP pour A. thaliana. Pour éviter les faux SNP dus à des duplications dans le génome, nous avons évalué la cartographie de chaque région de 50 pb dans C. rubella et n’avons retenu que les sites qui se trouvaient dans des régions uniquement cartographiables pour l’analyse ultérieure. Il ne restait donc que 580 sites. Enfin, après avoir éliminé les sites de faible qualité marqués par l’outil d’appel de SNP, nous avons obtenu 546 SNP codants partagés fiables dans 433 gènes. Les détails du processus de filtrage se trouvent dans la section « Méthodes » et une vue du processus est représentée dans la Fig. 2.

Fig. 2
figure2

Pipeline du processus de filtrage SNP pour identifier les sites candidats de PST

Histoire démographique des deux espèces

La détection de véritables signaux de PST à partir des abondants polymorphismes partagés repose sur une compréhension complète de l’histoire démographique des deux espèces. Le spectre de fréquence de site conjoint (SFS conjoint) a été largement utilisé pour étudier l’histoire démographique de divers organismes . Par conséquent, nous avons d’abord extrait les sites quadruples dégénérés des alignements des génomes de référence de A. thaliana et C. rubella sur les 16 014 orthologues. Enfin, nous avons obtenu 2 011 573 sites pour l’analyse démographique (voir « Méthodes » pour plus de détails).

Des simulations de coalescence ont ensuite été effectuées à l’aide de fastsimcoal2 sous un modèle de base sans flux de gènes (M1, Fig. 3) et un modèle intégrant un flux de gènes anciens entre les deux genres (M2, Fig. 3). Nous n’avons considéré que le flux génétique ancien entre les deux espèces, car il est très peu probable que des espèces appartenant à des genres différents et ayant un nombre de chromosomes différent (cinq contre huit) aient subi une introgression récente. De plus, dans les deux genres, A. thaliana est la seule espèce à posséder cinq chromosomes plutôt que huit ; nous avons donc limité le flux génétique ancien avant la séparation d’A. thaliana du reste du genre Arabidopsis. Dans chaque modèle, nous avons fixé le temps de divergence des deux genres à 8 MYA, soit il y a 8 millions de générations, et supposé un taux de mutation spontanée de 7 × 10-9 par pb par génération. Nous avons considéré différentes tailles de population pour les deux espèces en fonction des événements de transition à partir de leurs progéniteurs respectifs ; A. thaliana a subi une réduction de population après avoir divergé du reste du genre Arabidopsis vers 6 MYA et C. rubella a connu un goulot d’étranglement très récent associé à la spéciation de C. grandiflora . Nous avons utilisé des simulations coalescentes en appliquant la méthode de vraisemblance composite mise en œuvre dans fastsimcoal2 pour ajuster les deux modèles à la SFS conjointe des deux espèces calculée à partir des 2 011 573 sites quadruple dégénérés transespèces extraits. Nous avons comparé les deux modèles en utilisant le critère d’information d’Akaike (AIC) et le poids de la preuve d’Akaike (w), comme dans Excoffier et al. . Le modèle sans flux génétique ancien (M1) s’est légèrement mieux ajusté (Max EstLhood : -682010 vs -682028), avec un AIC plus faible et un poids plus élevé que ceux de l’autre modèle (Fig. 3, Additional file 2 : Table S3). En outre, les deux vraisemblances proches indiquent que l’effet du flux génétique ancestral devrait avoir été effacé sur la longue échelle de temps et contribue peu à la qualité du modèle.

Fig. 3
figure3

Estimations des paramètres démographiques pour deux modèles de la divergence des deux espèces

Selon le modèle M1, le N e actuel d’A. thaliana était de ~ 519 000 avec un intervalle de confiance (IC) à 95% de 486 368-527 574, à partir d’une grande population ancestrale (~ 2 230 000, IC à 95% = 1 085 330-4 876 051) avant de se séparer du reste du genre Arabidopsis à ~ 5,84 MYA (IC à 95% = 5,27-6,70). C. rubella a évolué à ~ 0,40 MYA (IC 95% = 321 998-500 317) à partir d’une population ancestrale avec un grand N e de ~ 4 037 000 (IC 95% = 2 076 868-5 165 614) et un N e actuel de ~ 129 000 (IC 95% = 126 383-157 779). Les deux genres ont divergé à partir d’une population ancestrale avec N e = ~ 4 930 000 (IC 95 % = 4 560 931-4 969 696). Dans le cadre du modèle M2 avec flux génétique, des estimations de paramètres similaires ont été obtenues, à l’exception d’un N e ancestral plus important pour le genre Arabidopsis (~ 3 270 000, IC 95 % = 797 016-4 342 346) et d’un N e plus faible pour le genre Capsella (~ 1 972 000, IC 95 % = 2 126 346-6 248 003). Un flux génétique plus fort a été estimé de Capsella vers Arabidopsis que dans le sens inverse (taux de migration par génération ; 1 × 10-8, IC 95 % = 4,0 × 10-15-1,1 × 10-6 vs 7 × 10-14, IC 95 % = 5,7 × 10-15-6,1 × 10-5), bien que les deux soient faibles (voir le fichier supplémentaire 2 : tableau S3 pour les détails).

Les polymorphismes transespèces entre les deux espèces doivent être sous sélection équilibrante

Les polymorphismes transespèces peuvent être neutres et sa probabilité peut être approximée compte tenu de paramètres démographiques spécifiques. Similaire à une étude des PST chez les humains et les chimpanzés , sous une évolution neutre, les polymorphismes partagés étaient identiques par descendance dans notre système seulement si : (1) au moins deux lignées d’A. thaliana et deux lignées de C. rubella n’ont pas coalescé avant la séparation A. thaliana-C. rubella ; et (2) les lignées portant le même allèle ont coalescé avant les lignées portant des allèles différents. Cette probabilité est principalement déterminée par la condition (1) et peut être approximée par ce qui suit sur la base de la théorie de la coalescence :

$$ P={e}^{-\frac{T}{2{N}_A}\ast }{e}^{-\frac{T}{2{N}_C}}, $$

où T se réfère au temps de divergence des deux genres et N A/N C se réfère aux tailles de population de A. thaliana/C. rubella, respectivement. Selon nos estimations dans le cadre du modèle M1, en tenant compte des changements de taille des populations, cette probabilité d’identité par descendance est de l’ordre de 10-9. Étant donné que nous disposons de < 39 275 210 sites alignés entre les deux espèces dans la région génique, nous nous attendons à ce que le nombre total de PST neutres soit < 1 par la seule dérive génétique.

Nous avons supposé un accouplement aléatoire dans notre modèle ; cependant, les deux espèces s’autogèrent et une structure de population existe probablement au sein des espèces. Néanmoins, les événements démographiques récents devraient avoir relativement peu d’effet, puisque nous avons besoin d’événements de coalescence profonde par hasard dans les deux espèces dans la même région du génome . Comme l’illustre l’étude précédente, même une structure de population profonde au sein de l’homme moderne devrait avoir un effet minimal sur la probabilité. Dans cette étude, les deux espèces ont un historique d’outcrossing prédominant. A. thaliana est passé de l’outcrossing à l’autofécondation il y a seulement un million d’années et C. rubella l’a fait beaucoup plus récemment. Même en tant qu’espèces qui s’autorégulent, le taux d’outcrossing des populations locales peut atteindre 14,5 %. Par conséquent, les structures de population, si elles existent, sont peu susceptibles de persister sur une longue échelle de temps et son impact sur la probabilité peut donc être ignoré.

Identification des polymorphismes trans-espèces sous sélection équilibrante

Les PTS peuvent être distingués des mutations neutres parce que les régions sous sélection équilibrante à long terme se regroupent par allèle, plutôt que par espèce . Par conséquent, nous nous sommes ensuite concentrés sur les 433 gènes candidats avec des SNP partagés fiables dans la région codante et avons examiné les haplotypes couvrant chaque SNP bi-allélique partagé avec MAF > 0,05 dans les régions géniques.

Pour estimer la longueur de chaque segment portant un signal de PST, nous avons utilisé une formule dérivée précédemment qui repose en grande partie sur le taux de recombinaison. Du point de vue de la coalescence, un tel segment n’est pas fragmenté par recombinaison jusqu’à ce que toutes les lignées de la même classe allélique coalescent vers leur ancêtre commun le plus récent dans la population ancestrale . En adoptant un taux de recombinaison de 3,6 cM/Mb pour les deux espèces, la longueur du segment était extrêmement courte, c’est-à-dire seulement quelques paires de bases, en théorie. Étant donné que les deux espèces sont apparues récemment à partir de leurs progéniteurs respectifs qui se sont croisés et que le taux de recombinaison effectif pouvait être beaucoup plus élevé dans le passé, la longueur attendue pourrait être encore plus courte. Cette estimation suggère, dans les circonstances neutres de notre système, qu’il est très difficile de découvrir un segment sans rupture de recombinaison. Cependant, lorsqu’une sélection équilibrante existe, la sélection peut supprimer la recombinaison dans la région environnante . Par conséquent, la longueur du segment devrait être plus longue que la longueur théorique estimée dans un modèle neutre. Nous avons donc balayé la région génique en utilisant une taille de fenêtre de 100 pb et une taille de pas de 1 pb.

Dans les 433 gènes candidats, nous avons détecté 975 SNP bi-alléliques partagés (y compris les SNP exoniques et introniques avec MAF > 0,05). Comme dans les études précédentes, nous avons ensuite recherché des fenêtres couvrant au moins deux des 975 SNP qui sont en fort déséquilibre de liaison (r 2 > 0,5) dans les deux espèces parmi les fenêtres qualifiées (alignées à un minimum de 95% de la longueur ; voir « Méthodes » pour plus de détails) pour identifier les arbres alléliques. Ces restrictions peuvent réduire considérablement les faux positifs et donner des arbres alléliques, s’ils existent, avec une haute résolution. Enfin, nous avons identifié des fenêtres provenant de cinq gènes, AT1G35220, AT2G16570, AT4G29360, AT5G38460 et AT5G44000, impliquant dix sites, comme étant des PST candidats faisant l’objet d’une sélection d’équilibrage à long terme (fichier additionnel 3 : figure S1). Aucun des cinq gènes orthologues que nous avons trouvés ici n’est corrélé à la variation du nombre de copies (CNV) et tous n’ont qu’un seul résultat lorsque nous les avons comparés aux références des deux espèces, respectivement (voir « Méthodes » pour plus de détails).

Pour vérifier les régions identifiées, nous avons d’abord déterminé tous les haplotypes dans les régions identifiées de chaque population et reséquencé des accessions représentatives pour chaque haplotype (voir Fichier supplémentaire 1 : Tableau S4 pour les amorces). Comme prévu, tous les sites TSP candidats dans les cinq gènes ont été validés et les séquences des deux espèces dans les régions candidates ont été regroupées par allèle, plutôt que par espèce (Fig. 4). Dans le gène AT1G35220, les deux sites TSP candidats étaient en déséquilibre de liaison complet dans une région intronique ; cette région peut être la cible d’une sélection équilibrante ou liée à un site TSP codant non détecté.

Fig. 4
figure4

Toutes les régions candidates dans les cinq gènes produisent un arbre allélique, plutôt qu’un arbre d’espèce

Bien que les haplotypes de chaque région se regroupent par allèle, plutôt que par espèce, le partage d’haplotype entre les deux espèces a rarement été détecté, sauf dans AT2G16570 (Col-0 a partagé son haplotype avec plusieurs C. rubella ; Fig. 4). Cela n’est pas surprenant étant donné le long temps de divergence ; un partage étendu d’haplotype apparaît généralement à une échelle de temps beaucoup plus petite et est induit par des événements tels qu’une introgression récente entre des espèces étroitement apparentées.

Des études de simulation neutres valident les cinq gènes candidats

Pour voir si les fenêtres observées pouvaient être générées de manière aléatoire dans le cadre d’une évolution neutre, ce qui entraînerait des faux positifs, nous avons effectué des simulations supplémentaires basées sur les paramètres démographiques estimés à l’aide de fastsimcoal2 (fichier supplémentaire 4 : texte S1). Outre les mutations récurrentes neutres, le flux de gènes peut également entraîner des SNP partagés. Par conséquent, nous avons effectué des simulations selon les modèles M1 (sans flux de gènes) et M2 (avec flux de gènes anciens), bien que notre analyse démographique ait indiqué que le modèle M1 correspondait légèrement mieux aux données. Dans les deux simulations, nous avons pris en compte l’hétérogénéité des taux de mutation pour différentes classes de mutations, notamment le taux de mutation plus élevé sur les sites CpG, qui peut entraîner des faux positifs (fichier supplémentaire 1 : tableau S5, fichier supplémentaire 4 : texte S1). À l’aide de fastsimcoal2, nous avons généré 1 000 000 de segments neutres de 100 pb sous chaque modèle et nous avons cherché ceux qui présentent deux SNP partagés ou plus et qui sont regroupés par allèle comme nous avons cherché les PST.

Pour les deux modèles, aucun des 1 000 000 de passages n’a donné lieu à une fenêtre répondant à nos critères (fichier supplémentaire 1 : tableau S6). Malgré l’existence de SNP neutres partagés, aucune fenêtre simulée n’a donné lieu à un arbre allélique, car toutes les fenêtres avec SNP partagés étaient accompagnées de différences fixes beaucoup plus nombreuses entre les deux espèces, ce qui implique des niveaux de divergence plus élevés que la diversité. Ce résultat suggère que ces SNP partagés neutres simulés sont des mutations récurrentes, plutôt que des PST, et plus important encore, les cinq gènes que nous avons trouvés ne sont pas compatibles avec une évolution neutre et se sont donc avérés être de véritables PST sous sélection équilibrée. Les sites et les gènes des PST finaux sont énumérés dans le tableau 1. En outre, avec l’étude démographique susmentionnée, nos résultats impliquent que même si un ancien flux de gènes a eu lieu, sous une évolution neutre, les PST seraient perdus par dérive dans ce système.

Tableau 1 Informations sur les gènes candidats et les sites TSP

Propriétés des gènes sous sélection équilibrante

Nous avons ensuite calculé la diversité nucléotidique (π) pour toutes les régions TSP dans les cinq gènes de chaque espèce et utilisé les séquences neutres simulées sous M1 pour déterminer les niveaux de diversité de fond. Toutes les régions des cinq gènes présentaient des valeurs de π significativement plus élevées que les niveaux de fond tant chez C. rubella que chez A. thaliana (test de Wilcoxon-Mann-Whitney, P < 0,05 corrigé par le FDR, tableau 2, fichier supplémentaire 3 : figure S2A), à l’exception de AT5G38460 chez A. thaliana. En outre, les allèles de ces gènes ont montré une tendance vers des fréquences intermédiaires (test de Wilcoxon-Mann-Whitney, P = 0,0752/0,03474 pour A. thaliana/C. rubella ; fichier supplémentaire 3 : Figure S2B). Cependant, une fréquence intermédiaire est une indication d’une sélection équilibrante, mais pas une preuve définitive, puisque la distribution des fréquences alléliques des sites liés à un polymorphisme équilibré devrait présenter un déplacement vers l’équilibre des fréquences, qui peut être à n’importe quelle fréquence allélique .

Tableau 2 Caractéristiques génétiques des sites TSP

Un des cinq gènes soumis à une sélection équilibrante à long terme dans cette étude, AT1G35220, a une fonction inconnue, mais présente une phosphorylation des protéines sous traitement à l’éthylène . Parmi d’autres, AT2G16570 est une enzyme clé dans la voie de biosynthèse des nucléotides puriques et est importante pour la division cellulaire, la biogenèse des chloroplastes et la germination des graines ; AT4G29360 est une protéine O-glycosyl hydrolase de la famille 17, impliquée dans les réponses de défense ; AT5G38460 est une glycosyltransférase et elle catalyse le transfert d’un groupe glycosyle d’un composé (donneur) à un autre (accepteur) et est impliquée dans diverses fonctions, y compris le stress biotique ; AT5G44000 est une glutathion S-transférase, qui est généralement impliquée dans la réponse au stress abiotique et biotique . Apparemment, ces gènes sont potentiellement impliqués dans la réponse au stress biotique ou abiotique (AT4G29360, AT5G38460 et AT5G44000) ou dans des fonctions biochimiques fondamentales (AT2G16570).

Comme prévu, les gènes soumis à une sélection équilibrée étaient fonctionnellement importants et tous les homologues des cinq gènes existaient déjà chez l’ancêtre commun le plus récent des plantes vertes. Comme l’indique le tableau S7 (fichier supplémentaire 1 : tableau S7), des homologues (orthologues ou paralogues) peuvent être trouvés même dans l’espèce la plus basale de plantes vertes, Chlamydomonas reinhardtii, pour l’ensemble des cinq gènes, à l’exception de AT4G29360, qui peut être retracé jusqu’à Physcomitrella patens.

Toutefois, les loci qui sont largement acceptés pour être sous sélection équilibrée, tels que le locus S ou les gènes R , n’ont pas été mis en évidence dans cette étude. Ceci est attendu, puisque ces loci sont trop variables pour être identifiés sur la base de lectures courtes. Par exemple, les gènes R sont trop dynamiques pour appeler des SNP ; le locus S n’existe pas dans la dernière annotation du génome d’Arabidopsis et un seul haplotype du locus S est maintenu chez C. rubella depuis la transition de l’outcrossing à l’selfing et la rupture de l’auto-incompatibilité . De plus, le locus S n’est plus soumis à une sélection équilibrante, puisque les deux espèces s’autogèrent maintenant. En revanche, les gènes que nous avons identifiés ici, bien qu’anciens, n’ont pas été étudiés de manière exhaustive et peuvent donner un aperçu des types de gènes soumis à une sélection d’équilibrage.

La sélection d’équilibrage a contribué à l’adaptation à des habitats divergents

Pour voir si les variantes alléliques soumises à une sélection d’équilibrage à long terme sont associées à la diversification écologique, nous avons étudié la divergence par rapport à 48 facteurs écologiques (fichier supplémentaire 5 : tableau S8A). En raison d’un manque d’informations GPS et de la petite taille de l’échantillon de C. rubella, cette analyse n’a été possible que pour les échantillons d’A. thaliana. La structure de la population est généralement fortement corrélée à la diversification écologique et peut donc fausser nos résultats. Nous avons d’abord vérifié si un site de PST était corrélé à la structure de la population dans les échantillons de A. thaliana, bien que cette structure n’affecte pas la probabilité d’observer l’arbre des espèces de A. thaliana et C. rubella. En utilisant ADMIXTURE , nous avons constaté que les 80 échantillons de A. thaliana peuvent être classés en deux groupes (fichier supplémentaire 3 : Figure S3 ; fichier supplémentaire 6 : Tableau S9) et que seules les classifications alléliques des deux sites du gène AT5G38460 sont significativement corrélées avec la structure de la population (test du chi carré, P < 0,05 corrigé par le FDR ; fichier supplémentaire 1 : Tableau S10). Nous avons donc exclu AT5G38460 des analyses écologiques ultérieures.

Pour avoir une compréhension approfondie de la divergence écologique, nous avons utilisé 1135 génomes d’A. thaliana récemment publiés . Premièrement, nous avons appliqué un processus d' »éclaircissement » pour garantir que chaque échantillon était hautement représentatif de son habitat naturel, ce qui a laissé 584 échantillons (voir « Méthodes »). Ensuite, pour chaque gène, nous avons classé les 584 accessions de A. thaliana en deux groupes sur la base des haplotypes mis en phase pour les deux sites TSP (Fichier additionnel 5 : Tableau S8B, C, certains échantillons ont été retirés car ils ne pouvaient pas être mis en phase). Nous avons ensuite évalué la divergence entre les deux groupes d’accessions par rapport aux 48 facteurs écologiques pour chacun des quatre gènes. Il est intéressant de noter que ces quatre gènes étaient tous associés à la divergence de certains paramètres écologiques spécifiques. AT1G35220 et AT4G29360, en particulier, ont présenté une divergence significative par rapport à la plupart des facteurs écologiques liés à la température (fichier supplémentaire 5 : tableau S8 A, test de Wilcoxon-Mann-Whitney, P < 0,05 corrigé par le FDR).

Nous avons ensuite modélisé les niches écologiques pour les quatre gènes. Apparemment, les deux groupes d’échantillons pour chaque gène, comme l’indique la statistique I de Warren qui mesure la similarité de la niche , présentaient une identité de niche observée significativement plus faible que 100 permutations aléatoires (test t à un échantillon, P < 0,01 corrigé par le FDR ; figure 5a, fichier additionnel 5 : tableau S8 D). En d’autres termes, les deux groupes alléliques d’échantillons présentent une divergence de niche significative. En outre, les échantillons de chaque type allélique pour chaque gène étaient dispersés, au lieu d’être isolés dans une petite zone locale (fichier supplémentaire 3 : figure S4). Ces résultats suggèrent que tous ces loci sont corrélés à l’adaptation.

Fig. 5
figure5

Divergence écologique et d’expression. a Divergence écologique significative entre les deux types d’échantillons pour chacun des quatre gènes, comme indiqué par le score I observé (I O) et les scores I simulés (I S). b Divergence d’expression du gène AT5G44000. c Gauche : Modélisation de la niche à forte probabilité (≥ 0,5) des deux types d’échantillons pour AT5G44000. Droite : Résultats de significativité sous différentes stratégies de permutation (pour les niches avec une probabilité ≥ 0,5 ; I O = 0,673, 100 permutations)

Nous avons également examiné la différenciation de l’expression pour les quatre gènes entre les deux groupes correspondants sur la base des haplotypes en phase aux deux sites TSP en choisissant 84 transcriptomes publiés extraits de tissus foliaires d’A. thaliana (un échantillon a été séquencé pour chaque accession et le niveau d’expression a été mesuré en fragments par kilobase d’exon par million de fragments cartographiés) comme notre étude précédente. Un gène, AT5G44000, présentait une différence d’expression significative (test de Wilcoxon-Mann-Whitney, P < 0,05 corrigé par le FDR, Fig. 5b) entre les deux groupes d’haplotypes.

Nous avons donc effectué une modélisation approfondie de la niche de AT5G44000 (Fig. 5c) et examiné la diversification des deux groupes d’échantillons (503 vs 75). Nous avons d’abord comparé l’identité de niche entre les deux groupes d’haplotypes de l’AT5G44000 en restreignant notre analyse aux niches à forte probabilité (≥ 0,5) et avons obtenu des résultats similaires (Fig. 5c, fichier additionnel 5 : tableau S8 D). Pour voir si la taille déséquilibrée de l’échantillon pouvait affecter les résultats, nous avons utilisé une autre stratégie de permutation en restreignant l’analyse à la même taille d’échantillon (75) pour les deux ensembles dans chaque répétition (avec une probabilité > 0,5). Comme le montre la figure 5c, lorsque la permutation a été effectuée pour les groupes d’échantillons réels (simulation 1), la valeur I observée (0,673) ne présentait pas de différence significative (test t à un échantillon, P = 0,166), ce qui indique que la valeur observée était fiable, indépendamment de la différence de taille de l’échantillon. Lorsque les deux groupes réels ont été mélangés et que deux groupes aléatoires de taille réelle ont été sélectionnés (simulation 2) ou que deux groupes aléatoires de taille égale (75) ont été sélectionnés (simulation 3), la différence entre la valeur observée et les permutations était à nouveau significative (test t à un échantillon, P = 1,9 × 10-75 pour la simulation 2 et P = 2,6 × 10-75 pour la simulation 3). Ces résultats impliquent que les deux groupes d’haplotypes fonctionnellement différenciés d’AT5G44000 se sont adaptés à des habitats écologiques divergents.

Laisser un commentaire