La selección de equilibrio a largo plazo contribuye a la adaptación en Arabidopsis y sus parientes

Los polimorfismos compartidos son abundantes entre A. thaliana y C. rubella

En una población de 80 accesiones de A. thaliana , había 4.902.039 SNPs (de 119.146.348 sitios), entre los cuales 2.044.731 tenían una frecuencia alélica menor (MAF) de > 0,05. En la población de C. rubella, comparando los SNPs de 22 accesiones de C. rubella (Archivo adicional 1: Tabla S1, incluyendo 21 accesiones publicadas y una accesión secuenciada en este estudio) con el genoma de referencia de C. rubella, identificamos 2.149.643 SNPs (de 134.834.574 sitios), de los cuales 1.240.547 tenían un MAF > 0,05. Para identificar los polimorfismos compartidos entre las dos especies, definidos como el mismo par de alelos en un sitio ortólogo particular, primero construimos el conjunto de pares de genes ortólogos entre las dos especies. Para garantizar que los genes ortólogos se conservan, además de los genomas de referencia de A. thaliana y C. rubella, incluimos Arabidopsis lyrata , un congénere de A. thaliana. Obtuvimos 16.047 pares de genes ortólogos y eliminamos 33 que tenían duplicaciones en tándem en cualquiera de las tres referencias y finalmente obtuvimos un total de 16.014 pares de genes ortólogos entre A. thaliana y C. rubella para su posterior análisis.

La región génica de los 16.014 genes ortólogos en A. thaliana abarcaba 39.275.210 pb y, de forma similar, en C. rubella, abarcaba 40.936.262 pb. Estas regiones contenían 3.889.495 diferencias fijas y esta elevada proporción (~ 10%) es coherente con el largo tiempo de divergencia (~ 8 MYA) de las dos especies. En estas regiones, encontramos 1.122.845 sitios bialélicos (426.123 con MAF > 0,05) en A. thaliana y 452.116 sitios bialélicos (279.780 con MAF > 0,05) en C. rubella. Entre estos sitios polimórficos, 19.732 sitios ortólogos eran polimórficos en ambas especies, de los cuales 8535 compartían el mismo par de alelos (SNP compartido) (Archivo adicional 1: Tabla S2).

En comparación con las secuencias de las regiones no codificantes, las secuencias de las regiones codificantes están más conservadas y dan lugar a alineaciones robustas entre las dos especies altamente divergentes; por lo tanto, nos centramos primero en los shSNPs de las regiones codificantes. Se requirió un MAF > 0,05 en ambas especies para garantizar la fiabilidad de los SNP y tener en cuenta el exceso esperado de alelos con frecuencias intermedias para los sitios sometidos a selección de equilibrio a largo plazo. Encontramos 1503 shSNPs en las regiones codificantes de 1007 genes.

Se aplicó un filtro adicional a los 1503 shSNPs para evitar errores de genotipado y mapeo. El filtrado sólo se aplicó a los datos de SNP de C. rubella, ya que descargamos la matriz de SNP para A. thaliana. Para evitar los SNP espurios producidos por duplicaciones en el genoma, evaluamos la mapeabilidad de cada región de 50 pb en C. rubella y sólo retuvimos los sitios que estaban en regiones únicamente mapeables para el análisis posterior. Esto dejó sólo 580 sitios. Finalmente, tras eliminar los sitios de baja calidad marcados por la herramienta de llamada de SNP, obtuvimos 546 SNPs codificantes compartidos fiables en 433 genes. Los detalles del proceso de filtrado se pueden encontrar en la sección «Métodos» y una vista del proceso se representa en la Fig. 2.

Fig. 2
Figure2

Línea de producción del proceso de filtrado de SNP para identificar sitios TSP candidatos

Historia demográfica de las dos especies

La detección de señales TSP reales a partir de los abundantes polimorfismos compartidos se basa en una comprensión completa de la historia demográfica de las dos especies. El espectro de frecuencia de sitio conjunto (SFS conjunto) ha sido ampliamente utilizado para estudiar la historia demográfica de diversos organismos . Por lo tanto, primero extrajimos los sitios cuádruples degenerados de los alineamientos de los genomas de referencia de A. thaliana y C. rubella en los 16.014 ortólogos. Finalmente, obtuvimos 2.011.573 sitios para el análisis demográfico (ver «Métodos» para más detalles).

Luego se realizaron simulaciones de coalescencia utilizando fastsimcoal2 bajo un modelo básico sin flujo génico (M1, Fig. 3) y un modelo que incorpora el flujo génico antiguo entre los dos géneros (M2, Fig. 3). Consideramos únicamente el flujo génico antiguo entre las dos especies, ya que es muy poco probable que las especies que pertenecen a géneros diferentes y con números de cromosomas distintos (cinco frente a ocho) tengan una introgresión reciente. Además, en ambos géneros, A. thaliana es la única especie con cinco y no con ocho cromosomas; por tanto, restringimos el flujo genético antiguo antes de que A. thaliana se separara del resto del género Arabidopsis. En cada modelo, fijamos el tiempo de divergencia de los dos géneros en 8 MYA , lo que equivale a 8 millones de generaciones atrás, y asumimos una tasa de mutación espontánea de 7 × 10-9 por pb por generación . Consideramos varios tamaños de población para ambas especies en función de los eventos de transición desde sus respectivos progenitores; A. thaliana sufrió una reducción de población tras divergir del resto del género Arabidopsis alrededor de 6 MYA y C. rubella experimentó un cuello de botella muy reciente asociado a la especiación desde C. grandiflora . Utilizamos simulaciones coalescentes aplicando el método de probabilidad compuesta implementado en fastsimcoal2 para ajustar ambos modelos a la SFS conjunta de las dos especies calculada a partir de los 2.011.573 sitios cuádruples degenerados extraídos. Comparamos los dos modelos utilizando el criterio de información de Akaike (AIC) y el peso de la evidencia de Akaike (w), como en Excoffier et al. . El modelo sin flujo genético antiguo (M1) se ajustó ligeramente mejor (Max EstLhood: -682010 vs -682028), con un AIC más bajo y un peso más alto que los del otro modelo (Fig. 3, Archivo adicional 2: Tabla S3). Además, las dos verosimilitudes cercanas indican que el efecto del flujo genético ancestral debería haber sido eliminado en la escala temporal larga y contribuye poco a la calidad del modelo.

Fig. 3
figura3

Estimaciones de parámetros demográficos para dos modelos de la divergencia de las dos especies

Bajo el modelo M1, el N e actual de A. thaliana fue de ~ 519.000 con un intervalo de confianza (IC) del 95% de 486.368-527.574, a partir de una gran población ancestral (~ 2.230.000, IC del 95% = 1.085.330-4.876.051) antes de separarse del resto del género Arabidopsis en ~ 5,84 MYA (IC del 95% = 5,27-6,70). C. rubella evolucionó ~ 0,40 MYA (95% CI = 321.998-500.317) a partir de una población ancestral con un gran N e de ~ 4.037.000 (95% CI = 2.076.868-5.165.614) y un N e actual de ~ 129.000 (95% CI = 126.383-157.779). Los dos géneros divergen de una población ancestral con N e = ~ 4.930.000 (IC 95% = 4.560.931-4.969.696). En el modelo M2 con flujo genético, se obtuvieron estimaciones de parámetros similares, excepto un N e ancestral mayor para el género Arabidopsis (~ 3.270.000, IC 95% = 797.016-4.342.346) y un N e menor para el género Capsella (~ 1.972.000, IC 95% = 2.126.346-6.248.003). Se estimó un flujo génico más fuerte de Capsella a Arabidopsis que en la dirección inversa (tasa de migración por generación; 1 × 10-8, IC del 95% = 4,0 × 10-15-1,1 × 10-6 frente a 7 × 10-14, IC del 95% = 5,7 × 10-15-6,1 × 10-5), aunque ambos fueron débiles (véase el archivo adicional 2: Tabla S3 para los detalles).

Los polimorfismos transespecíficos entre las dos especies deben estar bajo una selección de equilibrio

Los polimorfismos transespecíficos pueden ser neutrales y su probabilidad puede ser aproximada dados los parámetros demográficos específicos. De forma similar a un estudio de TSPs en humanos y chimpancés , bajo evolución neutral, los polimorfismos compartidos eran idénticos por descendencia en nuestro sistema sólo si: (1) al menos dos linajes de A. thaliana y dos linajes de C. rubella no se unieron antes de la división A. thaliana-C. rubella; y (2) los linajes que llevan el mismo alelo se unieron antes que los linajes que llevan alelos diferentes. Esta probabilidad está determinada principalmente por la condición (1) y puede ser aproximada por lo siguiente basado en la teoría de coalescencia :

$$ P={e}^{-\frac{T}{2{N}_A}\ast }{e}^-\frac{T}{2{N}_C}, $$

donde T se refiere al tiempo de divergencia de los dos géneros y N A/N C se refiere a los tamaños de población de A. thaliana/C. rubella, respectivamente. Según nuestras estimaciones bajo el modelo M1, teniendo en cuenta los cambios en el tamaño de la población, esta probabilidad de identidad por descendencia es del orden de 10-9. Dado que tenemos < 39.275.210 sitios alineados entre las dos especies en la región génica, esperamos que el número total de TSPs neutrales sea < 1 sólo por deriva genética.

Suponemos un apareamiento aleatorio en nuestro modelo; sin embargo, ambas especies se autofecundan y la estructura poblacional probablemente existe dentro de las especies. No obstante, los eventos demográficos recientes deberían tener un efecto relativamente pequeño, ya que requerimos eventos de coalescencia profunda por azar en ambas especies en la misma región del genoma . Como se ilustra en el estudio anterior , incluso la estructura profunda de la población dentro de los humanos modernos debería tener un efecto mínimo en la probabilidad. En este estudio, ambas especies tienen una historia de predominio de cruces. A. thaliana pasó del cruce al autocruzamiento hace sólo un millón de años y C. rubella lo hizo mucho más recientemente. Incluso como especies autofecundadas, la tasa de cruce de las poblaciones locales es tan alta como el 14,5%. Por lo tanto, las estructuras de la población, si existen, es poco probable que persistan durante una larga escala de tiempo y su impacto en la probabilidad puede por lo tanto ser ignorado.

Identificación de polimorfismos trans-específicos bajo la selección de equilibrio

TSP puede distinguirse de las mutaciones neutras porque las regiones bajo la selección de equilibrio a largo plazo se agrupan por alelo, en lugar de por especie . Por lo tanto, a continuación nos centramos en los 433 genes candidatos con SNPs compartidos fiables en la región codificante y examinamos los haplotipos que cubren cada SNP bialélico compartido con MAF > 0,05 en las regiones génicas.

Para estimar la longitud de cada segmento portador de una señal de TSPs, utilizamos una fórmula derivada previamente que se basa en gran medida en la tasa de recombinación. Desde el punto de vista de la coalescencia, un segmento de este tipo no se rompe por recombinación hasta que todos los linajes de la misma clase alélica se unen a su ancestro común más reciente en la población ancestral . Adoptando una tasa de recombinación de 3,6 cM/Mb para ambas especies, la longitud del segmento era extremadamente corta, es decir, sólo varios pares de bases, teóricamente. Dado que ambas especies surgieron recientemente a partir de sus respectivos progenitores que se cruzan entre sí y que la tasa de recombinación efectiva podría ser mucho mayor en el pasado, la longitud esperada podría ser incluso menor. Esta estimación sugiere, bajo las circunstancias neutrales de nuestro sistema, que es muy difícil descubrir cualquier segmento sin una ruptura de recombinación. Sin embargo, cuando existe una selección equilibrada, la selección puede suprimir la recombinación en la región circundante . Por lo tanto, la longitud del segmento debería ser mayor que la estimada teóricamente bajo un modelo neutral. Por lo tanto, exploramos la región genérica utilizando un tamaño de ventana de 100 pb y un tamaño de paso de 1 pb.

En los 433 genes candidatos, detectamos 975 SNP bialélicos compartidos (incluyendo SNP exónicos e intrónicos con MAF > 0,05). Al igual que en estudios anteriores, a continuación buscamos ventanas que cubrieran al menos dos de los 975 SNPs que estuvieran en fuerte desequilibrio de enlace (r 2 > 0,5) en ambas especies entre las ventanas calificadas (alineadas en un mínimo del 95% de la longitud; véase «Métodos» para más detalles) para identificar árboles alélicos. Estas restricciones pueden reducir en gran medida los falsos positivos y producir árboles alélicos, si existen, con alta resolución. Finalmente, identificamos ventanas de cinco genes, AT1G35220, AT2G16570, AT4G29360, AT5G38460, y AT5G44000, que implican diez sitios, como TSPs candidatos bajo selección de equilibrio a largo plazo (archivo adicional 3: Figura S1). Ninguno de los cinco genes ortólogos que encontramos aquí están correlacionados con la variación del número de copias (CNV) y todos ellos tienen sólo un acierto cuando los comparamos con las referencias de las dos especies, respectivamente (ver «Métodos» para más detalles).

Para verificar las regiones identificadas, primero determinamos todos los haplotipos en las regiones identificadas de cada población y resecuenciamos accesiones representativas para cada haplotipo (ver archivo adicional 1: Tabla S4 para los cebadores). Como se esperaba, todos los sitios TSP candidatos en los cinco genes fueron validados y las secuencias de las dos especies en las regiones candidatas se agruparon por alelos, en lugar de por especies (Fig. 4). En el gen AT1G35220, los dos sitios TSP candidatos estaban en completo desequilibrio de vinculación en una región intrónica; esta región puede ser el objetivo de la selección de equilibrio o estar vinculada a un sitio TSP de codificación no detectado.

Fig. 4
figura4

Todas las regiones candidatas en los cinco genes producen un árbol alélico, en lugar de un árbol de especies

Aunque los haplotipos de cada región se agrupan por alelo en lugar de por especie, rara vez se detectó la compartición de haplotipos entre las dos especies, excepto en AT2G16570 (Col-0 compartía su haplotipo con varias accesiones de C. rubella; Fig. 4). Esto no es sorprendente dado el largo tiempo de divergencia; la compartición extensiva de haplotipos suele aparecer en una escala de tiempo mucho más pequeña y es inducida por eventos como la introgresión reciente entre especies estrechamente relacionadas.

Estudios de simulación neutral validan los cinco genes candidatos

Para ver si las ventanas observadas podrían ser generadas aleatoriamente bajo evolución neutral, dando lugar a falsos positivos, realizamos simulaciones adicionales basadas en los parámetros demográficos estimados utilizando fastsimcoal2 (Archivo adicional 4: Texto S1). Aparte de las mutaciones recurrentes neutrales, el flujo de genes también puede dar lugar a SNPs compartidos. En consecuencia, realizamos simulaciones tanto con el modelo M1 (sin flujo génico) como con el M2 (con flujo génico antiguo), aunque nuestro análisis demográfico indicó que el M1 se ajustaba ligeramente mejor a los datos. En ambas simulaciones, tuvimos en cuenta la heterogeneidad en las tasas de mutación para las diferentes clases de mutaciones, especialmente la mayor tasa de mutación en los sitios CpG, que puede dar lugar a falsos positivos (Archivo adicional 1: Tabla S5, Archivo adicional 4: Texto S1). Utilizando fastsimcoal2 , generamos 1.000.000 de segmentos neutros de 100 pb bajo cada modelo y buscamos aquellos con dos o más SNPs compartidos y agrupados por alelos mientras buscábamos TSPs.

Para ambos modelos, ninguna de las 1.000.000 ejecuciones dio lugar a una ventana que cumpliera nuestros criterios (Archivo adicional 1: Tabla S6). A pesar de la existencia de SNPs neutros compartidos, ninguna ventana simulada dio lugar a un árbol alélico, ya que todas las ventanas con SNPs compartidos iban acompañadas de diferencias mucho más fijas entre las dos especies, lo que implica niveles de divergencia más altos que de diversidad. Este resultado sugiere que estos SNPs neutrales compartidos simulados son mutaciones recurrentes, en lugar de TSPs, y lo que es más importante, los cinco genes que encontramos no son consistentes con la evolución neutral y por lo tanto demostraron ser TSPs reales bajo selección de equilibrio. Los sitios y genes TSP finales se enumeran en la Tabla 1. Además, junto con el estudio demográfico antes mencionado, nuestros resultados implican que incluso si se produjera un flujo de genes antiguo, bajo evolución neutra, los TSPs se perderían por deriva en este sistema.

Tabla 1 Información sobre los genes candidatos y los sitios TSP

Propiedades de los genes bajo selección de equilibrio

A continuación calculamos la diversidad de nucleótidos (π) para todas las regiones TSP en los cinco genes de cada especie y utilizamos las secuencias neutras simuladas bajo M1 para determinar los niveles de diversidad de fondo. Todas las regiones de los cinco genes mostraron valores π significativamente más altos que los niveles de fondo tanto en C. rubella como en A. thaliana (prueba de Wilcoxon-Mann-Whitney, P < 0,05 corregida por FDR, Tabla 2, Archivo adicional 3: Figura S2A), excepto AT5G38460 en A. thaliana. Además, los alelos de estos genes mostraron una tendencia hacia frecuencias intermedias (prueba de Wilcoxon-Mann-Whitney, P = 0,0752/0,03474 para A. thaliana/C. rubella; archivo adicional 3: Figura S2B). Sin embargo, una frecuencia intermedia es una indicación de la selección de equilibrio, pero no una prueba definitiva, ya que se espera que la distribución de la frecuencia alélica de los sitios vinculados a un polimorfismo equilibrado exhiba un cambio hacia el equilibrio de frecuencia, que puede ser en cualquier frecuencia alélica .

Tabla 2 Características genéticas de los sitios TSP

Uno de los cinco genes sometidos a selección de equilibrio a largo plazo en este estudio, AT1G35220, tiene una función desconocida, pero presenta fosforilación de proteínas bajo tratamiento con etileno . Entre otros, AT2G16570 es una enzima clave en la vía de biosíntesis de los nucleótidos de purina y es importante para la división celular, la biogénesis de los cloroplastos y la germinación de las semillas; AT4G29360 es una proteína de la familia 17 de la O-glicosil hidrolasa, implicada en las respuestas de defensa; AT5G38460 es una glicosiltransferasa y cataliza la transferencia de un grupo glicosilo de un compuesto (donante) a otro (aceptor) y está implicada en diversas funciones, incluyendo el estrés biótico ; AT5G44000 es una glutatión S-transferasa, que suele estar implicada en la respuesta al estrés abiótico y biótico . Aparentemente, estos genes están potencialmente implicados en la respuesta al estrés biótico o abiótico (AT4G29360, AT5G38460 y AT5G44000) o en funciones bioquímicas fundamentales (AT2G16570).

Como era de esperar, los genes sometidos a selección de equilibrio eran funcionalmente importantes y todos los homólogos de los cinco genes ya existían en el ancestro común más reciente de las plantas verdes. Como se indica en la Tabla S7 (archivo adicional 1: Tabla S7), se pueden encontrar homólogos (ya sea ortólogos o paralogos) incluso en la especie más basal de las plantas verdes, Chlamydomonas reinhardtii, para todos los cinco genes, excepto AT4G29360, que se remonta a Physcomitrella patens.

Sin embargo, los loci que son ampliamente aceptados como sometidos a la selección de equilibrio, como el S-locus o los genes R , no destacaron en este estudio. Esto es de esperar, ya que estos loci son demasiado variables para identificarlos basándose en lecturas cortas. Por ejemplo, los genes R son demasiado dinámicos para llamar a los SNPs; el locus S no existe en la última anotación del genoma de Arabidopsis y sólo se mantiene un haplotipo del locus S en C. rubella desde la transición del outcrossing al selfing y la ruptura de la autoincompatibilidad. Además, el locus S ya no está sometido a una selección equilibrada, ya que ambas especies se autofecundan. Por el contrario, los genes que identificamos aquí, aunque antiguos, no han sido estudiados de forma exhaustiva y pueden proporcionar información sobre los tipos de genes sometidos a la selección de equilibrio.

La selección de equilibrio contribuyó a la adaptación a hábitats divergentes

Para ver si las variantes alélicas sometidas a la selección de equilibrio a largo plazo están asociadas a la diversificación ecológica, investigamos la divergencia con respecto a 48 factores ecológicos (archivo adicional 5: tabla S8A). Debido a la falta de información GPS y al pequeño tamaño de la muestra de C. rubella, este análisis sólo fue posible para las muestras de A. thaliana. La estructura de la población suele estar muy correlacionada con la diversificación ecológica y, por tanto, puede confundir nuestros resultados. Primero comprobamos si algún sitio TSP estaba correlacionado con la estructura de la población en las muestras de A. thaliana, aunque dicha estructura no afecta a la probabilidad de observar el árbol de especies de A. thaliana y C. rubella. Utilizando ADMIXTURE , encontramos que las 80 muestras de A. thaliana pueden clasificarse en dos grupos (Archivo adicional 3: Figura S3; Archivo adicional 6: Tabla S9) y sólo las clasificaciones alélicas de los dos sitios del gen AT5G38460 están significativamente correlacionadas con la estructura de la población (prueba de chi-cuadrado, P < 0,05 corregida por FDR,; Archivo adicional 1: Tabla S10). Por lo tanto, excluimos AT5G38460 de los análisis ecológicos posteriores.

Para obtener una comprensión profunda de la divergencia ecológica, utilizamos 1135 genomas de A. thaliana recientemente publicados. En primer lugar, aplicamos un proceso de «adelgazamiento» para garantizar que cada muestra fuera altamente representativa de su hábitat natural, lo que dejó 584 muestras (véase «Métodos»). En segundo lugar, para cada gen, clasificamos las 584 accesiones de A. thaliana en dos grupos, basándonos en los haplotipos desfasados para los dos sitios TSP (Archivo adicional 5: Tabla S8B, C, algunas muestras fueron eliminadas porque no pudieron ser desfasadas). A continuación, evaluamos la divergencia entre los dos grupos de accesiones con respecto a los 48 factores ecológicos para cada uno de los cuatro genes. Curiosamente, todos estos cuatro genes se asociaron con la divergencia de algunos parámetros ecológicos específicos. AT1G35220 y AT4G29360, en particular, mostraron una divergencia significativa con respecto a la mayoría de los factores ecológicos relacionados con la temperatura (Archivo adicional 5: Tabla S8 A, prueba de Wilcoxon-Mann-Whitney, FDR corregido P < 0,05).

A continuación modelamos los nichos ecológicos para los cuatro genes. Aparentemente, los dos grupos de muestras para cada gen, como indica el estadístico I de Warren que mide la similitud de nicho , exhibieron una identidad de nicho observada significativamente menor que 100 permutaciones aleatorias (prueba t de una muestra, P < 0,01 corregida por FDR; Fig. 5a, Archivo adicional 5: Tabla S8 D). En otras palabras, los dos grupos alélicos de muestras presentan una divergencia significativa de nicho. Además, las muestras de cada tipo alélico para cada gen estaban dispersas, en lugar de estar aisladas en una pequeña zona local (Archivo adicional 3: Figura S4). Estos resultados sugieren que todos estos loci están correlacionados con la adaptación.

Fig. 5
figure5

Divergencia ecológica y de expresión. a Divergencia ecológica significativa entre los dos tipos de muestras para cada uno de los cuatro genes, indicada por la puntuación I observada (I O) y las puntuaciones I simuladas (I S). b Divergencia de expresión del gen AT5G44000. c Izquierda: Modelización del nicho con una alta probabilidad (≥ 0,5) de los dos tipos de muestras para AT5G44000. Derecha: Resultados de significación bajo diferentes estrategias de permutación (para nichos con probabilidad ≥ 0,5; I O = 0,673, 100 permutaciones)

También examinamos la diferenciación de expresión para los cuatro genes entre los dos grupos correspondientes basándonos en los haplotipos escalonados en los dos sitios TSP eligiendo 84 transcriptomas publicados extraídos de tejido foliar de A. thaliana (se secuenció una muestra por cada accesión y el nivel de expresión se midió como fragmentos por kilobase de exón por millón de fragmentos mapeados ) como nuestro estudio anterior . Un gen, AT5G44000, mostró una diferencia de expresión significativa (prueba de Wilcoxon-Mann-Whitney, P < 0,05 corregida por FDR, Fig. 5b) entre los dos grupos de haplotipos.

Por lo tanto, realizamos un modelado de nicho en profundidad de AT5G44000 (Fig. 5c) y examinamos la diversificación de los dos grupos de muestras (503 vs 75). Primero comparamos la identidad de nicho entre los dos grupos de haplotipos de AT5G44000 restringiendo nuestro análisis a nichos con una alta probabilidad (≥ 0,5) y obtuvimos resultados similares (Fig. 5c, Archivo adicional 5: Tabla S8 D). Para ver si el tamaño desequilibrado de la muestra podía afectar a los resultados, utilizamos otra estrategia de permutación restringiendo el análisis al mismo tamaño de muestra (75) para ambos conjuntos en cada repetición (con probabilidad > 0,5). Como se presenta en la Fig. 5c, cuando se realizó la permutación para los grupos de muestras reales (simulación 1), el valor I observado (0,673) no mostró una diferencia significativa (prueba t de una muestra, P = 0,166), lo que indica que el valor observado era fiable, independientemente de la diferencia de tamaño de la muestra. Cuando se mezclaron los dos grupos reales y se seleccionaron dos grupos aleatorios de tamaños reales (simulación 2) o dos grupos aleatorios de igual tamaño (75) (simulación 3), la diferencia entre el valor observado y las permutaciones volvió a ser significativa (prueba t de una muestra, P = 1,9 × 10-75 para la simulación 2 y P = 2,6 × 10-75 para la simulación 3). Estos resultados implican que los dos grupos de haplotipos funcionalmente diferenciados de AT5G44000 se adaptaron a hábitats ecológicos divergentes.

Deja un comentario