La selezione di bilanciamento a lungo termine contribuisce all’adattamento in Arabidopsis e nei suoi parenti

I polimorfismi condivisi sono abbondanti tra A. thaliana e C. rubella

In una popolazione di 80 accessioni di A. thaliana, c’erano 4.902.039 SNPs (su 119.146.348 siti), tra cui 2.044.731 avevano una frequenza allelica minore (MAF) di > 0,05. Nella popolazione di C. rubella, chiamando SNPs da 22 accessioni di C. rubella (file aggiuntivo 1: Tabella S1, tra cui 21 accessioni pubblicate e un’adesione sequenziata in questo studio) contro il genoma di riferimento di C. rubella, abbiamo identificato 2.149.643 SNPs (su 134.834.574 siti), di cui 1.240.547 avevano una MAF > 0,05. Per identificare i polimorfismi condivisi tra le due specie, definiti come la stessa coppia di alleli in un particolare sito ortologo, abbiamo prima costruito il set di coppie di geni ortologhi tra le due specie. Per garantire che i geni ortologhi siano conservati, oltre ai genomi di riferimento di A. thaliana e C. rubella, abbiamo incluso Arabidopsis lyrata , un congenere di A. thaliana. Abbiamo ottenuto 16.047 coppie di geni omologhi e rimosso 33 che avevano duplicazioni tandem in uno qualsiasi dei tre riferimenti e infine abbiamo ottenuto un totale di 16.014 coppie di geni omologhi tra A. thaliana e C. rubella per ulteriori analisi.

La regione genica dei 16.014 geni omologhi in A. thaliana si estendeva per 39.275.210 bp e analogamente, in C. rubella, si estendeva per 40.936.262 bp. Queste regioni contenevano 3.889.495 differenze fisse e questo alto rapporto (~ 10%) è coerente con il lungo tempo di divergenza (~ 8 MYA) delle due specie. In queste regioni, abbiamo trovato 1.122.845 siti bi-allelici (426.123 con MAF > 0,05) in A. thaliana e 452.116 siti bi-allelici (279.780 con MAF > 0,05) in C. rubella. Tra questi siti polimorfici, 19.732 siti ortologhi erano polimorfici in entrambe le specie, di cui 8535 condividevano la stessa coppia di alleli (SNP condiviso) (Additional file 1: Tabella S2).

Rispetto alle sequenze della regione non codificante, le sequenze della regione codificante sono più conservate e producono allineamenti robusti tra le due specie altamente divergenti; quindi, ci siamo concentrati prima su shSNPs nelle regioni codificanti. MAF > 0.05 è stato richiesto in entrambe le specie per garantire l’affidabilità degli SNP e tenere conto dell’eccesso previsto di alleli con frequenze intermedie per i siti sottoposti a selezione di bilanciamento a lungo termine. Abbiamo trovato 1503 shSNPs nelle regioni codificanti di 1007 geni.

Un ulteriore filtraggio è stato applicato ai 1503 shSNPs per evitare errori di genotipizzazione e mappatura. Il filtraggio è stato applicato solo ai dati SNP di C. rubella, poiché abbiamo scaricato la matrice SNP per A. thaliana. Per evitare SNP spurie sostenute da duplicazioni nel genoma, abbiamo valutato la mappabilità di ogni regione 50-bp in C. rubella e solo mantenuto i siti che erano in regioni unicamente mappabili per l’analisi successiva. Questo ha lasciato solo 580 siti. Infine, dopo aver rimosso i siti di bassa qualità contrassegnati dallo strumento di chiamata SNP, abbiamo ottenuto 546 SNP codificanti condivisi affidabili in 433 geni. I dettagli del processo di filtraggio possono essere trovati nella sezione “Metodi” e una vista del processo è rappresentata in Fig. 2.

Fig. 2
figura2

Pipeline del processo di filtraggio SNP per identificare i siti candidati TSP

Storia demografica delle due specie

Il rilevamento di reali segnali TSP dagli abbondanti polimorfismi condivisi si basa su una piena comprensione della storia demografica delle due specie. Lo spettro di frequenza del sito congiunto (SFS congiunto) è stato ampiamente utilizzato per studiare la storia demografica di diversi organismi. Pertanto, abbiamo prima estratto i siti degenerati quadrupli dagli allineamenti dei genomi di riferimento di A. thaliana e C. rubella sui 16.014 ortologhi. Infine, abbiamo ottenuto 2.011.573 siti per l’analisi demografica (vedi “Metodi” per i dettagli).

Simulazioni di coalescenza sono state poi eseguite utilizzando fastsimcoal2 sotto un modello di base senza flusso genico (M1, Fig. 3) e un modello che incorpora il flusso genico antico tra i due generi (M2, Fig. 3). Abbiamo considerato solo il flusso genico antico tra le due specie, dal momento che le specie appartenenti a generi diversi e con un diverso numero di cromosomi (cinque contro otto) sono altamente improbabili per avere introgressione recente. Inoltre, in entrambi i generi, A. thaliana è l’unica specie con cinque piuttosto che otto cromosomi; abbiamo quindi limitato il flusso genico antico prima che A. thaliana si separasse dal resto del genere Arabidopsis. In ogni modello, abbiamo impostato il tempo di divergenza dei due generi a 8 MYA , che ammonta a 8 milioni di generazioni fa, e assunto un tasso di mutazione spontanea di 7 × 10-9 per bp per generazione. Abbiamo considerato varie dimensioni della popolazione per entrambe le specie in base agli eventi di transizione dai loro rispettivi progenitori; A. thaliana ha subito una riduzione della popolazione dopo la sua divergenza dal resto del genere Arabidopsis intorno a 6 MYA e C. rubella ha sperimentato un collo di bottiglia molto recente associato alla speciazione da C. grandiflora. Abbiamo usato simulazioni coalescenti applicando il metodo di verosimiglianza composito implementato in fastsimcoal2 per adattare entrambi i modelli al SFS congiunto delle due specie calcolate dai 2.011.573 siti degenerati quadrupli trans-specie estratti. Abbiamo confrontato i due modelli utilizzando il criterio di informazione di Akaike (AIC) e il peso dell’evidenza di Akaike (w), come in Excoffier et al. Il modello senza flusso genico antico (M1) si adatta leggermente meglio (Max EstLhood: -682010 vs -682028), con un AIC più basso e un peso più alto di quelli dell’altro modello (Fig. 3, Additional file 2: Table S3). Inoltre, le due probabilità vicine indicano che l’effetto del flusso genico ancestrale dovrebbe essere stato spazzato via nella lunga scala temporale e contribuisce poco alla qualità del modello.

Fig. 3
figura3

Stime dei parametri demografici per due modelli della divergenza delle due specie

Con il modello M1, l’attuale N e di A. thaliana era ~ 519.000 con un intervallo di confidenza al 95% (CI) di 486.368-527.574, da una grande popolazione ancestrale (~ 2.230.000, 95% CI = 1.085.330-4.876.051) prima di separarsi dal resto del genere Arabidopsis a ~ 5,84 MYA (95% CI = 5,27-6,70). C. rubella si è evoluta ~ 0.40 MYA (95% CI = 321.998-500.317) da una popolazione ancestrale con un grande N e di ~ 4.037.000 (95% CI = 2.076.868-5.165.614) e un N e attuale di ~ 129.000 (95% CI = 126.383-157.779). I due generi divergono da una popolazione ancestrale con N e = ~ 4.930.000 (95% CI = 4.560.931-4.969.696). Sotto il modello M2 con flusso genico, sono state ottenute stime di parametri simili, tranne che per un N e ancestrale più grande per il genere Arabidopsis (~ 3.270.000, 95% CI = 797.016-4.342.346) e un N e più piccolo per il genere Capsella (~ 1.972.000, 95% CI = 2.126.346-6.248.003). Più forte flusso genico è stato stimato da Capsella a Arabidopsis che nella direzione inversa (tasso di migrazione per generazione; 1 × 10-8, 95% CI = 4,0 × 10-15-1,1 × 10-6 vs 7 × 10-14, 95% CI = 5,7 × 10-15-6,1 × 10-5), anche se entrambi erano deboli (vedi file aggiuntivo 2: Tabella S3 per i dettagli).

I polimorfismi trans-specie tra le due specie devono essere sotto selezione equilibrante

I polimorfismi trans-specie possono essere neutri e la sua probabilità può essere approssimata dati specifici parametri demografici. Simile a uno studio dei TSP negli esseri umani e negli scimpanzé, sotto evoluzione neutrale, i polimorfismi condivisi erano identici per discendenza nel nostro sistema solo se: (1) almeno due lignaggi di A. thaliana e due lignaggi di C. rubella non si sono fusi prima della scissione A. thaliana-C. rubella; e (2) i lignaggi che portano lo stesso allele si sono fusi prima dei lignaggi che portano alleli diversi. Questa probabilità è determinata principalmente dalla condizione (1) e può essere approssimata dalla seguente basata sulla teoria della coalescenza :

$$ P={e}^{-\frac{T}{2{N}_A}}ast }{e}^{-\frac{T}{2{N}_C}}, $$

dove T si riferisce al tempo di divergenza dei due generi e N A/N C si riferisce alle dimensioni della popolazione di A. thaliana/C. rubella, rispettivamente. Secondo le nostre stime sotto il modello M1, prendendo in considerazione le variazioni delle dimensioni della popolazione, questa probabilità di identità per discendenza è dell’ordine di 10-9. Dato che abbiamo < 39.275.210 siti allineati tra le due specie nella regione genica, ci aspettiamo che il numero totale di TSP neutrali sia < 1 per sola deriva genetica.

Abbiamo assunto un accoppiamento casuale nel nostro modello; tuttavia, entrambe le specie sono selfing e la struttura della popolazione probabilmente esiste all’interno delle specie. Tuttavia, gli eventi demografici recenti dovrebbero avere relativamente poco effetto, dal momento che richiediamo eventi di coalescenza profonda per caso in entrambe le specie nella stessa regione del genoma . Come illustrato nello studio precedente, anche una profonda struttura di popolazione all’interno degli esseri umani moderni dovrebbe avere un effetto minimo sulla probabilità. In questo studio, entrambe le specie hanno una storia di outcrossing predominante. A. thaliana è passata da outcrossing a selfing solo un milione di anni fa e C. rubella è passata molto più recentemente. Anche come specie selfing, il tasso di outcrossing delle popolazioni locali è alto come 14.5%. Pertanto, è improbabile che le strutture di popolazione, se esistenti, persistano su una lunga scala temporale e il suo impatto sulla probabilità può quindi essere ignorato.

Identificazione dei polimorfismi trans-specie sotto selezione di bilanciamento

TSPs possono essere distinti dalle mutazioni neutre perché le regioni sotto selezione di bilanciamento a lungo termine raggruppano per allele, piuttosto che per specie . Pertanto, ci siamo poi concentrati sui 433 geni candidati con SNPs condivisi affidabili nella regione codificante ed abbiamo esaminato gli aplotipi che coprono ogni SNP bi-allelico condiviso con MAF > 0.05 nelle regioni geniche.

Per stimare la lunghezza di ogni segmento che porta un segnale di TSPs, abbiamo usato una formula derivata in precedenza che si basa in gran parte sul tasso di ricombinazione. Dal punto di vista della coalescenza, un tale segmento non viene interrotto dalla ricombinazione fino a quando tutti i lignaggi della stessa classe allelica si fondono al loro antenato comune più recente nella popolazione ancestrale. Adottando un tasso di ricombinazione di 3,6 cM/Mb per entrambe le specie, la lunghezza del segmento era estremamente breve, cioè solo alcune coppie di basi, teoricamente. Dato che entrambe le specie sono sorte recentemente dai loro rispettivi progenitori di outcrossing e il tasso di ricombinazione effettivo potrebbe essere molto più alto in passato, la lunghezza prevista potrebbe essere ancora più breve. Questa stima suggerisce, nelle circostanze neutre del nostro sistema, che è molto difficile scoprire qualsiasi segmento senza un’interruzione della ricombinazione. Tuttavia, quando esiste una selezione equilibrante, la selezione può sopprimere la ricombinazione nella regione circostante . Pertanto, la lunghezza del segmento dovrebbe essere più lunga di quella teorica stimata sotto un modello neutro. Abbiamo quindi analizzato la regione genica utilizzando una dimensione della finestra di 100 bp e un passo di 1 bp.

Nei 433 geni candidati, abbiamo rilevato 975 SNPs bi-allelici condivisi (compresi entrambi gli SNPs esonici e intronici con MAF > 0.05). Simile agli studi precedenti, abbiamo poi cercato finestre che coprono almeno due dei 975 SNPs che sono in forte linkage disequilibrium (r 2 > 0.5) in entrambe le specie tra le finestre qualificate (allineate ad un minimo del 95% della lunghezza; vedi “Metodi” per i dettagli) per identificare gli alberi allelici. Queste restrizioni possono ridurre notevolmente i falsi positivi e produrre alberi allelici, se esistono, con alta risoluzione. Infine, abbiamo identificato le finestre di cinque geni, AT1G35220, AT2G16570, AT4G29360, AT5G38460, e AT5G44000, coinvolgendo dieci siti, come candidati TSP sotto selezione di bilanciamento a lungo termine (file aggiuntivo 3: Figura S1). Nessuno dei cinque geni omologhi che abbiamo trovato qui è correlato alla variazione del numero di copie (CNV) e tutti hanno solo un colpo quando li abbiamo confrontati con i riferimenti delle due specie, rispettivamente (vedi “Metodi” per i dettagli).

Per verificare le regioni identificate, abbiamo prima determinato tutti gli aplotipi nelle regioni identificate da ogni popolazione e risequenziato accessioni rappresentative per ogni aplotipo (vedi file aggiuntivo 1: Tabella S4 per i primer). Come previsto, tutti i siti TSP candidati nei cinque geni sono stati convalidati e le sequenze delle due specie nelle regioni candidate si sono raggruppate per allele, piuttosto che per specie (Fig. 4). Nel gene AT1G35220, i due siti TSP candidati erano in completo linkage disequilibrium in una regione intronica; questa regione può essere l’obiettivo della selezione di bilanciamento o collegata a un sito TSP codificante non rilevato.

Fig. 4
figura4

Tutte le regioni candidate nei cinque geni producono un albero allelico, piuttosto che un albero di specie

Anche se gli aplotipi di ogni regione sono raggruppati per allele, piuttosto che per specie, la condivisione dell’aplotipo tra le due specie è stata rilevata raramente, tranne che in AT2G16570 (Col-0 ha condiviso il suo aplotipo con diverse accessioni di C. rubella; Fig. 4). Questo non è sorprendente dato il lungo tempo di divergenza; la condivisione estesa dell’aplotipo di solito appare su una scala temporale molto più piccola ed è indotta da eventi come l’introgressione recente tra specie strettamente correlate.

Studi di simulazione neutrali convalidano i cinque geni candidati

Per vedere se le finestre osservate potrebbero essere generate casualmente sotto evoluzione neutrale, con conseguente falsi positivi, abbiamo eseguito ulteriori simulazioni basate sui parametri demografici stimati utilizzando fastsimcoal2 (file aggiuntivo 4: testo S1). Oltre alle mutazioni ricorrenti neutre, il flusso genico può anche risultare in SNPs condivisi. Di conseguenza, abbiamo eseguito simulazioni con entrambi i modelli M1 (senza flusso genico) e M2 (con flusso genico antico), anche se la nostra analisi demografica ha indicato che M1 si adatta leggermente meglio ai dati. In entrambe le simulazioni, abbiamo considerato l’eterogeneità nei tassi di mutazione per le diverse classi di mutazioni, in particolare il più alto tasso di mutazione nei siti CpG, che può portare a falsi positivi (file aggiuntivo 1: tabella S5, file aggiuntivo 4: testo S1). Utilizzando fastsimcoal2, abbiamo generato 1.000.000 di segmenti neutri di 100 bp sotto ogni modello e abbiamo cercato quelli con due o più SNPs condivisi e cluster per allele come abbiamo cercato TSPs.

Per entrambi i modelli, nessuno dei 1.000.000 corre ha dato origine a una finestra che ha soddisfatto i nostri criteri (file aggiuntivo 1: Tabella S6). Nonostante l’esistenza di SNP neutri condivisi, nessuna finestra simulata rendeva un albero allelico, poiché tutte le finestre con SNP condivisi erano accompagnate da differenze molto più fisse tra le due specie, implicando livelli di divergenza più alti della diversità. Questo risultato suggerisce che questi SNPs neutri condivisi simulati sono mutazioni ricorrenti, piuttosto che TSPs, e più importante, i cinque geni che abbiamo trovato non sono coerenti con l’evoluzione neutrale e quindi dimostrato di essere TSPs reale sotto selezione di bilanciamento. I siti e i geni TSP finali sono elencati nella tabella 1. Inoltre, insieme allo studio demografico di cui sopra, i nostri risultati implicano che anche se il flusso genico antico si è verificato, sotto evoluzione neutra, i TSP sarebbero persi per deriva in questo sistema.

Tabella 1 Informazioni sui geni candidati e sui siti TSP

Proprietà dei geni sotto selezione equilibrante

Allora abbiamo calcolato la diversità nucleotidica (π) per tutte le regioni TSP nei cinque geni di ogni specie e usato le sequenze neutre simulate sotto M1 per determinare i livelli di diversità di fondo. Tutte le regioni dei cinque geni hanno mostrato valori π significativamente più elevati rispetto ai livelli di fondo sia in C. rubella che in A. thaliana (Wilcoxon-Mann-Whitney test, FDR-corretto P < 0,05, Tabella 2, file aggiuntivo 3: Figura S2A), tranne AT5G38460 in A. thaliana. Inoltre, gli alleli di questi geni hanno mostrato una tendenza verso frequenze intermedie (Wilcoxon-Mann-Whitney test, P = 0.0752/0.03474 per A. thaliana/C. rubella; file aggiuntivo 3: Figura S2B). Tuttavia, una frequenza intermedia è un’indicazione di selezione di bilanciamento, ma non una prova definitiva, poiché la distribuzione della frequenza allelica dei siti legati a un polimorfismo bilanciato dovrebbe esibire uno spostamento verso l’equilibrio di frequenza, che può essere a qualsiasi frequenza allelica.

Tabella 2 Caratteristiche genetiche dei siti TSP

Uno dei cinque geni sottoposti a selezione bilanciata a lungo termine in questo studio, AT1G35220, ha una funzione sconosciuta, ma mostra la fosforilazione della proteina sotto trattamento con etilene. Tra gli altri, AT2G16570 è un enzima chiave nella via di biosintesi dei nucleotidi purinici ed è importante per la divisione cellulare, la biogenesi dei cloroplasti e la germinazione dei semi; AT4G29360 è una proteina O-glicosil idrolasi della famiglia 17, coinvolta nelle risposte di difesa; AT5G38460 è una glicosiltransferasi e catalizza il trasferimento di un gruppo glicosilico da un composto (donatore) ad un altro (accettore) ed è coinvolto in diverse funzioni, tra cui lo stress biotico; AT5G44000 è una glutatione S-transferasi, che di solito è coinvolto nella risposta allo stress abiotico e biotico. Apparentemente, questi geni sono potenzialmente coinvolti nella risposta allo stress biotico o abiotico (AT4G29360, AT5G38460, e AT5G44000) o funzioni biochimiche fondamentali (AT2G16570).

Come previsto, i geni sotto selezione di bilanciamento erano funzionalmente importanti e tutti gli omologhi dei cinque geni esistevano già nell’antenato comune più recente delle piante verdi. Come indicato nella tabella S7 (file aggiuntivo 1: tabella S7), gli omologhi (sia ortologhi che paraloghi) possono essere trovati anche nella specie più basale delle piante verdi, Chlamydomonas reinhardtii, per tutti e cinque i geni, tranne AT4G29360, che può essere fatto risalire a Physcomitrella patens.

Tuttavia, i loci che sono ampiamente accettati per essere sotto selezione di bilanciamento, come i geni S-locus o R, non si distinguono in questo studio. Questo è previsto, poiché questi loci sono troppo variabili per essere identificati sulla base di letture brevi. Per esempio, i geni R sono troppo dinamici per chiamare SNPs; il S-locus non esiste nell’ultima annotazione del genoma di Arabidopsis e solo un aplotipo S-locus è mantenuto in C. rubella dopo la transizione da outcrossing a selfing e la rottura di autoincompatibilità. Inoltre, il S-locus non è più sotto selezione di bilanciamento, dal momento che entrambe le specie sono ora selfing. Al contrario, i geni che abbiamo identificato qui, anche se antichi, non sono stati studiati in modo completo e possono fornire informazioni sui tipi di geni sotto selezione equilibrante.

La selezione equilibrante ha contribuito all’adattamento agli habitat divergenti

Per vedere se le varianti alleliche sotto selezione equilibrante a lungo termine sono associate alla diversificazione ecologica, abbiamo studiato la divergenza rispetto a 48 fattori ecologici (file aggiuntivo 5: tabella S8A). A causa della mancanza di informazioni GPS e della piccola dimensione del campione di C. rubella, questa analisi è stata possibile solo per i campioni di A. thaliana. La struttura della popolazione è di solito altamente correlata con la diversificazione ecologica e può quindi confondere i nostri risultati. Abbiamo innanzitutto controllato se qualche sito TSP era correlato con la struttura della popolazione nei campioni di A. thaliana, anche se tale struttura non influenza la probabilità di osservare l’albero delle specie di A. thaliana e C. rubella. Utilizzando ADMIXTURE , abbiamo trovato che gli 80 campioni di A. thaliana possono essere classificati in due gruppi (Additional file 3: Figura S3; Additional file 6: Tabella S9) e solo le classificazioni alleliche dei due siti del gene AT5G38460 sono significativamente correlati con la struttura della popolazione (test chi-quadrato, FDR-corretto P < 0,05,; Additional file 1: Tabella S10). Abbiamo quindi escluso AT5G38460 dalle successive analisi ecologiche.

Per ottenere una comprensione approfondita della divergenza ecologica, abbiamo usato 1135 genomi di A. thaliana recentemente pubblicati. In primo luogo, abbiamo applicato un processo di “diradamento” per garantire che ogni campione fosse altamente rappresentativo del suo habitat naturale, che ha lasciato 584 campioni (vedi “Metodi”). In secondo luogo, per ogni gene, abbiamo classificato le 584 accessioni di A. thaliana in due gruppi in base agli aplotipi fasati per i due siti TSP (file aggiuntivo 5: Tabella S8B, C, alcuni campioni sono stati rimossi perché non potevano essere fasati). Abbiamo poi valutato la divergenza tra i due gruppi di accessioni rispetto ai 48 fattori ecologici per ciascuno dei quattro geni. È interessante notare che tutti questi quattro geni erano associati alla divergenza di alcuni parametri ecologici specifici. AT1G35220 e AT4G29360, in particolare, hanno mostrato una divergenza significativa rispetto alla maggior parte dei fattori ecologici legati alla temperatura (file aggiuntivo 5: Tabella S8 A, test Wilcoxon-Mann-Whitney, FDR-corretto P < 0.05).

Abbiamo poi modellato le nicchie ecologiche per tutti e quattro i geni. Apparentemente, i due gruppi di campioni per ogni gene, come indicato dalla statistica di Warren I che misura la somiglianza di nicchia, esibito significativamente più basso osservato identità di nicchia di 100 permutazioni casuali (un campione t-test, FDR-corretto P < 0,01; Fig. 5a, file aggiuntivo 5: Tabella S8 D). In altre parole, i due gruppi allelici di campioni mostrano una significativa divergenza di nicchia. Inoltre, i campioni di ogni tipo allelico per ogni gene erano sparsi, invece di essere isolati in una piccola area locale (file aggiuntivo 3: Figura S4). Questi risultati suggeriscono che tutti questi loci sono correlati all’adattamento.

Fig. 5
figura5

Divergenza ecologica ed espressione. a Divergenza ecologica significativa tra i due tipi di campioni per ciascuno dei quattro geni, come indicato dal punteggio I osservato (I O) e dai punteggi I simulati (I S). b Divergenza di espressione del gene AT5G44000. c A sinistra: modellazione della nicchia con alta probabilità (≥ 0,5) dei due tipi di campioni per AT5G44000. A destra: Risultati di significatività sotto diverse strategie di permutazione (per nicchie con probabilità ≥ 0,5; I O = 0,673, 100 permutazioni)

Abbiamo anche esaminato la differenziazione di espressione per i quattro geni tra i due gruppi corrispondenti in base agli aplotipi fasati nei due siti TSP scegliendo 84 trascrittomi pubblicati di tessuto fogliare estratti da A. thaliana (un campione è stato sequenziato per ogni adesione e il livello di espressione è stato misurato come frammenti per chilobase di esone per milione di frammenti mappati) come il nostro studio precedente. Un gene, AT5G44000, ha mostrato una significativa differenza di espressione (Wilcoxon-Mann-Whitney test, FDR-corretto P < 0.05, Fig. 5b) tra i due gruppi di aplotipi.

Abbiamo quindi eseguito un modello di nicchia approfondito di AT5G44000 (Fig. 5c) ed esaminato la diversificazione dei due gruppi di campioni (503 vs 75). Abbiamo prima confrontato l’identità di nicchia tra i due gruppi di aplotipi di AT5G44000 limitando la nostra analisi alle nicchie con un’alta probabilità (≥ 0,5) e abbiamo ottenuto risultati simili (Fig. 5c, Additional file 5: Tabella S8 D). Per vedere se la dimensione del campione sbilanciato potrebbe influenzare i risultati, abbiamo usato un’altra strategia di permutazione limitando l’analisi alla stessa dimensione del campione (75) per entrambi i set in ogni ripetizione (con probabilità > 0,5). Come presentato in Fig. 5c, quando la permutazione è stata eseguita per i gruppi di campioni reali (simulazione 1), il valore I osservato (0,673) non ha mostrato una differenza significativa (one-sample t-test, P = 0,166), indicando che il valore osservato era affidabile, indipendentemente dalla differenza di dimensioni del campione. Quando i due gruppi reali sono stati mescolati e sono stati selezionati due gruppi casuali di dimensioni reali (simulazione 2) o due gruppi casuali di dimensioni uguali (75) sono stati selezionati (simulazione 3), la differenza tra il valore osservato e le permutazioni era di nuovo significativa (t-test ad un campione, P = 1,9 × 10-75 per la simulazione 2 e P = 2,6 × 10-75 per la simulazione 3). Questi risultati implicano che i due gruppi di aplotipi funzionalmente differenziati di AT5G44000 si sono adattati a habitat ecologici divergenti.

Lascia un commento