Qu’est-ce que le biais d’établissement, et comment se rapporte-t-il au calcul des fréquences SNP ?
Le biais d’établissement est un terme de génétique des populations qui décrit les écarts systématiques par rapport à un résultat théorique attendu, attribuables aux processus d’échantillonnage utilisés pour trouver (établir) les SNP et mesurer (estimer) leurs fréquences alléliques spécifiques à la population.
La distribution de la fréquence allélique « dérivée » des SNP varie dans la nature de 1/2N (c’est-à-dire, un chromosome mutant dans l’ensemble du patrimoine génétique de l’espèce), à 2N-1/2N (c’est-à-dire qu’il ne reste qu’un seul chromosome dans le patrimoine génétique de l’espèce pour représenter l’état allélique » ancestral » ; tous les autres chromosomes ont l’allèle dérivé). Cette distribution, cependant, est imparfaitement mesurée lorsque des sous-échantillons finis sont tirés de la population. Plus l’échantillon fini utilisé dans notre processus de détection (échantillonnage) des SNP est petit, plus l’ajustement entre la distribution des fréquences des allèles dérivés et la « vraie » distribution dans la nature est « imparfait ». Voici un graphique qui illustre ce biais :
Modifié à partir de la Fig.2, Réf. (1).
Si les SNP dans dbSNP sont vérifiés dans des échantillons de quelques chromosomes, alors une fraction de ces SNP sera excessivement commune dans la population par rapport à des échantillons potentiellement plus grands de la même séquence génomique.
La validation expérimentale signifie généralement l’observation du SNP dans des échantillons supplémentaires non liés à l’ensemble original de chromosomes étudiés pour définir le SNP. Par conséquent, les SNP communs seront « validés » avec un taux plus élevé que les SNP avec un allèle mineur vraiment rare, car de plus grands échantillons sont nécessaires pour recapturer (et donc confirmer) la variation rare. Parce que tous les échantillons utilisés pour vérifier (découvrir) les SNP ou estimer leurs fréquences alléliques dans des échantillons de population spécifiques sont de taille finie, il y aura une sorte de biais de vérification dans chaque lot de données soumis à dbSNP.