Bookshelf

¿Qué es el sesgo de determinación y cómo se relaciona con el cálculo de las frecuencias de SNP?

El sesgo de constatación es un término en genética de poblaciones que describe las desviaciones sistemáticas de un resultado teórico esperado atribuible a los procesos de muestreo utilizados para encontrar (constatar) los SNP y medir (estimar) sus frecuencias alélicas específicas de la población.

La distribución de la frecuencia alélica «derivada» del SNP oscila en la naturaleza entre 1/2N (es decir, (es decir, un cromosoma mutante en todo el acervo genético de la especie), a 2N-1/2N (es decir, sólo queda un cromosoma en el acervo genético de la especie para representar el estado alélico «ancestral»; todos los demás cromosomas tienen el alelo derivado). Sin embargo, esta distribución se mide de forma imperfecta cuando se extraen submuestras finitas de la población. Cuanto más pequeña sea la muestra finita utilizada en nuestro proceso de detección de SNP (muestreo), más «imperfecto» será el ajuste entre la distribución de las frecuencias alélicas derivadas y la distribución «verdadera» en la naturaleza. Aquí hay un gráfico que ilustra el sesgo:

Image Content-Image003.jpg

Modificado de la Fig.2, Ref. (1).

Si los SNPs en dbSNP se determinan en muestras de unos pocos cromosomas, entonces una fracción de esos SNPs será excesivamente común en la población en relación con muestras potencialmente más grandes de la misma secuencia genómica.

La validación experimental normalmente significa observar el SNP en muestras adicionales no relacionadas con el conjunto original de cromosomas estudiados para definir el SNP. Por lo tanto, los SNP comunes se «validarán» con una tasa más alta que los SNP con un alelo menor realmente raro, porque se necesitan muestras más grandes para recapturar (y por lo tanto confirmar) la variación rara. Debido a que todas las muestras utilizadas para determinar (descubrir) SNPs o estimar sus frecuencias alélicas en muestras de poblaciones específicas son de tamaño finito, habrá algún tipo de sesgo de determinación en cada lote de datos enviados a dbSNP.

Deja un comentario