Hvad er bias ved konstatering, og hvordan hænger det sammen med beregningen af SNP-frekvenser?
Ascertainment bias er et begreb inden for populationsgenetik, der beskriver systematiske afvigelser fra et forventet teoretisk resultat, der kan tilskrives de prøveudtagningsprocesser, der anvendes til at finde (ascertain) SNP’er og måle (estimere) deres populationsspecifikke allelfrekvenser.
Fordelingen af SNP’ernes “afledte” allelfrekvens varierer i naturen fra 1/2N (dvs, ét mutant kromosom i hele artens genpulje) til 2N-1/2N (dvs. kun ét kromosom tilbage i artens genpulje til at repræsentere den “forfødte” alleltilstand; alle andre kromosomer har den afledte allel). Denne fordeling er imidlertid ufuldstændigt målt, når der udtages begrænsede delprøver af populationen. Jo mindre den begrænsede prøve, der anvendes i vores SNP-detektionsproces (prøveudtagning), jo mere “ufuldkommen” er tilpasningen mellem fordelingen af afledte allelfrekvenser og den “sande” fordeling i naturen. Her er en graf, der illustrerer denne skævhed:
Modificeret fra Fig.2, Ref. (1).
Hvis SNP’er i dbSNP konstateres i prøver af nogle få kromosomer, vil en del af disse SNP’er være overdrevent almindelige i befolkningen i forhold til potentielt større prøver af den samme genomiske sekvens.
Eksperimentel validering betyder typisk, at SNP’en observeres i yderligere prøver, der ikke er relateret til det oprindelige sæt kromosomer, der er undersøgt for at definere SNP’en. Derfor vil almindelige SNP’er “validere” med en højere rate end SNP’er med en virkelig sjælden minor allel, fordi der er behov for større prøver for at genindfange (og dermed bekræfte) den sjældne variation. Da alle prøver, der anvendes til at fastslå (opdage) SNP’er eller estimere deres allelfrekvenser i specifikke populationsprøver, er af begrænset størrelse, vil der være en eller anden form for konstateringsbias i hvert parti af data, der indsendes til dbSNP.