Co je to ascertainment bias a jak souvisí s výpočtem frekvencí SNP?
Acertainment bias je termín v populační genetice, který popisuje systematické odchylky od očekávaného teoretického výsledku, které lze připsat procesům vzorkování používaným k nalezení (zjištění) SNP a měření (odhadu) jejich populačně specifických alelových frekvencí.
Rozdělení „odvozených“ alelových frekvencí SNP se v přírodě pohybuje v rozmezí od 1/2N (tzn, jeden mutantní chromozom v celém genofondu druhu) až po 2N-1/2N (tj. v genofondu druhu zůstal pouze jeden chromozom, který představuje „ancestrální“ alelický stav; všechny ostatní chromozomy mají odvozenou alelu). Toto rozdělení je však nedokonale měřitelné, pokud jsou z populace vybírány konečné dílčí vzorky. Čím menší je konečný vzorek použitý v našem procesu detekce (vzorkování) SNP, tím „nedokonalejší“ je shoda mezi rozložením frekvencí odvozených alel a „skutečným“ rozložením v přírodě. Zde je graf, který ilustruje toto zkreslení:
Změněno podle obr. 2, Ref. (1).
Pokud jsou SNP v dbSNP zjišťovány ve vzorcích několika chromozomů, pak část těchto SNP bude v populaci nadměrně častá vzhledem k potenciálně větším vzorkům stejné genomové sekvence.
Experimentální validace obvykle znamená pozorování SNP v dalších vzorcích, které nesouvisí s původní sadou chromozomů zkoumaných za účelem definování SNP. Proto se běžné SNP „validují“ s vyšší mírou než SNP se skutečně vzácnou minoritní alelou, protože k opětovnému zachycení (a tedy potvrzení) vzácné variace je zapotřebí většího počtu vzorků. Protože všechny vzorky použité ke zjištění (objevení) SNP nebo k odhadu jejich alelových frekvencí v konkrétních populačních vzorcích mají konečnou velikost, bude v každé dávce dat zaslaných do dbSNP existovat určitý druh zkreslení (ascertainment bias)
.