Was ist Ascertainment Bias, und wie hängt er mit der Berechnung von SNP-Häufigkeiten zusammen?
Der Begriff „ascertainment bias“ ist ein Begriff aus der Populationsgenetik, der systematische Abweichungen von einem erwarteten theoretischen Ergebnis beschreibt, die auf die Stichprobenverfahren zurückzuführen sind, die zum Auffinden (ascertain) von SNPs und zur Messung (estimate) ihrer bevölkerungsspezifischen Allelhäufigkeiten verwendet werden.
Die Verteilung der „abgeleiteten“ Allelhäufigkeit von SNPs reicht in der Natur von 1/2N (d.h., ein mutiertes Chromosom im gesamten Genpool der Spezies) bis zu 2N-1/2N (d. h. nur noch ein Chromosom im Genpool der Spezies, das den „angestammten“ Allelzustand repräsentiert; alle anderen Chromosomen haben das abgeleitete Allel). Diese Verteilung wird jedoch nur unvollkommen gemessen, wenn endliche Teilstichproben aus der Population gezogen werden. Je kleiner die endliche Stichprobe ist, die in unserem SNP-Erkennungsprozess (Sampling) verwendet wird, desto „unvollkommener“ ist die Übereinstimmung zwischen der Verteilung der abgeleiteten Allelhäufigkeiten und der „wahren“ Verteilung in der Natur. Hier ist ein Diagramm, das die Verzerrung veranschaulicht:
Modifiziert aus Abb.2, Ref. (1).
Wenn SNPs in dbSNP in Proben von wenigen Chromosomen ermittelt werden, dann wird ein Teil dieser SNPs in der Population im Vergleich zu potenziell größeren Proben derselben Genomsequenz übermäßig häufig sein.
Experimentelle Validierung bedeutet in der Regel, dass der SNP in zusätzlichen Proben beobachtet wird, die nicht mit dem ursprünglichen Chromosomensatz in Verbindung stehen, der zur Definition des SNP untersucht wurde. Daher werden häufige SNPs mit einer höheren Rate „validiert“ als SNPs mit einem wirklich seltenen Minor-Allel, weil größere Proben benötigt werden, um die seltene Variation wieder einzufangen (und damit zu bestätigen). Da alle Proben, die zur Bestimmung (Entdeckung) von SNPs oder zur Schätzung ihrer Allelhäufigkeiten in bestimmten Bevölkerungsproben verwendet werden, eine endliche Größe haben, gibt es in jedem an dbSNP übermittelten Datenstapel eine Art von Bestimmungsfehler.