確認バイアスとは何ですか、そしてそれはSNP頻度の計算とどのように関係していますか。
確認バイアスとは、集団遺伝学の用語で、SNPを発見(確認)し、その集団固有の対立遺伝子頻度を測定(推定)するために使用したサンプリングプロセスに起因する、期待される理論的結果からの系統的なずれを表すものです。 2N-1/2N(つまり、種の遺伝子プールに1本だけ残っている染色体が「祖先の」対立遺伝子状態であり、他の染色体はすべて派生対立遺伝子である)。 しかし、この分布は、集団から有限の小サンプルを抽出した場合、不完全に測定される。 SNP検出(サンプリング)プロセスで使用する有限サンプルが小さいほど、派生対立遺伝子頻度分布と自然界の「真の」分布との適合は「不完全」である。
図2、参考文献より改変。 (
dbSNPのSNPが少数の染色体のサンプルで確認される場合、それらのSNPの一部は、同じゲノム配列の潜在的により大きなサンプルと比較して、集団内で過度に一般的となる。
実験的検証は、通常、SNPの定義のために調査した染色体の元のセットとは関係のない追加のサンプルでSNPを観察することを意味する。 したがって、一般的なSNPは、本当に稀なマイナーアレルを持つSNPよりも高い割合で「検証」されることになる。なぜなら、稀な変異を再捕捉(したがって確認)するためには、より多くのサンプルが必要となるからである。 SNPを確認(発見)したり、特定の集団サンプルにおけるアレル頻度を推定するために使用されるすべてのサンプルは有限であるため、dbSNPに提出されたデータのすべてのバッチに何らかの確認バイアスが存在することになる。