Mi az ascertainment bias, és hogyan kapcsolódik az SNP-frekvenciák kiszámításához?
Az ascertainment bias egy kifejezés a populációgenetikában, amely a várt elméleti eredménytől való szisztematikus eltéréseket írja le, amelyek az SNP-k megtalálására (megállapítására) és populáció-specifikus allélfrekvenciáik mérésére (becslésére) használt mintavételi eljárásoknak tulajdoníthatók.
Az SNP “származtatott” allélfrekvenciák eloszlása a természetben 1/2N (ill, egy mutáns kromoszóma a faj teljes génkészletében), a 2N-1/2N-ig (azaz a faj génkészletében csak egy kromoszóma maradt, amely az “ősi” allélállapotot képviseli; az összes többi kromoszómán a származtatott allél található). Ez az eloszlás azonban tökéletlenül mérhető, ha véges részmintákat húzunk a populációból. Minél kisebb a véges minta, amelyet az SNP-k kimutatására (mintavételezésére) használunk, annál “tökéletlenebb” az illeszkedés a származtatott allélfrekvenciák eloszlása és a természetben lévő “valódi” eloszlás között. Íme egy grafikon, amely a torzítást szemlélteti:
Módosítva a 2. ábrából, Ref. (1).
Ha a dbSNP-ben szereplő SNP-ket néhány kromoszómából vett mintákban állapítják meg, akkor ezen SNP-k egy része túlságosan gyakori lesz a populációban az azonos genomszekvenciájú, potenciálisan nagyobb mintákhoz képest.
A kísérleti validálás jellemzően az SNP megfigyelését jelenti további mintákban, amelyek nem kapcsolódnak az SNP meghatározásához vizsgált eredeti kromoszómakészlethez. Ezért a gyakori SNP-k nagyobb arányban “validálódnak”, mint a valóban ritka minor alléllal rendelkező SNP-k, mivel nagyobb mintákra van szükség a ritka variáció visszanyeréséhez (és így megerősítéséhez). Mivel minden minta, amelyet az SNP-k megállapítására (felfedezésére) vagy allélfrekvenciájuk becslésére használnak bizonyos populációs mintákban, véges méretű, minden egyes, a dbSNP-hez benyújtott adattételben lesz valamilyen megállapítási torzítás.