A Human Chromosome 1 átfogó áttekintése

Eredmények

Megindoklás és a CompView felépítése

Egy jelentős mennyiségű genomikai adatot helyeztek el több adatbázisban, beleértve a sugárzási hibrid alapú térképezési adatokat (RHdb) (Lijnzaad et al. 1998), polimorf markerek genotipizálási adatait (CEPHdb) (Dausset et al. 1990), valamint feltételezett egyedi transzkriptumokat reprezentáló EST szekvencia- és klaszteradatokat (UniGene) (Boguski és Schuler 1995). Ezeket az adatkészleteket használtuk a CompView-eljárásunkkal végzett térkép-összeállításunk alapjául. A rendelkezésre álló markerek puszta száma messze meghaladja a számításon alapuló térképszerkesztési módszerek azon képességét, hogy a markerek csak kis százalékát tudják nagy megbízhatósággal elrendezni. Ezért meghatároztuk a markerek egy részhalmazának (keretének) nagy megbízhatóságú sorrendjét, és a többi markert ehhez a kerethez viszonyítva helyeztük el. A CompView egy iteratív folyamatot (dinamikus keretezés) használ a markerek szekvenciális hozzáadására a meghatározott kerethez, ezáltal maximalizálva a keretmarkerek számát és a térkép teljes felbontását.

A CompView kiindulópontjaként a Genebridge4 (GB4) sugárzási hibrid (RH) panelen (Gyapay et al. 1996) pontozott PCR-formátumú markerek halmazát választottuk, mivel ez a humán genomikai markerek legnagyobb homogén adathalmaza, amely nyilvánosan elérhető. Az RHdb és az UniGene nyers adatait importáltuk a Compdb-be, egy erre a projektre kifejlesztett egyedi relációs adatbázisba. A GB4 panelen pontozott és az 1. kromoszómához rendelt összes RHdb bejegyzést (5557 marker) elemeztük primer szekvencia azonosság szempontjából, és 4442 egyedi marker készletet állítottunk össze. Az egyedi markerhalmaz RH-adatait ezután a MultiMap, az automatizált RH-térkép-készítés szakértői rendszerével (Matise et al. 1994) elemeztük.

A GB4 panelben gondosan pontozott 62 Généthon mikroszatellita markerből álló készlet szolgált kezdeti vázas térképként a konstrukció során. A vázmarkerek ≥1000:1 páronkénti esélyekkel rendeződtek, és az RH- és a genetikai kapcsolat által meghatározott sorrendek teljes összhangban voltak. Ezután minden egyes nem csontvázas markert a MultiMap segítségével elemeztünk a csontvázas térképhez képest, hogy megállapítsuk, elegendő statisztikai támogatottsággal (≥1000:1) hozzáadható-e a csontvázas térkép egy egyedi pozíciójához. A végleges váz 289 markerből állt, amelyek lefedték az 1. kromoszóma 263 Mb-os területét, ami 910 kb átlagos felbontást eredményezett (1. ábra). Ezután kiszámítottuk az összes fennmaradó marker 1000:1 valószínűségi intervallumát a keretrendszerhez viszonyítva. Összesen 4220 egyedi markert, amelyek 5306 primer-készletet képviselnek, jelöltek ki térképi pozíciókat (1. táblázat).

1. ábra.

Nagyobb változat megtekintése:

  • In this window
  • In a new window
  • Download as PowerPoint Slide

1. ábra.

Kromoszóma 1 RH keretrendszer. A keretmarkerek vízszintesen balról fentről jobbra lentről az 1p terminustól kezdve vannak felsorolva. A markerek a centiRay pozíciójukkal arányosan vannak elhelyezve. A citolokáció minden sor elején fel van tüntetve. A hozzávetőleges fizikai skála a jobb alsó sarokban látható.

A táblázat megtekintése:

  • Ebben az ablakban
  • Új ablakban

1. táblázat.

Kromoszóma 1 térképezési összefoglaló

Adatok integrálása

Az RH keret 289 markere közül 111 polimorf volt, és a Centre d’Etude du Polymorphisme Humain (CEPH) referencia törzskönyveiben (Dausset et al. 1990) genotipizálva volt. Az RH-keret felépítésével analóg folyamat során ezt a 111 markert használták vázas térképként a genetikai kapcsolatrendszer (GL) felépítéséhez. A CEPHdb v8.1 genotípus-adatbázisból származó összes 1-es kromoszómához rendelt polimorfizmust használtuk polimorf markeradatkészletként. Az így kapott GL-keret 160 markert tartalmazott, amelyek ≥1000:1 arányban rendeződtek, és 2,0 cM és 1,6 Mb felbontást eredményeztek (1. táblázat). Ezután további 628 polimorf markert, köztük olyan gyakran használt tetranukleotid és intragenikus polimorfizmusokat, amelyeket gyakran kizárnak a teljes genom térképekről, 1000:1 valószínűségi intervallumokba soroltak a keretrendszerhez képest. A GB4-ben (Wang et al. 1998) pontozott 239 kromoszóma-1-specifikus egynukleotid-polimorfizmust (SNP) is bevontunk. Összességében a GL és RH szintek összesen 5008 egyedi marker elhelyezést jelentettek, 52 kb átlagos marker-sűrűséggel (1. táblázat).

Ezután az RH réteget, amely nagyrészt átírt szekvenciákat reprezentáló markerekből áll, integráltuk az UniGene EST szekvencia-klaszterekkel (Boguski és Schuler 1995). Az azonos EST-szekvenciával rendelkező klasztereket és a feltérképezett RH-markereket együtt társítottuk. Összességében a 4220 RH marker közül 3543 (84%) transzkriptumot reprezentált, és ezen transzkriptumok közül 2795 (79%) összesen 1830 EST klaszterrel társult (1. táblázat).

A fizikai térképezési adatok integrálása olyan markerek azonosításával történt, amelyekhez pozitív PAC, BAC vagy YAC klónokat azonosítottak. Meghatároztuk, hogy minden feltérképezett marker szerepel-e a Sanger Központ által az 1. kromoszóma szekvenálásához azonosított egy vagy több BAC- vagy PAC-klónban (Gregory et al. 1998), és 6167 BAC/PAC-klónt integráltunk, amelyek 1199 1. kromoszóma markert képviselnek (1. táblázat). A feltérképezett markerek nagy részét tartalmazó YAC-klónokat a Whitehead Institute Center for Genome Research (WICGR) izolálta (Hudson et al. 1995). Összesen 1930 YAC kromoszóma 1-es kromoszómát adtak hozzá, amelyek együttesen 2275 markert képviselnek a térképen. A jelen lévő markerek számát és az RH, GL és fizikai szintek közötti átfedéseket a 2. ábrán látható Venn-diagram mutatja.

2. ábra

Nagyobb változat megtekintése:

  • In this window
  • In a new window
  • Download as PowerPoint Slide

2. ábra.

Venn-diagram a marker altípusokról. Az ábra a markerek eloszlását mutatja az RH, GL és fizikai szintek között és azok között. Az RH és GL markerhalmazokat a CompView-ban kijelölt összes RH és GL marker (n = 4220 és n = 788) térképi pozíciója határozza meg. A fizikai markerhalmazt a kapcsolódó WICGR YAC-okkal és/vagy Sanger PAC/BAC-okkal rendelkező egyedi markerek száma határozza meg (n = 2480), amelyek egy részhalmaza (n = 1742) a CompView-ban lokalizált.

A citogenetikai pozíciós információ felvételéhez a Genome Database (GDB) (Letovsky et al. 1998) segítségével azonosítottunk egy 110 RH tier markerből álló, citogenetikai szempontból egy adott 1. kromoszómasávhoz lokalizált készletet. Ezeket a lokalizációkat citogenetikai keretként használva ezután kiszámítottuk az összes fennmaradó GL és RH marker következtetett citolokációját. A citolokalizált markerek 54%-ához (2686) egyetlen kromoszómasávot lehetett hozzárendelni; a maradék markerekhez citogenetikai sávtartományt rendeltek.

A nagyobb genomiális struktúrák reprezentációja megkövetel egy mechanizmust a redundáns és részben redundáns elemek azonosítására. Mivel az RH-alapú térképi pozíciókat rövid DNS-szakaszok amplifikációjával határozzák meg, ezek külön genomikai pontokként reprezentálhatók. A funkcionális genomi elemek azonban gyakran szubjektívebben határozhatók meg. Így egyetlen gént több marker is reprezentálhat egy nagy genomiális régióban elosztva, és minden egyes marker egy külön térképi pozíciónak felel meg. Az integrációt a markerek nómenklatúrája is megnehezíti, mivel gyakran több nevet is rendelnek ugyanahhoz a genomiális elemhez. Az egyértelműség érdekében kiszámítottuk mind az egyes markerek pontos lokalizációját, mind az egymással összefüggő markerek egy csoportjának konszenzusos pozícióját, amelyet kötegnek nevezünk.

A Compdb összes markeréből összeállítottuk az adatbázis-azonosítók (ID-k) kumulatív listáját. A közös azonosítókat tartalmazó (lényegében azonos nevű, szekvenciájú vagy EST-klaszterű) markereket olyan kötegekbe csoportosították, amelyek feltehetően transzkripteket vagy más funkcionális genomiális elemeket reprezentáltak. Minden egyes köteg térképi pozícióját a köteget alkotó egyedi markerek térképi pozícióiból határoztuk meg. Tegyük fel például, hogy az X köteg három markert tartalmaz, amelyek intervallumos pozíciói az 1-4, 2-5, illetve 3-6 keretmarkerekre terjednek ki. Az X köteg ekkor az 1-6-os maximális pozícióval és a 3-4-es minimális, legvalószínűbb térképi pozícióval lenne reprezentálva. Egyes kötegek olyan markereket tartalmaztak, amelyek térképi pozíciói nem fedték egymást, ami az RH pontozás, az EST klaszterépítés vagy az azonosítók címkézésének lehetséges hibáira utal. Ezekben az esetekben a kötegeket az átfedő térképpozíciójú markerek alcsoportjaira bontottuk. A markerek 43%-át (1796) 719 kötegbe lehetett összerakni, és a kötegek 89%-a esetében sikerült meghatározni a minimális térképi pozíciókat. A meghatározott minimális térképi intervallummal rendelkező kötegek esetében a minimális intervallum átlagos mérete 1,4 Mb volt, míg az átlagos maximum 5,2 Mb-ot tett ki. Ez azt jelzi, hogy a kötegképzési eljárás jelentősen leszűkítheti számos transzkriptum legvalószínűbb helyét az egyenértékű markerek térképi pozícióinak társításával. A fennmaradó 76 köteg (11%) olyan markereket tartalmazott, amelyek térképi pozíciói nem fedték egymást, és ez az arány nagyrészt az RHdb és UniGene adatkészleteken belüli kumulatív hibaarányt jelzi. Ezeket a nem átfedő kötegeket jelenleg vizsgálják az ellentmondásos térképi pozíciók forrása és oka szempontjából.

Adatok bemutatása

Az adatok bemutatására kifejlesztettünk egy CompView internetes oldalt (http://genome.chop.edu), amely grafikus és szöveges felületeket biztosít. A teljes kromoszóma (vagy a marker nevek vagy citogenetikai sávok által meghatározott alrészletek) grafikusan megtekinthető és testre szabható a Mapview interaktív Java applet (3. ábra) segítségével (Letovsky et al. 1998). Az egyes markerekhez tartozó információk tartalmazzák a primer szekvenciákat és RH pontszámokat, adatbázis azonosítókat, EST klaszter hozzárendeléseket, következtetett citogenetikai pozíciókat és a kapcsolódó nagy inzert klónokat (4. ábra). A CompView-ban bemutatott genomikai adatok kiegészítésére a külső adatbázisokra mutató hipertext linkek is rendelkezésre állnak. Jelenleg 28 internetalapú adatbázis közvetlen linkjei szerepelnek, 19 adatbázishoz pedig specifikus markerinformációk állnak rendelkezésre (2. táblázat). Ezek közé tartoznak az olyan marker- vagy szekvencia-tárházakra mutató linkek, mint a dbSTS, dbEST, GenBank, UniGene, RHdb és GDB; az egyes laboratóriumok vagy genomközpontok marker-adatbázisaira mutató linkek; a nagy beillesztett klónszűrési projektek valós idejű lekérdezései; a BLAST segítségével végzett szekvencia-homológiakeresések; és az OMIM, BioHunt és GeneCards segítségével végzett keresőmotoros lekérdezések (4. ábra). Így a CompView-ban bemutatott egyedi markerrekordok adatportálként szolgálnak a más oldalakon elérhető genomikai, szekvencia- és funkcionális adatok szélesebb köréhez.

3. ábra

Nagyobb változat megtekintése:

  • Ebben az ablakban
  • Új ablakban
  • Letöltés PowerPoint-diaként

3. ábra.

CompView webes felület példái. (A) Beviteli képernyő a kromoszóma egy régiójának kereséséhez. A régiók meghatározhatók két flankáló markerrel (balra), a kromoszóma ideogramjából egy citogenetikai sávra kattintva (jobbra), vagy egy vagy több citogenetikai sáv kiválasztásával (nem látható). A D1S468 és D1S214 közötti régióra vonatkozó lekérdezés bemenete látható. (B) A D1S468-tól D1S214-ig terjedő lekérdezés táblázatos visszatéréseA. A markertípus, a transzkripciós státusz, az RH intervallum, az RH térképi pozíció és a citolokáció minden marker esetében látható, és minden markerhez egy hiperlink vezet a teljesebb információhoz. Attop az egyes markertípusok teljes száma látható. A “régió térképe” gombra kattintva a jobb felső sarokbanmegjelenik a C. (C) AD1S468 és D1S214 közötti lekérdezés grafikus visszatérése a Mapview segítségével. Ebben a példában csak az RH keret (balra) és az RH markerek szintjének egy része (jobbra) látható. Az 1pter-től mért CentiRay távolságok a keret jobb oldalán láthatók. Az intervallumos RH-jelölők előtt függőleges vonal jelzi az RH-kerethez viszonyított 1000:1 valószínűségi pozíciójukat. A lekérdezéshez használt markerek ki vannak emelve a keretben, ahogy aGNB1 RH markere is; a GNB1-re kattintva a 4. ábrán látható markerrekord jelenik meg.

4. ábra.

Nagyobb változat megtekintése:

  • Ebben az ablakban
  • Új ablakban
  • Letöltés PowerPoint diaként

4. ábra.

Marker rekord példa. A képen a geneGNB1 egyedi rekordja látható. Az aláhúzott szöveg hipertext linket jelez. Ebben a példában külső adatbázis linkek találhatók a dbEST (a rövidítéseket lásd a 2. táblázat legendájában), GDB, Sanger, GenBank, UniGene és RHdb bejegyzésekhez erre a markerre vonatkozóan; a GenBank nem redundáns (GenBank), EST (EST) és nagy áteresztőképességű genomszekvencia (HTGS) gyűjteményeinek BLAST kereséséhez; a GeneCards, az OMIM és a BioHunt keresése a “GNB1”-re; és a Sanger Centre Acedb1 kromoszóma-1 térképező adatbázisában való keresés a GNB1 primer szekvenciákat tartalmazó BAC-ok és PAC-ok után. A “MAP OF GNB1” és a “GNB1 REGION” feliratú gombok a 3. ábrával analóg módon grafikusan ábrázolják a GNB1-et körülvevő régiót, illetve a 3. ábra B-vel analóg módon táblázatos összefoglalót adnak az összes markerről, amely ehhez a régióhoz tartozik. A bal oldalt felsorolt adatkategóriák nevei (például “Expression status”) hiperhivatkozásokkal a kategóriát leíró segédoldalakhoz vezetnek.

A táblázat megtekintése:

  • Ebben az ablakban
  • Új ablakban

2. táblázat.

Linkek külső adatbázisokhoz a CompView webhelyen

Sok markerhez több név is tartozik, és a redundáns nomenklatúra átválogatása egy adott lókusz esetében gyakran fárasztó. A megfelelő marker nevek kiválasztásához létrehoztunk egy algoritmust, amely egy előre meghatározott névforrás-hierarchia szerint kiválasztja a legmegfelelőbb marker nevet az egyes markerekhez társított adatbázis-azonosítók halmazából. A kötegek elnevezése hasonló módon történt, az egyes kötegeken belül a marker nevek pooljából történő kiválasztással.

Adatok integritása

A prediktált marker-sorrend ellenőrzése döntő fontosságú lépés a térképszerkesztés során. Az RH és a kapcsolási szintek felépítéséhez használt számítási módszerek olyan standard térképezési algoritmusokon alapultak, amelyek megbízhatónak bizonyultak a pontos markerrendezés szempontjából (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). Számos belső és külső összehasonlítást is végeztünk, hogy felmérjük a térképezési eljárásunk integritását. A belső összehasonlításhoz először gondosan elemeztük a csontvázas térképet, hogy megállapítsuk, az RH által meghatározott marker-sorrend kedvezően hasonlít-e a genetikai kapcsolatelemzés által megjósolt sorrendhez. Emellett az RH keretrendszer esetében minden egyes markert egyenként eltávolítottunk, majd újratérképeztünk, hogy kellő statisztikai megbízhatósággal megerősítsük a lokalizációt. Ezen túlmenően összehasonlítottuk az összes marker pozícióját, amelyek mind a kapcsolódási, mind az RH szintekre kerültek. Minden belső összehasonlításnál gyakorlatilag minden marker pozíciója megegyezett. Külső ellenőrzés céljából összehasonlítottuk eredményeinket a korábban közzétett 1. kromoszóma térképek eredményeivel. A 289 RH keretmarkerünk sorrendjét összehasonlítottuk a GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998) és a Généthon 3. verziójú GL térképek (Dib et al. 1996) megfelelő pozícióival. A GDB-ből származó citogenetikai keret pontosságát a Sanger Központ által a szekvenálás előkészítése során citogenetikai térképezéssel feltérképezett 212 db 1. kromoszóma nagyméretű inzert klónjával való összehasonlítással határozták meg. Minden összehasonlítás a markerek >90%-a esetében egyező markerrendet mutatott. Majdnem minden eltérés elszigeteltnek bizonyult, az általunk megjósolt markerpozíciók általában más térképeken találhatóakkal szomszédosak voltak, és általában olyan markereket érintettek, amelyek elhelyezése gyenge statisztikai alátámasztást kapott. Végül összehasonlítottuk markereink sorrendjét az 1p35-36 (Jensen et al. 1997) és az 1q41-43 (Weith et al. 1995) korábban közzétett térképei által előre jelzettekkel. A közösen leképezett markerek egyezőségi aránya 94% volt a disztális 1p térképpel és 100% a disztális 1q térképpel. Összességében ezek az összehasonlítások határozottan arra utalnak, hogy a CompView módszer megbízható, és hogy a markerpozíciók elszigetelt eltérései nagy valószínűséggel inkább az adatgenerálás vagy -bevitel, mint a térképszerkesztés hibáiból adódnak.

Kromoszóma 1 elemzése

Az 1. kromoszóma eredményeinek több szempontját tovább elemeztük. A 289 RH keretpozícióból 182-t (63%) véglegesen a rövid karhoz rendeltek. Ez a felülreprezentáltság valószínűleg az 1p-specifikus RH markerek nagyobb számának köszönhető az RHdb-ben, ami viszont annak köszönhető, hogy a Sanger Központ az 1. kromoszóma szekvenálási erőfeszítései során szelektíven célozta meg az 1p-t az STS létrehozására (Gregory et al. 1998). Az RH távolságokat centiRay-ben mérik, amelyet általában a fizikai távolsággal arányosnak tekintenek (Cox et al. 1990). Azonban a centromerikus és a szomszédos 1q heterokromatikus régiókban (RH keret pozíciókD1S2696-D1S3356; átlagos távolság 27,5 cR vs. 12,7 cR a teljes keretre; P < 0,001) felfújt RH térképi távolságokat figyeltek meg, összhangban a centromerikus régiókra vonatkozó korábbi megfigyelésekkel (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Számos további alacsony keretmarker/centiRay távolságú régiót figyeltünk meg, leginkább az 1p35 és 1q43 régiókban (1. ábra). Ezek a régiók a gyenge markerlefedettség vagy a fokozott sugárrezisztencia helyi területeit jelenthetik, mivel mindkét régió átfedésben van a sötét citogenetikai sávokkal (lásd alább). Bár az 1p-re még nem áll rendelkezésre telomer-specifikus STS, egy nemrégiben azonosított 1q-specifikus marker (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) jelen van a mi RH tierünkben, és a térképintervalluma magában foglalja az 1q telomert. Fontos lesz a jövőbeni RH-térképeket telomerikus markerekkel rögzíteni, amint azok elérhetővé válnak.

A világos Giemsa-festésű citogenetikai sávokat általában transzkriptekben gazdagnak tekintik (Bernardi 1989). Annak megállapítására, hogy ez az elv igaz-e az 1. kromoszómára, kiszámítottuk azoknak a transzkripteknek a számát, amelyeket kifejezetten a citogenetikai sávjaink világos és sötét sávjaihoz rendeltünk. Az egyetlen sávhoz hozzárendelt 1883 transzkriptből 1663 (88,3%) világos sávhoz volt rendelve (3. táblázat). Miután figyelembe vettük az egyes sávok relatív méretét, amelyet korábban a törthosszúság mérésével határoztunk meg (Francke és Oliver 1978), kiderült, hogy a világos sávok átlagosan 1,7-szer nagyobb valószínűséggel tartalmaznak transzkriptet, mint az azonos méretű sötét sávok, és az 1q21-es világos sáv volt a leggazdagabb transzkriptben. Az általános tendencia alól azonban több figyelemre méltó kivétel is volt, beleértve az 1p31-es sötét sáv magas transzkriptsűrűségét és az 1p32, 1p22, 1q23, 1q31 és 1q42-es világos sávok alacsony sűrűségét.

A táblázat megtekintése:

  • Ebben az ablakban
  • Új ablakban

3. táblázat.

Citogenetikai sávok/markerek összehasonlítása

Szólj hozzá!