VÝSLEDKY
Odůvodnění a konstrukce CompView
Do několika databází bylo uloženo značné množství genomických dat, včetně dat radiačního hybridního mapování (RHdb) (Lijnzaad et al. 1998), genotypizačních dat polymorfních markerů (CEPHdb) (Dausset et al. 1990) a sekvenčních a klastrových dat EST představujících domnělé jedinečné transkripty (UniGene) (Boguski a Schuler 1995). Tyto soubory dat byly použity jako základ pro sestavení naší mapy pomocí postupu CompView. Samotný počet dostupných markerů značně převyšuje schopnost metod sestavování map založených na výpočtech uspořádat více než malé procento markerů s vysokou spolehlivostí. Proto jsme určili pořadí podmnožiny (rámce) markerů s vysokou spolehlivostí a zbytek markerů jsme umístili vzhledem k tomuto rámci. CompView používá iterativní proces (dynamické rámování) k postupnému přidávání markerů do stanoveného rámce, čímž maximalizuje počet rámcových markerů a celkové rozlišení mapy.
Jako výchozí bod pro CompView jsme zvolili soubor markerů ve formátu PCR, které byly vyhodnoceny na panelu radiačních hybridů (RH) Genebridge4 (GB4) (Gyapay et al. 1996), protože se jedná o největší homogenní soubor dat lidských genomických markerů, který je veřejně dostupný. Surová data z RHdb a UniGene byla importována do Compdb, vlastní relační databáze vyvinuté pro tento projekt. Všechny položky RHdb hodnocené na panelu GB4 a přiřazené k chromozomu 1 (5557 markerů) byly analyzovány na identitu sekvence primerů a sestaveny do 4442 jedinečných sad markerů. RH data pro soubor unikátních markerů byla poté analyzována pomocí MultiMap, expertního systému pro automatickou konstrukci RH map (Matise et al. 1994).
Soubor 62 mikrosatelitních markerů Généthon, které byly pečlivě vyhodnoceny v panelu GB4, sloužil při konstrukci jako počáteční kostra mapy. Pořadí kosterních markerů bylo uspořádáno s párovým poměrem ≥1000:1 a pořadí určené RH a genetickou vazbou bylo v naprosté shodě. Každý neskeletální marker byl poté analyzován oproti skeletální mapě pomocí programu MultiMap, aby se zjistilo, zda může být přidán na jedinečné místo na skeletální mapě s dostatečnou statistickou podporou (≥1000:1). Konečný rámec se skládal z 289 markerů pokrývajících 263 Mb chromozomu 1, což dává průměrné rozlišení 910 kb (obr. 1). Poté byly vypočteny intervaly pravděpodobnosti 1000:1 všech zbývajících markerů vzhledem k rámci. Celkem bylo mapovým pozicím přiřazeno 4220 unikátních markerů, které představují 5306 sad primerů (tab. 1).
- V tomto okně
- V novém okně
- Stáhnout jako prezentaci PowerPoint
Rámec chromozomu 1 RH. Rámcové markery jsou řazeny horizontálně zleva nahoru doprava dolů, počínaje terminálem 1p. Markery jsou rozmístěny proporcionálně k jejich centiRay pozicím. Cytolokace jsou uvedeny na začátku každého řádku. Přibližné fyzické měřítko je znázorněno vpravo dole.
- V tomto okně
- V novém okně
Souhrn mapování chromozomu 1
Integrace dat
Z 289 markerů v rámci RH bylo 111 polymorfních a byly genotypovány v referenčních rodokmenech Centre d’Etude du Polymorphisme Humain (CEPH) (Dausset et al. 1990). V procesu analogickém konstrukci RH rámce bylo těchto 111 markerů použito jako kostra mapy pro konstrukci rámce genetické vazby (GL). Jako soubor dat polymorfních markerů byly použity všechny polymorfismy přiřazené chromozomu 1 z databáze genotypů CEPHdb v8.1. Výsledný GL rámec obsahoval 160 markerů uspořádaných se šancí ≥1000:1, což dává rozlišení 2,0 cM a 1,6 Mb (tabulka 1). Dalších 628 polymorfních markerů, včetně běžně používaných tetranukleotidových a intragenních polymorfismů, které jsou často vyloučeny z celogenomových map, bylo poté umístěno do intervalů s pravděpodobností 1000:1 vzhledem k rámci. Zahrnuli jsme také 239 jednonukleotidových polymorfismů (SNP) specifických pro chromozom 1, které byly vyhodnoceny v GB4 (Wang et al. 1998). Celkově bylo v úrovních GL a RH umístěno 5008 unikátních markerů s průměrnou hustotou 52 kb (tabulka 1).
Poté jsme integrovali vrstvu RH, která se z velké části skládá z markerů představujících transkribované sekvence, s klastry sekvencí UniGene EST (Boguski a Schuler 1995). Klastry a mapované RH markery sdílející identickou sekvenci EST byly spojeny dohromady. Celkem 3543 ze 4220 RH markerů (84 %) představovalo transkripty a 2795 (79 %) těchto transkriptů bylo spojeno s celkem 1830 klastry EST (tabulka 1).
Údaje o fyzickém mapování byly integrovány identifikací markerů, pro které byly identifikovány pozitivní klony PAC, BAC nebo YAC. Určili jsme, zda je každý mapovaný marker obsažen v jednom nebo více klonech BAC nebo PAC identifikovaných pro sekvenování chromozomu 1 Sangerovým centrem (Gregory et al. 1998), a bylo integrováno 6167 klonů BAC/PAC představujících 1199 markerů chromozomu 1 (tabulka 1). YAC klony obsahující mnoho mapovaných markerů byly izolovány Whitehead Institute Center for Genome Research (WICGR) (Hudson et al. 1995). Celkem bylo přidáno 1930 YAC chromozomu 1, což dohromady představuje 2275 markerů na mapě. Počet přítomných a překrývajících se markerů mezi RH, GL a fyzickou úrovní ukazuje Vennův diagram na obrázku 2.
- V tomto okně
- V novém okně
- Stáhnout jako prezentaci PowerPoint
Vennův diagram podtypů markerů. Diagram znázorňuje rozložení markerů mezi RH, GL a fyzickou úrovní a mezi nimi. Sady RH a GL markerů jsou definovány všemi RH a GL markery přiřazenými mapovým pozicím v CompView (n = 4220 a n = 788). Soubor fyzických markerů je definován počtem jedinečných markerů s přiřazenými WICGR YAC a/nebo Sanger PAC/BAC (n = 2480), z nichž podmnožina (n = 1742) je lokalizována v CompView.
Pro zahrnutí cytogenetických informací o poloze jsme použili databázi genomů (GDB) (Letovsky et al. 1998) k identifikaci sady 110 markerů RH tier, které byly cytogeneticky lokalizovány do určitého pásu chromozomu 1. Na základě těchto informací jsme zjistili, zda jsou markery RH tier lokalizovány do určitého pásu. Pomocí těchto lokalizací jako cytogenetického rámce byly poté vypočteny odvozené cytolokace pro všechny zbývající GL a RH markery. Pro 54 % (2686) cytolokalizovaných markerů bylo možné přiřadit jeden chromozomový pás; zbývajícím markerům byl přiřazen cytogenetický rozsah pásů.
Zobrazení větších genomických struktur vyžaduje mechanismus pro identifikaci redundantních a částečně redundantních prvků. Vzhledem k tomu, že pozice na mapě založené na RH jsou určeny amplifikací krátkých úseků DNA, lze je reprezentovat jako samostatné genomické body. Funkční genomické elementy jsou však často definovány spíše subjektivně. Jeden gen tak může být reprezentován více markery rozmístěnými ve velké genomové oblasti, přičemž každý marker odpovídá odlišné mapové pozici. Integraci také komplikuje nomenklatura markerů, takže jednomu genomickému prvku je často přiřazeno více názvů. Pro přehlednost jsme vypočítali jak přesnou lokalizaci každého samostatného markeru, tak konsenzuální pozici skupiny vzájemně souvisejících markerů, označovanou jako svazek.
Kumulativní seznam databázových identifikátorů (ID) byl sestaven ze všech markerů v Compdb. Markery, u nichž bylo zjištěno, že mají společné ID (v podstatě sdílejí identický název, sekvenci nebo shluk EST), byly seskupeny do svazků, které pravděpodobně představují transkripty nebo jiné funkční genomické prvky. Každá mapová pozice svazku byla definována z mapových pozic jednotlivých markerů tvořících svazek. Například předpokládejme, že svazek X obsahuje tři markery s intervalovými pozicemi zahrnujícími rámcové markery 1-4, 2-5 a 3-6 v tomto pořadí. Svazek X by pak byl reprezentován maximální pozicí 1-6 a minimální, nejpravděpodobnější mapovou pozicí 3-4. Některé svazky obsahovaly markery s nepřekrývajícími se mapovými pozicemi, což naznačuje možné chyby při bodování RH, sestavování shluků EST nebo označování identifikátorů. V těchto případech byly svazky rozděleny na podskupiny markerů s překrývajícími se mapovými pozicemi. Čtyřicet tři procent (1796) markerů bylo možné sestavit do 719 svazků a minimální mapové pozice byly definovány pro 89 % svazků. U svazků s definovanými minimálními mapovými pozicemi byla průměrná velikost minimálního intervalu 1,4 Mb, zatímco průměrný maximální interval zahrnoval 5,2 Mb. To naznačuje, že postup svazování může podstatně zúžit nejpravděpodobnější umístění mnoha transkriptů tím, že spojí mapové pozice ekvivalentních markerů. Zbývajících 76 svazků (11 %) obsahovalo markery s nepřekrývajícími se mapovými pozicemi a toto procento do značné míry vypovídá o kumulativní chybovosti v rámci datových souborů RHdb a UniGene. Tyto nepřekrývající se svazky jsou v současné době posuzovány z hlediska zdroje a důvodu konfliktních mapových pozic.
Prezentace dat
Pro prezentaci dat jsme vyvinuli internetové stránky CompView (http://genome.chop.edu), které poskytují grafické a textové rozhraní. Celý chromozom (nebo dílčí úseky, které jsou definovány názvy markerů nebo cytogenetických pásů) lze graficky zobrazit a přizpůsobit pomocí interaktivního appletu Java Mapview (obr. 3) (Letovsky et al. 1998). Informace o jednotlivých markerech zahrnují sekvence primerů a RH skóre, ID databází, přiřazení ke klastrům EST, odvozené cytogenetické pozice a související klony s velkými vložkami (obr. 4). Pro doplnění genomických dat prezentovaných v CompView jsou uvedeny také hypertextové odkazy na externí databáze. V současné době jsou zahrnuty přímé odkazy na 28 internetových databází, přičemž informace o specifických markerech jsou k dispozici pro 19 databází (tabulka 2). Patří mezi ně odkazy na repozitáře markerů nebo sekvencí, jako jsou dbSTS, dbEST, GenBank, UniGene, RHdb a GDB; odkazy na databáze markerů jednotlivých laboratoří nebo genomových center; dotazy v reálném čase na projekty screeningu velkých inzertních klonů; vyhledávání homologie sekvencí pomocí BLAST a dotazy ve vyhledávačích OMIM, BioHunt a GeneCards (obr. 4). Záznamy jednotlivých markerů prezentované v CompView tak slouží jako datový portál k širšímu spektru genomických, sekvenčních a funkčních dat dostupných na jiných místech.
- V tomto okně
- V novém okně
- Stáhnout jako prezentaci PowerPoint
Příklady webového rozhraní programu CompView. (A) Vstupní obrazovka pro vyhledání oblasti chromozomu. Oblasti lze definovat pomocí dvou doprovodných markerů (vlevo), kliknutím na cytogenetický pás z ideogramu chromozomu (vpravo) nebo výběrem jednoho nebo řady cytogenetických pásů (není zobrazeno). Je zobrazen vstupní dotaz pro oblast mezi D1S468 a D1S214. (B) Tabulkový návrat pro dotaz D1S468 až D1S214 zA. U každého markeru je zobrazen typ markeru, transkripční stav, RH interval, pozice na RH mapě a cytolokace, přičemž u každého markeru je uveden hypertextový odkaz na úplnější informace. Nahoře je uveden celkový počet každého typu nalezeného markeru. Kliknutím na tlačítko „map of region“ vpravo nahoře se zobrazí C. (C) Grafický návrat dotazuD1S468 až D1S214 zobrazený pomocí Mapview. V tomto příkladu je vidět pouze rámec RH (vlevo) a část úrovně RH markerů (vpravo). Vzdálenosti CentiRay od 1pter jsou zobrazeny vpravo od rámce. Intervalovým RH markerům předchází svislá čára označující jejich polohu s pravděpodobností 1000:1 vzhledem k RH rámci. Markery použité pro dotazování jsou v rámci zvýrazněny, stejně jako RH marker proGNB1; kliknutím na GNB1 se zobrazí záznam markeru na obr. 4.
- V tomto okně
- V novém okně
- Stáhnout jako prezentaci PowerPoint
Příklad záznamu značky. Zobrazen je individuální záznam pro genGNB1. Podtržený text označuje hypertextový odkaz. V tomto příkladu jsou přítomny odkazy na externí databáze dbEST (zkratky viz legenda k tabulce 2), GDB, Sanger, GenBank, UniGene a RHdb záznamy pro tento marker; k provedení vyhledávání BLAST v neredundantních (GenBank), EST (EST) a high-throughput genomic sequence (HTGS) kolekcích v GenBank; vyhledat v databázích GeneCards, OMIM a BioHunt „GNB1“ a v databázi mapování chromozomu 1 Sangerova centra Acedb1 vyhledat BAC a PAC se sekvencemi primerů GNB1. Tlačítka označená „MAP OF GNB1“ a „GNB1 REGION“ poskytují grafické znázornění oblasti obklopující GNB1 obdobně jako na obr. 3 Cand tabulkový přehled všech markerů mapujících tuto oblast obdobně jako na obr. 3 B. Názvy kategorií dat uvedené vlevo (například „Expression status“) odkazují na stránky nápovědy popisující danou kategorii.
- V tomto okně
- V novém okně
Odkazy na externí databáze na webu CompView
Mnoho markerů je spojeno s více názvy a třídění nadbytečné nomenklatury pro daný lokus je často zdlouhavé. Pro výběr vhodných názvů markerů jsme vytvořili algoritmus, který vybírá nejvhodnější název markeru ze souboru ID databází spojených s každým markerem podle předem stanovené hierarchie zdrojů názvů. Svazky byly pojmenovány podobným způsobem výběrem z fondu názvů markerů v rámci každého svazku.
Celost dat
Ověření předpokládaného pořadí markerů je klíčovým krokem při konstrukci mapy. Výpočetní metody použité pro konstrukci RH a vazebných vrstev byly založeny na standardních mapovacích algoritmech, které se ukázaly jako spolehlivé pro přesné uspořádání markerů (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). K posouzení integrity našeho postupu mapování jsme také použili řadu interních a externích srovnání. Pro vnitřní srovnání jsme nejprve pečlivě analyzovali kosterní mapu, abychom zjistili, zda se RH-definované pořadí markerů příznivě srovnává s pořadím předpovězeným analýzou genetických vazeb. Také pro rámec RH byl každý marker jednotlivě odstraněn a poté přemapován, aby se potvrdila lokalizace s dostatečnou statistickou spolehlivostí. Kromě toho jsme porovnali pozice všech markerů umístěných jak na úrovni vazby, tak na úrovni RH. Při všech vnitřních srovnáních se prakticky všechny pozice markerů shodovaly. Pro vnější ověření jsme porovnali naše výsledky s výsledky dříve publikovaných map chromozomu 1. Pořadí našich 289 rámcových markerů RH bylo porovnáno s odpovídajícími pozicemi na mapách GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998) a Généthon verze 3 GL (Dib et al. 1996). Přesnost cytogenetického rámce odvozeného z GDB byla stanovena porovnáním se souborem 212 klonů velkých inzertů chromozomu 1, které byly cytogeneticky zmapovány v Sangerově centru v rámci přípravy na sekvenování. Každé srovnání ukázalo shodné pořadí markerů pro >90 % markerů. Téměř všechny nesrovnalosti byly shledány jako ojedinělé, přičemž námi předpovězené pozice markerů obvykle sousedily s pozicemi v jiných mapách a obvykle se týkaly markerů se slabou statistickou podporou pro umístění. Nakonec jsme porovnali pořadí našich markerů s pořadím předpovězeným v dříve publikovaných mapách 1p35-36 (Jensen et al. 1997) a 1q41-43 (Weith et al. 1995). Míra shody pro společně mapované markery byla 94 % s distální mapou 1p a 100 % s distální mapou 1q. Celkově tato srovnání silně naznačují, že metoda CompView je správná a že izolované odchylky polohy markerů jsou s největší pravděpodobností způsobeny spíše chybami při generování nebo zadávání dat než při konstrukci mapy.
Analýza chromozomu 1
Několik aspektů výsledků chromozomu 1 bylo dále analyzováno. Z 289 rámcových pozic RH bylo 182 (63 %) definitivně přiřazeno ke krátkému rameni. Toto nadměrné zastoupení je pravděpodobně způsobeno větším počtem RH markerů specifických pro 1p v RHdb, což je zase způsobeno selektivním zacílením 1p pro generování STS Sangerovým centrem při jeho úsilí o sekvenování chromozomu 1 (Gregory et al. 1998). Vzdálenosti RH se měří v centiRays, které se obecně považují za úměrné fyzické vzdálenosti (Cox et al. 1990). V rámci centromerických a přilehlých heterochromatických oblastí 1q však byly pozorovány nadsazené RH mapové vzdálenosti (RH rámcové poziceD1S2696-D1S3356; prům. vzdálenost 27,5 cR vs. 12,7 cR pro celý rámec; P < 0,001), což odpovídá předchozím pozorováním pro centromerické oblasti (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Bylo pozorováno několik dalších oblastí s nízkou vzdáleností rámcový marker/centiRay, zejména v 1p35 a 1q43 (obr. 1). Tyto oblasti mohou představovat lokální oblasti se slabým pokrytím markery nebo zvýšenou radiorezistencí, protože obě oblasti překrývají tmavé cytogenetické pásy (viz níže). Ačkoli pro 1p zatím není k dispozici STS specifický pro telomery, nedávno identifikovaný marker specifický pro 1q (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) je přítomen v naší RH vrstvě a jeho mapový interval zahrnuje telomery 1q. Bude důležité ukotvit budoucí mapy RH pomocí telomerických markerů, jakmile budou k dispozici.
Světlé cytogenetické pásy barvící se podle Giemsy jsou obecně považovány za pásy bohaté na transkripty (Bernardi 1989). Abychom zjistili, zda tento princip platí i pro chromozom 1, spočítali jsme počet transkriptů, které byly na naší cytogenetické vrstvě přiřazeny specificky světlým a tmavým pásům. Z 1883 transkriptů mapovaných na jeden pás bylo 1663 (88,3 %) přiřazeno světlým pásům (tabulka 3). Po zohlednění relativní velikosti každého pásu, jak byla dříve určena měřením frakční délky (Francke a Oliver 1978), bylo zjištěno, že světlé pásy obsahují v průměru 1,7krát větší pravděpodobnost transkriptu než stejně velké tmavé pásy, přičemž světlý pás 1q21 byl na transkripty nejbohatší. Z obecného trendu však existovalo několik pozoruhodných výjimek, včetně vysoké hustoty transkriptu u tmavého pásu 1p31 a nízké hustoty u světlých pásů 1p32, 1p22, 1q23, 1q31 a 1q42.
- V tomto okně
- V novém okně
Srovnání cytogenetických pásů a markerů