En omfattande bild av människans kromosom 1

RESULTAT

Rationalitet och konstruktion av CompView

En stor mängd genomiska data har deponerats i flera databaser, inklusive RHdb (radiation hybrid-based mapping data) (Lijnzaad et al. 1998), data om genotypning av polymorfa markörer (CEPHdb) (Dausset et al. 1990) och EST-sekvens- och klusterdata som representerar förmodade unika transkript (UniGene) (Boguski och Schuler 1995). Dessa datamängder användes som grund för vår kartläggning med hjälp av vårt CompView-förfarande. Det stora antalet tillgängliga markörer överstiger vida förmågan hos beräkningsbaserade kartkonstruktionsmetoder att ordna mer än en liten andel av markörerna med hög säkerhet. Därför fastställde vi ordningen med hög säkerhet för en delmängd (ram) av markörer och placerade resten av markörerna i förhållande till denna ram. CompView använder en iterativ process (dynamisk inramning) för att sekventiellt lägga till markörer till en etablerad ram och därigenom maximera antalet rammarkörer och den totala kartupplösningen.

Vi valde uppsättningen PCR-formaterade markörer som poängsattes på Genebridge4 (GB4) strålningshybrid (RH) panelen (Gyapay et al. 1996) som utgångspunkt för CompView, eftersom detta är den största homogena datamängden av humana genomiska markörer som är offentligt tillgänglig. Rådata från RHdb och UniGene importerades till Compdb, en skräddarsydd relationsdatabas som utvecklats för detta projekt. Alla RHdb-poster som fick poäng på GB4-panelen och tilldelades kromosom 1 (5557 markörer) analyserades för primersekvensidentitet och sammanställdes till 4442 unika marköruppsättningar. RH-data för uppsättningen unika markörer analyserades sedan med MultiMap, ett expertsystem för automatiserad konstruktion av RH-kartor (Matise et al. 1994).

En uppsättning av 62 Généthon-mikrosatellitmarkörer som noggrant poängsattes i GB4-panelen fungerade som en inledande skelettkarta under konstruktionen. Skelettmarkörerna var ordnade med ≥1000:1 parvisa odds, och de RH- och genetiska länkningsbestämda ordningarna stämde helt överens. Varje icke-skelettmarkör analyserades sedan mot skelettkartan med hjälp av MultiMap för att avgöra om den kunde läggas till på en unik position på skelettkartan med tillräckligt statistiskt stöd (≥1000:1). Det slutliga ramverket bestod av 289 markörer som täckte 263 Mb av kromosom 1, vilket gav en genomsnittlig upplösning på 910 kb (fig. 1). Sannolikhetsintervallen 1000:1 för alla återstående markörer, i förhållande till ramverket, beräknades sedan. Totalt 4220 unika markörer, som representerar 5306 uppsättningar primers, tilldelades kartpositioner (tabell 1).

Figur 1.

Visa större version:

  • I det här fönstret
  • I ett nytt fönster
  • Ladda ner som PowerPoint-slide

Figur 1.

Kromosom 1 RH-ram. Rammarkörer listas horisontellt från övre vänster till nedre höger med början vid 1p-terminus. Avståndet mellan markörerna är proportionellt till deras centiRay-positioner. Cytolokaliseringar anges i början av varje rad. En ungefärlig fysisk skala visas längst ned till höger.

Visa den här tabellen:

  • I det här fönstret
  • I ett nytt fönster

Tabell 1.

Kromosom 1 kartläggningssammanfattning

Dataintegration

Av de 289 markörerna på RH-ramen var 111 polymorfa och hade genotypats i Centre d’Etude du Polymorphisme Humain (CEPH) referensstamtavlor (Dausset et al. 1990). I en process som är analog med konstruktionen av RH-ramen användes dessa 111 markörer som en skelettkarta för att konstruera en ram för genetisk koppling (GL). Alla kromosom 1-tilldelade polymorfismer från genotypdatabasen CEPHdb v8.1 användes som dataset för polymorfa markörer. Den resulterande GL-ramen bestod av 160 markörer ordnade med ≥1000:1 odds, vilket gav upplösningar på 2,0 cM och 1,6 Mb (tabell 1). Ytterligare 628 polymorfa markörer, inklusive vanligt förekommande tetranukleotid- och intragena polymorfismer som ofta utesluts från kartor över hela genomet, placerades sedan i 1000:1-sannolikhetsintervall i förhållande till ramverket. Vi inkluderade också 239 kromosom 1-specifika enskilda nukleotidpolymorfismer (SNP) som hade poängsatts i GB4 (Wang et al. 1998). Totalt sett uppgick GL- och RH-nivåerna till 5008 unika markörplaceringar, med en genomsnittlig markörtäthet på 52 kb (tabell 1).

Därefter integrerade vi RH-nivån, som till stor del består av markörer som representerar transkriberade sekvenser, med UniGenes EST-sekvenskluster (Boguski och Schuler 1995). Kluster och kartlagda RH-markörer som delade en identisk EST-sekvens associerades med varandra. Totalt sett representerade 3543 av de 4220 RH-markörerna (84 %) transkriptioner, och 2795 (79 %) av dessa transkriptioner var associerade med totalt 1830 EST-kluster (tabell 1).

Fysiska kartläggningsdata integrerades genom att identifiera markörer för vilka positiva PAC-, BAC- eller YAC-kloner har identifierats. Vi fastställde om varje kartlagd markör fanns i en eller flera BAC- eller PAC-kloner som identifierats för sekvensering av kromosom 1 av Sanger Centre (Gregory et al. 1998), och 6167 BAC/PAC-kloner som representerar 1199 kromosom 1-markörer integrerades (tabell 1). YAC-kloner som innehåller många av de kartlagda markörerna har isolerats av Whitehead Institute Center for Genome Research (WICGR) (Hudson et al. 1995). Sammanlagt 1930 YAC:er från kromosom 1 lades till, som tillsammans representerar 2275 markörer på kartan. Antalet markörer som finns och överlappar mellan RH-, GL- och fysiska nivåer framgår av Venn-diagrammet i figur 2.

Figur 2.

Visa större version:

  • I det här fönstret
  • I ett nytt fönster
    • Ladda ner som PowerPoint-slide
Figur 2.

Venn-diagram över markörundertyper. Diagrammet visar fördelningen av markörer mellan och mellan RH-, GL- och fysiska nivåer. RH- och GL-markörer definieras av alla RH- och GL-markörer som tilldelats kartpositioner i CompView (n = 4220 respektive n = 788). Den fysiska marköruppsättningen definieras av antalet unika markörer med tillhörande WICGR YACs och/eller Sanger PAC/BACs (n = 2480), varav en delmängd (n = 1742) är lokaliserad i CompView.

För att inkludera cytogenetisk positionsinformation använde vi Genome Database (GDB) (Letovsky et al. 1998) för att identifiera en uppsättning av 110 RH tier-markörer som cytogenetiskt hade lokaliserats till ett specifikt kromosom 1-band. Genom att använda dessa lokaliseringar som en cytogenetisk ram beräknades sedan härledda cytolokaliseringar för alla återstående GL- och RH-markörer. Ett enda kromosomband kunde tilldelas för 54 % (2686) av de cytolokaliserade markörerna; resten av markörerna tilldelades ett cytogenetiskt bandintervall.

Representation av större genomiska strukturer kräver en mekanism för att identifiera redundanta och delvis redundanta element. Eftersom RH-baserade kartpositioner bestäms genom amplifiering av korta DNA-segment kan de representeras som distinkta genomiska punkter. Funktionella genomiska element är dock ofta mer subjektivt definierade. En enskild gen kan således representeras av flera markörer som är fördelade över en stor genomisk region, där varje markör motsvarar en distinkt kartposition. Integrationen kompliceras också av markörernas nomenklatur, vilket innebär att flera namn ofta tilldelas samma genomiska element. För tydlighetens skull har vi beräknat både den exakta lokaliseringen av varje distinkt markör och konsensuspositionen för en grupp av inbördes relaterade markörer, som kallas för en bunt.

En kumulativ lista över databasidentifierare (ID) sammanställdes från alla markörer i Compdb. Markörer som befanns dela ID:er (i huvudsak dela ett identiskt namn, sekvens eller EST-kluster) grupperades i buntar som förmodligen representerade transkriptioner eller andra funktionella genomiska element. Varje kartposition för varje bunt definierades utifrån kartpositionerna för de enskilda markörer som ingår i bunten. Anta till exempel att bunt X innehåller tre markörer med intervallpositioner som sträcker sig över rammarkörer 1-4, 2-5 respektive 3-6. Bunt X skulle då representeras med en maximal position på 1-6 och en minimal, mest sannolik kartposition på 3-4. Vissa buntar innehöll markörer med icke överlappande kartpositioner, vilket tyder på möjliga fel i RH-scoring, EST-klusterbyggande eller identifieringsmärkning. I dessa fall delades buntarna upp i delmängder av markörer med överlappande kartpositioner. Fyrtiotre procent (1 796) av markörerna kunde sättas samman till 719 buntar, och minimala kartpositioner definierades för 89 % av buntarna. För buntar med definierade minsta kartintervall var den genomsnittliga storleken på det minsta intervallet 1,4 Mb, medan det genomsnittliga maximala intervallet sträckte sig över 5,2 Mb. Detta tyder på att buntningsförfarandet väsentligt kan begränsa den mest sannolika placeringen av många transkript genom att associera kartpositioner för likvärdiga markörer. De återstående 76 buntarna (11 %) innehöll markörer med icke överlappande kartpositioner, och denna procentsats är till stor del en indikation på den kumulativa felprocenten inom RHdb- och UniGene-datamängderna. Dessa icke överlappande buntar bedöms för närvarande för att fastställa källan och orsaken till de motstridiga kartpositionerna.

Datapresentation

För datapresentation har vi utvecklat en CompView-internetplats (http://genome.chop.edu) som tillhandahåller grafiska och textbaserade gränssnitt. Hela kromosomen (eller underavsnitt som definieras av markörnamn eller cytogenetiska band) kan visas grafiskt och anpassas med hjälp av den interaktiva Java-appletten Mapview (Fig.3) (Letovsky et al. 1998). Information för enskilda markörer omfattar primersekvenser och RH-poäng, databas-ID:n, EST-klustertilldelning, avledda cytogenetiska positioner och associerade stora insertkloner (Fig. 4). För att komplettera de genomiska data som presenteras i CompView finns också hypertextlänkar till externa databaser. För närvarande finns direktlänkar till 28 internetbaserade databaser, med specifik markörinformation tillgänglig för 19 databaser (tabell 2). Dessa omfattar länkar till markör- eller sekvensregister som dbSTS, dbEST, GenBank, UniGene, RHdb och GDB, länkar till enskilda laboratoriers eller genomcenters markördatabaser, realtidsförfrågningar av screeningprojekt för stora insertkloner, sekvenshomologisökningar med hjälp av BLAST och sökmotorförfrågningar med hjälp av OMIM, BioHunt och GeneCards (fig. 4). De enskilda markörposter som presenteras i CompView fungerar således som en dataportal till ett större utbud av genomiska, sekvensmässiga och funktionella data som finns tillgängliga på andra platser.

Figur 3.

Visa större version:

  • I det här fönstret
  • I ett nytt fönster
  • Ladda ner som PowerPoint-slide

Figur 3.

Exempel på webbgränssnittet förCompView. (A) Inmatningsskärm för att söka efter en region i kromosomen. Regioner kan definieras genom två flankerande markörer (vänster), genom att klicka på ett cytogenetiskt band från ett kromosomideogram (höger) eller genom att välja ett eller ett intervall av cytogenetiska band (visas inte). En frågeinmatning för regionen mellan D1S468 och D1S214 visas. (B) Tabulär återgivning för sökfrågan D1S468 till D1S214 frånA. Markörtyp, transkriptionsstatus, RH-intervall, RH-kartposition och cytolokalisering visas för varje markör, med en hyperlänk till mer fullständig information för varje markör. Attop visas det totala antalet av varje typ av markör som hittats. Om man klickar på knappen ”map of region” högst upp till höger får man C. (C) Grafisk återgivning av sökningenD1S468 till D1S214 med Mapview. I detta exempel är endast RH-ramen (till vänster) och en del av RH-markörernas nivå (till höger) synliga. CentiRay-avstånd från 1pter visas till höger om ramen. RH-markörer med mellanrum föregås av en vertikal linje som anger deras 1000:1-sannolikhetspositioner i förhållande till RH-ramen. De markörer som används för sökning är markerade på ramverket, liksom RH-markören förGNB1; om man klickar på GNB1 får man fram den markörpost som visas i fig. 4.

Figur 4.

Visa större version:

  • I det här fönstret
  • I ett nytt fönster
  • Ladda ner som PowerPoint-slide

Figur 4.

Exempel på en markeringspost. Här visas den enskilda posten för genGNB1. Understruken text anger en hypertextlänk. Externa databaslänkar finns i detta exempel till dbEST (se tabell 2 legend för förkortningar), GDB, Sanger, GenBank, UniGene och RHdb poster för denna markör; för att utföra en BLAST-sökning i samlingarna av icke-redundanta (GenBank), EST (EST) och höggenomsekvenser (HTGS) i GenBank; Sökning i GeneCards, OMIM och BioHunt efter ”GNB1”. Sökning i Sanger Centre chromosome 1 mapping database Acedb1 efter BACs och PACs med GNB1-primersekvenser. Knapparna ”MAP OF GNB1” och ”GNB1 REGION” ger en grafisk bild av den region som omger GNB1 i likhet med fig. 3 Cand och en sammanfattning i tabellform av alla markörer som mappas till denna region i likhet med fig. 3 B, respektive. De datakategorinamn som anges till vänster (t.ex. ”Expression status”) är hyperlänkar till hjälpsidor som beskriver kategorin.

Visa den här tabellen:

  • I det här fönstret
  • I ett nytt fönster

Tabell 2.

Länkar till externa databaser på CompView-webbplatsen

Många markörer är förknippade med flera namn, och det är ofta tråkigt att sortera bland den överflödiga nomenklaturen för ett visst locus. För att välja lämpliga markörnamn skapade vi en algoritm som väljer det lämpligaste markörnamnet från poolen av databas-ID:n som är associerade med varje markör, i enlighet med en förutbestämd hierarki för namnkällor. Bundlar namngavs på ett liknande sätt genom att välja från poolen av markörnamn inom varje bunt.

Dataintegritet

Verifiering av förutspådd markörordning är ett avgörande steg i kartkonstruktionen. De beräkningsmetoder som användes för konstruktionen av RH- och länkningsnivåerna baserades på standardkartläggningsalgoritmer som har visat sig vara tillförlitliga när det gäller korrekt markörordning (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). Vi använde också ett antal interna och externa jämförelser för att bedöma integriteten hos vårt kartläggningsförfarande. För den interna jämförelsen analyserade vi först noggrant skelettkartan för att avgöra om den RH-definierade markörordningen jämfördes gynnsamt med den ordning som förutsägs av den genetiska länkningsanalysen. För RH-ramverket togs dessutom varje markör bort individuellt och kartlades sedan på nytt för att bekräfta lokaliseringen med tillräcklig statistisk säkerhet. Dessutom jämförde vi positionerna för alla markörer som placerats på både länknings- och RH-nivåerna. Vid alla interna jämförelser stämde praktiskt taget alla markörpositioner överens. För extern kontroll jämförde vi våra resultat med resultaten från tidigare publicerade kartor över kromosom 1. Ordningen av våra 289 RH-rammarkörer jämfördes med motsvarande positioner på GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998) och Généthon version 3 GL-kartor (Dib et al. 1996). Noggrannheten hos den cytogenetiska ram som härrör från GDB fastställdes genom jämförelse med en uppsättning av 212 kromosom 1 stora insatskloner som hade kartlagts cytogenetiskt av Sanger Centre som förberedelse för sekvensering. Varje jämförelse visade överensstämmande markörordningar för >90 % av markörerna. Nästan alla avvikelser visade sig vara isolerade, där våra förutsedda markörpositioner vanligtvis gränsar till dem i andra kartor och vanligtvis omfattar markörer med svagt statistiskt stöd för placeringen. Slutligen jämförde vi våra markörordningar med de som förutsetts i tidigare publicerade kartor över 1p35-36 (Jensen et al. 1997) och 1q41-43 (Weith et al. 1995). Överensstämmelsegraden för markörer som kartläggs gemensamt var 94 % med den distala 1p-kartan och 100 % med den distala 1q-kartan. Sammantaget tyder dessa jämförelser starkt på att CompView-metoden är sund och att isolerade variationer i markörernas positioner sannolikt beror på fel vid generering eller inmatning av data snarare än vid kartkonstruktionen.

Kromosom 1-analys

Vissa aspekter av kromosom 1-resultaten analyserades ytterligare. Av de 289 RH-rampositionerna tilldelades 182 (63 %) definitivt till den korta armen. Denna överrepresentation beror sannolikt på det större antalet 1p-specifika RH-markörer i RHdb, vilket i sin tur beror på selektiv inriktning av 1p för STS-generering av Sanger Centre i deras arbete med sekvensering av kromosom 1 (Gregory et al. 1998). RH-avstånd mäts i centiRays, vilket i allmänhet anses vara proportionellt mot det fysiska avståndet (Cox et al. 1990). Uppblåsta RH-kartläggningsavstånd observerades dock inom de centromeriska och intilliggande 1q heterokromatiska regionerna (RH-rampositionerD1S2696-D1S3356; genomsnittligt avstånd 27,5 cR jämfört med 12,7 cR för hela ramverket; P < 0,001), vilket stämmer överens med tidigare observationer för centromeriska regioner (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Flera ytterligare regioner med lågt avstånd mellan rammarkörer/centiRay observerades, framför allt i 1p35 och 1q43 (Fig. 1). Dessa regioner kan utgöra lokala områden med dålig markörtäckning eller ökad radioresistens, eftersom båda regionerna överlappar mörka cytogenetiska band (se nedan). Även om en telomerspecifik STS ännu inte finns tillgänglig för 1p, finns en nyligen identifierad 1q-specifik markör (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) i vår RH-nivå, och dess kartintervall omfattar 1q-telomeren. Det kommer att vara viktigt att förankra framtida RH-kartor med telomeriska markörer när de blir tillgängliga.

Lätta cytogenetiska band med Giemsa-färgning anses i allmänhet vara transkriptrika (Bernardi 1989). För att avgöra om denna princip gäller för kromosom 1 beräknade vi antalet transkript som hade tilldelats specifikt till ljusa och mörka band på vår cytogenetiska nivå. Av 1883 transkript som mappades till ett enda band tilldelades 1663 (88,3 %) ljusa band (tabell 3). Efter att ha tagit hänsyn till den relativa storleken på varje band, som tidigare bestämts genom fraktionslängdsmätningar (Francke och Oliver 1978), visade sig ljusa band i genomsnitt ha 1,7 gånger större sannolikhet att innehålla ett transkript än mörka band av motsvarande storlek, med det ljusa bandet 1q21 som det mest transkriptrika. Det fanns dock flera anmärkningsvärda undantag från den allmänna trenden, bland annat hög transkripttäthet för det mörka bandet 1p31 och låg täthet för de ljusa banden 1p32, 1p22, 1q23, 1q31 och 1q42.

Visa den här tabellen:

  • I det här fönstret
  • I ett nytt fönster

Tabell 3.

Cytogenetisk band/markörjämförelse

Lämna en kommentar