En omfattende oversigt over det menneskelige kromosom 1

RESULTATER

Rationale og CompView-konstruktion

En betydelig mængde genomiske data er blevet deponeret i flere databaser, herunder strålehybridbaserede kortlægningsdata (RHdb) (Lijnzaad et al. 1998), genotypedata for polymorfe markører (CEPHdb) (Dausset et al. 1990) og EST-sekvens- og klyngedata, der repræsenterer formodede unikke transkripter (UniGene) (Boguski og Schuler 1995). Disse datasæt blev anvendt som grundlag for vores kortopsætning ved hjælp af vores CompView-procedure. Alene antallet af tilgængelige markører overstiger langt de beregningsbaserede kortkonstruktionsmetoder, der er i stand til at ordne mere end en lille procentdel af markørerne med høj grad af sikkerhed. Derfor fastlagde vi rækkefølgen med høj sikkerhed for en delmængde (ramme) af markører og placerede resten af markørerne i forhold til denne ramme. CompView anvender en iterativ proces (dynamisk indramning) til sekventielt at tilføje markører til en etableret ramme og derved maksimere antallet af rammemarkeringer og den samlede kortopløsning.

Vi valgte sættet af PCR-formaterede markører, der blev scoret på Genebridge4 (GB4) strålehybrid (RH)-panelet (Gyapay et al. 1996) som udgangspunkt for CompView, da dette er det største homogene datasæt af humane genomiske markører, der er offentligt tilgængeligt. Rå data fra RHdb og UniGene blev importeret til Compdb, en skræddersyet relationel database, der er udviklet til dette projekt. Alle RHdb-poster, der blev scoret på GB4-panelet og tildelt kromosom 1 (5557 markører), blev analyseret for primer-sekvensidentitet og samlet i 4442 unikke markørsæt. RH-data for sættet af unikke markører blev derefter analyseret med MultiMap, et ekspertsystem til automatiseret konstruktion af RH-kort (Matise et al. 1994).

Et sæt af 62 Généthon-mikrosatellitmarkører, der blev omhyggeligt scoret i GB4-panelet, tjente som et indledende skeletkort under konstruktionen. Skeletmarkørerne blev ordnet med ≥1000:1 parvis odds, og de RH- og genetisk linkage-bestemte ordrer var i fuldstændig overensstemmelse. Hver ikke-skeletal markør blev derefter analyseret i forhold til skeletkortet ved hjælp af MultiMap for at afgøre, om den kunne tilføjes til en unik position på skeletkortet med tilstrækkelig statistisk støtte (≥1000:1). Den endelige ramme bestod af 289 markører, der dækkede de 263 Mb af kromosom 1, hvilket gav en gennemsnitlig opløsning på 910 kb (fig. 1). Sandsynlighedsintervallerne på 1000:1 for alle resterende markører i forhold til rammen blev derefter beregnet. I alt 4220 unikke markører, der repræsenterer 5306 sæt primere, blev tildelt kortpositioner (tabel 1).

Figur 1.

Se større version:

  • I dette vindue
  • I et nyt vindue
  • Download som PowerPoint-slide

Figur 1.

Chromosom 1 RH-ramme. Ramme markører er opført horisontalt fra øverst til venstre til nederst til højre begyndende ved 1p-terminus. Markørerne er placeret i forhold til deres centiRay-positioner. Cytolokaliseringer er angivet i begyndelsen af hver linje. En omtrentlig fysisk skala er vist nederst til højre.

Se denne tabel:

  • I dette vindue
  • I et nyt vindue

Tabel 1.

Kromosom 1 kortlægning sammenfatning

Dataintegration

Af de 289 markører på RH-rammen var 111 polymorfe og var blevet genotypet i Centre d’Etude du Polymorphisme Humain (CEPH) reference stamtavler (Dausset et al. 1990). I en proces analog med opbygningen af RH-rammen blev disse 111 markører brugt som et skeletkort til at opbygge en genetisk linkage-ramme (GL). Alle kromosom 1-tildelte polymorfismer fra CEPHdb v8.1-genotypedatabasen blev anvendt som datasæt af polymorfe markører. Den resulterende GL-ramme omfattede 160 markører, der var ordnet med ≥1000:1 odds, hvilket gav en opløsning på 2,0 cM og 1,6 Mb (tabel 1). Yderligere 628 polymorfe markører, herunder almindeligt anvendte tetranukleotid- og intragene polymorfismer, som ofte er udelukket fra kort over hele genomet, blev derefter placeret i 1000:1-sandsynlighedsintervaller i forhold til rammen. Vi inkluderede også 239 kromosom 1-specifikke enkeltnukleotidpolymorfismer (SNP’er), som var blevet scoret i GB4 (Wang et al. 1998). Samlet set var der i GL- og RH-niveauet i alt 5008 unikke markørplaceringer med en gennemsnitlig markørtæthed på 52 kb (tabel 1).

Dernæst integrerede vi RH-niveauet, som i vid udstrækning består af markører, der repræsenterer transskriberede sekvenser, med UniGene EST-sekvensklyngerne (Boguski og Schuler 1995). Klynger og kortlagte RH-markører, der deler en identisk EST-sekvens, blev associeret sammen. Samlet set repræsenterede 3543 af de 4220 RH-markører (84 %) transkriptioner, og 2795 (79 %) af disse transkriptioner var associeret med i alt 1830 EST-klynger (tabel 1).

Fysiske kortlægningsdata blev integreret ved at identificere markører, for hvilke der er blevet identificeret positive PAC-, BAC- eller YAC-kloner. Vi bestemte, om hver kortlagt markør var indeholdt i en eller flere BAC- eller PAC-kloner, der var identificeret til kromosom 1-sekventering af Sanger Centre (Gregory et al. 1998), og 6167 BAC/PAC-kloner, der repræsenterer 1199 kromosom 1-markører, blev integreret (Tabel 1). YAC-kloner, der indeholder mange af de kortlagte markører, er blevet isoleret af Whitehead Institute Center for Genome Research (WICGR) (Hudson et al. 1995). Der blev i alt tilføjet 1930 YAC’er på kromosom 1, som tilsammen repræsenterer 2275 markører på kortet. Antallet af markører, der findes og overlapper mellem RH-, GL- og fysiske niveauer, fremgår af Venn-diagrammet i figur 2.

Figur 2.

Se en større version:

  • I dette vindue
  • I et nyt vindue
  • Download som PowerPoint-slide

Figur 2.

Venn-diagram over markørundertyper. Diagrammet viser fordelingen af markører mellem og blandt RH-, GL- og fysiske niveauer. RH- og GL-markersættene er defineret af alle RH- og GL-markører, der er tildelt kortpositioner i CompView (henholdsvis n = 4220 og n = 788). Det fysiske markørsæt er defineret ved antallet af unikke markører med tilknyttede WICGR YAC’er og/eller Sanger PAC/BAC’er (n = 2480), hvoraf en delmængde (n = 1742) er lokaliseret i CompView.

For at inkludere cytogenetiske positionsoplysninger brugte vi Genome Database (GDB) (Letovsky et al. 1998) til at identificere et sæt af 110 RH tier-markører, der var blevet cytogenetisk lokaliseret til et specifikt kromosom 1-bånd. Ved hjælp af disse lokaliseringer som en cytogenetisk ramme blev de udledte cytolokaliseringer derefter beregnet for alle resterende GL- og RH-markører. Et enkelt kromosombånd kunne tildeles for 54 % (2686) af de cytolokaliserede markører; resten af markørerne fik tildelt et cytogenetisk båndinterval.

Repræsentation af større genomiske strukturer kræver en mekanisme til at identificere redundante og delvist redundante elementer. Da RH-baserede kortpositioner bestemmes ved amplifikation af korte DNA-segmenter, kan de repræsenteres som særskilte genomiske punkter. Funktionelle genomiske elementer er imidlertid ofte mere subjektivt definerede. Et enkelt gen kan således være repræsenteret af flere markører fordelt over et stort genomisk område, hvor hver markør svarer til en bestemt kortposition. Integrationen kompliceres også af markørnomenklaturen, således at der ofte tildeles flere navne til det samme genomiske element. For at skabe klarhed har vi beregnet både den præcise lokalisering af hver enkelt markør og konsensuspositionen for en gruppe af indbyrdes forbundne markører, kaldet et bundt.

En kumulativ liste over databaseidentifikatorer (ID’er) blev kompileret fra alle markører i Compdb. Markører, der fandtes at dele ID’er (som i det væsentlige deler et identisk navn, sekvens eller EST-klynge), blev grupperet i bundter, der formodentlig repræsenterede transskriptioner eller andre funktionelle genomiske elementer. Hver bundt kortposition blev defineret ud fra kortpositionerne for de individuelle markører, der udgør bundtet. Antag f.eks. at bundt X indeholder tre markører med intervalpositioner, der spænder over henholdsvis rammemarkører 1-4, 2-5 og 3-6. Bundle X ville så blive repræsenteret med en maksimal position på 1-6 og en minimal, mest sandsynlig kortposition på 3-4. Visse bundter indeholdt markører med ikke-overlappende kortpositioner, hvilket indikerer mulige fejl i RH-scoring, EST-klyngeopbygning eller identifikatormærkning. I disse tilfælde blev bundterne opdelt i delmængder af markører med overlappende kortpositioner. Treogfyrre procent (1796) af markørerne kunne samles i 719 bundter, og minimumskortpositioner blev defineret for 89 % af bundterne. For bundter med definerede minimale kortintervaller var den gennemsnitlige størrelse af minimumsintervallet 1,4 Mb, mens det gennemsnitlige maksimale interval strakte sig over 5,2 Mb. Dette tyder på, at bundlingsproceduren kan indsnævre den mest sandsynlige placering af mange transskriptioner betydeligt ved at knytte kortpositioner af tilsvarende markører sammen. De resterende 76 bundter (11 %) indeholdt markører med ikke-overlappende kortpositioner, og denne procentdel er i vid udstrækning udtryk for den kumulative fejlprocent i RHdb- og UniGene-datasættene. Disse ikkeoverlappende bundter er i øjeblikket ved at blive vurderet med henblik på at finde kilden og årsagen til de modstridende kortpositioner.

Datapræsentation

Med henblik på datapræsentation har vi udviklet et CompView-internetsted (http://genome.chop.edu), som giver grafiske og tekstbaserede grænseflader. Hele kromosomet (eller underafsnit, der er defineret af markørnavne eller cytogenetiske bånd) kan vises grafisk og tilpasses ved hjælp af den interaktive Java-applet Mapview (Fig.3) (Letovsky et al. 1998) (Letovsky et al. 1998). Oplysninger for individuelle markører omfatter primersekvenser og RH-scores, database-id’er, EST-klyngetildelinger, afledte cytogenetiske positioner og tilknyttede store indsatskloner (Fig. 4). For at supplere de genomiske data, der præsenteres i CompView, er der også hypertekstlinks til eksterne databaser. I øjeblikket er der direkte links til 28 internetbaserede databaser, med specifikke markøroplysninger til rådighed for 19 databaser (tabel 2). Disse omfatter links til markør- eller sekvensrepositorier som f.eks. dbSTS, dbEST, GenBank, UniGene, RHdb og GDB; links til individuelle laboratorie- eller genomcentermarkørdatabaser; realtidsforespørgsler på store indsatte klon-screeningsprojekter; sekvenshomologisøgninger ved hjælp af BLAST; og søgemaskineforespørgsler ved hjælp af OMIM, BioHunt og GeneCards (fig. 4). De individuelle markørregistreringer, der præsenteres i CompView, tjener således som en dataportal til en bredere vifte af genomiske, sekvensmæssige og funktionelle data, der er tilgængelige på andre steder.

Figur 3.

Se større version:

  • I dette vindue
  • I et nyt vindue
  • Download som PowerPoint-slide

Figur 3.

CompView webgrænsefladeeksempler. (A) Indtastningsskærm til søgning efter et område af kromosomet. Regioner kan defineres ved to flankerende markører (til venstre), ved at klikke på et cytogenetisk bånd fra et kromosomideogram (til højre) eller ved at vælge et eller et interval af cytogenetiske bånd (ikke vist). Der vises et forespørgselsinput for regionen mellem D1S468 og D1S214. (B) Tabulær tilbagevenden for forespørgslen D1S468 til D1S214 fraA. Markørtype, transkriptionel status, RH-interval, RH-kortposition og cytolokalisering vises for hver markør, med et hyperlink til mere fuldstændige oplysninger for hver markør. Attop er vist det samlede antal af hver type markør, der er fundet. Ved at klikke på “map of region”-knappen øverst til højre fås C. (C) Grafisk gengivelse af forespørgslenD1S468 til D1S214 set med Mapview. I dette eksempel er kun RH-rammen (til venstre) og en del af RH-markørernes niveau (til højre) synlige. CentiRay-afstande fra 1pter er vist til højre for rammen. RH-markører med mellemrum er indrammet af en lodret linje, der angiver deres 1000:1-sandsynlighedspositioner i forhold til RH-rammen. De markører, der anvendes til forespørgsler, er fremhævet på rammen, ligesom RH-markøren forGNB1; ved at klikke på GNB1 fås den markørpost, der er vist i fig. 4.

Figur 4.

Se større version:

  • I dette vindue
  • I et nyt vindue
  • Download som PowerPoint-slide

Figur 4.

Eksempel på en markeringspost. Vist er den individuelle post for genGNB1. Understreget tekst angiver et hypertekstlink. I dette eksempel er der eksterne databaselinks til dbEST (se tabel 2-legenden for forkortelser), GDB, Sanger, GenBank, UniGene og RHdb-posterne for denne markør; for at foretage en BLAST-søgning i de ikke-redundante (GenBank), EST (EST) og højtydende genomiske sekvenser (HTGS) samlinger i GenBank; at søge i GeneCards, OMIM og BioHunt efter “GNB1”, og at søge i Sanger Centre chromosome 1 mapping database Acedb1 efter BAC’er og PAC’er med GNB1-primersekvenser. Knapperne “MAP OF GNB1” og “GNB1 REGION” giver en grafisk afbildning af regionen omkring GNB1 analogt med fig. 3 og en tabeloversigt over alle markører, der kortlægges til denne region analogt med fig. 3 B. Navnene på de datakategorier, der er anført til venstre (f.eks. “Expression status”), er hyperlinks til hjælpesider, der beskriver kategorien.

Se denne tabel:

  • I dette vindue
  • I et nyt vindue

Tabel 2.

Link til eksterne databaser på CompView-webstedet

Mange markører er forbundet med flere navne, og det er ofte kedeligt at sortere i den overflødige nomenklatur for et givet locus. For at vælge passende markørnavne skabte vi en algoritme, der vælger det mest passende markørnavn fra puljen af database-id’er, der er knyttet til hver markør, i henhold til et forudbestemt navnekildehierarki. Bundles blev navngivet på en lignende måde ved at vælge fra puljen af markørnavne inden for hvert bundle.

Dataintegritet

Verifikation af den forudsagte markørrækkefølge er et afgørende skridt i kortkonstruktionen. De beregningsmetoder, der blev anvendt til konstruktion af RH- og linkage-niveauerne, var baseret på standardkortlægningsalgoritmer, der har vist sig at være pålidelige med hensyn til nøjagtig markørordnering (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). Vi anvendte også en række interne og eksterne sammenligninger for at vurdere integriteten af vores kortlægningsprocedure. Ved intern sammenligning analyserede vi først omhyggeligt skeletkortet for at afgøre, om den RH-definerede markørrækkefølge sammenlignede positivt med den rækkefølge, der blev forudsagt ved genetisk linkageanalyse. Også for RH-rammen blev hver markør fjernet individuelt og derefter genkortet for at bekræfte lokaliseringen med tilstrækkelig statistisk sikkerhed. Desuden sammenlignede vi positionerne for alle markører placeret på både linkage- og RH-niveauet. For alle interne sammenligninger var stort set alle markørpositioner i overensstemmelse med hinanden. Til ekstern verifikation sammenlignede vi vores resultater med resultaterne af tidligere offentliggjorte kromosom 1-kort. Rækkefølgen af vores 289 RH-rammemarkører blev sammenlignet med de tilsvarende positioner på GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998) og Généthon version 3 GL-kortene (Dib et al. 1996). Nøjagtigheden af den GDB-afledte cytogenetiske ramme blev fastlagt ved sammenligning med et sæt af 212 kromosom 1 store indsatte kloner, som var blevet cytogenetisk kortlagt af Sanger Centre som forberedelse til sekventering. Hver sammenligning viste samstemmende markørordner for >90% af markørerne. Næsten alle uoverensstemmelser viste sig at være isolerede, idet vores forudsagte markørpositioner normalt støder op til positioner i andre kort og normalt omfatter markører med svag statistisk støtte for placering. Endelig sammenlignede vi vores markørordner med dem, der er forudsagt af tidligere offentliggjorte kort over 1p35-36 (Jensen et al. 1997) og 1q41-43 (Weith et al. 1995). Overensstemmelsesprocenterne for markører, der var kortlagt i fællesskab, var 94 % med det distale 1p-kort og 100 % med det distale 1q-kort. Samlet set tyder disse sammenligninger stærkt på, at CompView-metoden er sund, og at isolerede variationer i markørpositioner højst sandsynligt skyldes fejl i datagenerering eller indtastning af data snarere end i kortkonstruktionen.

Kromosom 1-analyse

Der blev foretaget yderligere analyser af flere aspekter af kromosom 1-resultaterne. Af de 289 RH-rammepositioner blev 182 (63 %) endeligt henført til den korte arm. Denne overrepræsentation skyldes sandsynligvis det større antal 1p-specifikke RH-markører i RHdb, hvilket igen skyldes selektiv målretning af 1p til STS-generering af Sanger-centret i deres bestræbelser på sekventering af kromosom 1 (Gregory et al. 1998). RH-afstande er målt i centiRays, som generelt anses for at være proportionale med den fysiske afstand (Cox et al. 1990). Der blev imidlertid observeret opblæste RH-kortafstande inden for de centromeriske og tilstødende 1q heterokromatiske regioner (RH-rammepositionerD1S2696-D1S3356; gennemsnitlig afstand 27,5 cR vs. 12,7 cR for hele rammen; P < 0,001), hvilket er i overensstemmelse med tidligere observationer for centromeriske regioner (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Der blev observeret flere yderligere regioner med lav ramme-markør/centiRay-afstand, især i 1p35 og 1q43 (Fig. 1). Disse regioner kan repræsentere lokale områder med dårlig markørdækning eller øget radioresistens, da begge regioner overlapper mørke cytogenetiske bånd (se nedenfor). Selv om der endnu ikke findes en telomer-specifik STS for 1p, er en for nylig identificeret 1q-specifik markør (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) til stede i vores RH-niveau, og dens kortinterval omfatter 1q-telomeren. Det vil være vigtigt at forankre fremtidige RH-kort med telomeriske markører, efterhånden som de bliver tilgængelige.

Lyse Giemsa-farvede cytogenetiske bånd anses generelt for at være transkriptrige (Bernardi 1989). For at afgøre, om dette princip gælder for kromosom 1, beregnede vi antallet af transkripter, der var blevet tildelt specifikt til lyse og mørke bånd på vores cytogenetiske niveau. Af 1883 transkripter, der blev kortlagt til et enkelt bånd, blev 1663 (88,3 %) tildelt lyse bånd (tabel 3). Efter at der var taget hensyn til den relative størrelse af hvert bånd, som tidligere bestemt ved fraktionslængdemålinger (Francke og Oliver 1978), blev det konstateret, at lyse bånd i gennemsnit havde 1,7 gange større sandsynlighed for at indeholde et transkript end mørke bånd af tilsvarende størrelse, idet det lyse bånd 1q21 var det mest transkriptrige. Der var imidlertid flere bemærkelsesværdige undtagelser fra den generelle tendens, herunder høj transkripttæthed for det mørke bånd 1p31 og lave tætheder for de lyse bånd 1p32, 1p22, 1q23, 1q31 og 1q42.

Se denne tabel:

  • I dette vindue
  • I et nyt vindue

Tabel 3.

Sammenligning af cytogenetiske bånd/markører

Skriv en kommentar