A Comprehensive View of Human Chromosome 1

RESULTS

Rationale and CompView Construction

Een aanzienlijke hoeveelheid genomische gegevens is gedeponeerd in verschillende databases, waaronder gegevens over op stralingshybriden gebaseerde kartering (RHdb) (Lijnzaad et al. 1998), genotyperingsgegevens van polymorfe markers (CEPHdb) (Dausset et al. 1990), en EST-sequentie- en clustergegevens die vermoedelijke unieke transcripten vertegenwoordigen (UniGene) (Boguski en Schuler 1995). Deze datasets werden gebruikt als basis voor onze kaartassemblage, met behulp van onze CompView procedure. Het grote aantal beschikbare markers overtreft ruimschoots het vermogen van computationele kaartconstructiemethoden om meer dan een klein percentage van de markers met hoge betrouwbaarheid te ordenen. Daarom hebben wij de volgorde met hoge betrouwbaarheid van een subset (raamwerk) van markers bepaald en de rest van de markers ten opzichte van dit raamwerk gepositioneerd. CompView gebruikt een iteratief proces (dynamisch kader) om markers achtereenvolgens aan een vastgesteld kader toe te voegen, waardoor het aantal kadermarkers en de totale kaartresolutie worden gemaximaliseerd.

We kozen de set van PCR-geformateerde markers die gescoord werden op het Genebridge4 (GB4) radiation hybrid (RH) panel (Gyapay et al. 1996) als startpunt voor CompView, omdat dit de grootste homogene dataset van menselijke genomische markers is die publiekelijk beschikbaar is. Ruwe gegevens van RHdb en UniGene werden geïmporteerd in Compdb, een aangepaste relationele database ontwikkeld voor dit project. Alle RHdb entries die gescoord werden op het GB4 panel en toegewezen werden aan chromosoom 1 (5557 merkers) werden geanalyseerd op primer sequentie identiteit en geassembleerd in 4442 unieke merker sets. RH-gegevens voor de set unieke markers werden vervolgens geanalyseerd met MultiMap, een expertsysteem voor geautomatiseerde RH-kaartconstructie (Matise et al. 1994).

Een set van 62 Généthon microsatelliet markers die zorgvuldig gescoord waren in het GB4 panel dienden als een initiële skeletkaart tijdens de constructie. De skeletmarkers waren geordend met ≥1000:1 paarsgewijze kansen, en de RH- en genetische linkage-bepaalde orden waren volledig in overeenstemming. Elke niet-skeletale marker werd vervolgens geanalyseerd tegen de skeletkaart met MultiMap om te bepalen of het kon worden toegevoegd aan een unieke positie op de skeletkaart met voldoende statistische ondersteuning (≥1000:1). Het uiteindelijke raamwerk bestond uit 289 markers die de 263 Mb van chromosoom 1 bestreken, wat een gemiddelde resolutie van 910 kb opleverde (Fig. 1). De 1000:1 waarschijnlijkheidsintervallen van alle resterende markers, ten opzichte van het raamwerk, werden vervolgens berekend. In totaal werden aan 4220 unieke merkers, die 5306 sets primers vertegenwoordigen, kaartposities toegekend (Tabel 1).

Figuur 1.

Grotere versie bekijken:

  • In dit venster
  • In een nieuw venster
  • Download als PowerPoint Slide
Figuur 1.

Chromosoom 1 RH raamwerk. De markers zijn horizontaal gerangschikt van linksboven naar rechtsonder, beginnend bij het eindpunt van 1p. De afstand tussen de merkers is evenredig met hun centiRay-posities. Cytolocaties zijn aangegeven aan het begin van elke regel. Een benaderende fysieke schaal wordt rechtsonder weergegeven.

Bekijk deze tabel:

  • In dit venster
  • In een nieuw venster

Tabel 1.

Samenvatting van de kartering van chromosoom 1

Integratie van gegevens

Van de 289 merkers in het RH raamwerk waren er 111 polymorf en gegenotypeerd in de referentie stambomen van het Centre d’Etude du Polymorphisme Humain (CEPH) (Dausset et al. 1990). In een proces analoog aan de bouw van het RH raamwerk, werden deze 111 markers gebruikt als een skeletkaart om een genetisch linkage (GL) raamwerk te construeren. Alle aan chromosoom 1 toegewezen polymorfismen uit de CEPHdb v8.1 genotype-database werden gebruikt als de verzameling polymorfe markergegevens. Het resulterende GL raamwerk omvatte 160 markers gerangschikt met ≥1000:1 kansen, wat resoluties opleverde van 2.0 cM en 1.6 Mb (Tabel 1). Een extra 628 polymorfe markers, waaronder veelgebruikte tetranucleotide en intragenic polymorfismen die vaak worden uitgesloten van hele-genoom kaarten, werden vervolgens geplaatst in 1000:1 waarschijnlijkheid intervallen ten opzichte van het kader. We namen ook 239 chromosoom 1-specifieke enkel-nucleotide polymorfismen (SNPs) op die in GB4 waren gescoord (Wang et al. 1998). In totaal werden in de GL en RH niveaus 5008 unieke markers geplaatst, met een gemiddelde markerdichtheid van 52 kb (tabel 1).

Daarna integreerden we de RH-laag, die grotendeels bestaat uit markers die getranscribeerde sequenties vertegenwoordigen, met de UniGene EST-sequentieclusters (Boguski en Schuler 1995). Clusters en in kaart gebrachte RH markers die een identieke EST sequentie deelden werden samen geassocieerd. In totaal vertegenwoordigden 3543 van de 4220 RH-markers (84%) transcripten, en 2795 (79%) van deze transcripten waren geassocieerd met een totaal van 1830 EST-clusters (Tabel 1).

Physische karteringsgegevens werden geïntegreerd door markers te identificeren waarvoor positieve PAC-, BAC- of YAC-klonen waren geïdentificeerd. We bepaalden of elke gekarteerde marker in een of meer BAC- of PAC-klonen voor chromosoom-1-sequencing door het Sanger Centre (Gregory et al. 1998) voorkwam, en 6167 BAC/PAC-klonen die 1199 chromosoom-1-markers vertegenwoordigden, werden geïntegreerd (tabel 1). YAC-klonen die veel van de in kaart gebrachte markers bevatten, zijn geïsoleerd door het Whitehead Institute Center for Genome Research (WICGR) (Hudson et al. 1995). In totaal werden 1930 YAC’s op chromosoom 1 toegevoegd, die samen 2275 markers op de kaart vertegenwoordigen. Het aantal aanwezige en overlappende markers tussen de RH, GL en fysieke niveaus wordt aangetoond door het Venn-diagram in figuur 2.

Figuur 2.

Grotere versie bekijken:

  • In dit venster
  • In een nieuw venster
  • Downloaden als PowerPoint Slide
Figuur 2.

Venn-diagram van markersubtypen. Het diagram toont de verdeling van markers over en tussen de RH-, GL- en fysieke niveaus. De RH- en GL-markersets worden gedefinieerd door alle RH- en GL-markers waaraan in CompView kaartposities zijn toegewezen (respectievelijk n = 4220 en n = 788). De fysieke markerset wordt gedefinieerd door het aantal unieke markers met bijbehorende WICGR YAC’s en/of Sanger PAC/BAC’s (n = 2480), waarvan een deelverzameling (n = 1742) in CompView gelokaliseerd is.

Om cytogenetische positie-informatie op te nemen, gebruikten we de Genome Database (GDB) (Letovsky et al. 1998) om een set van 110 RH tier markers te identificeren die cytogenetisch gelokaliseerd waren op een specifieke chromosoom 1 band. Met behulp van deze lokalisaties als een cytogenetisch kader, werden vervolgens afgeleide cytolocaties berekend voor alle resterende GL en RH markers. Aan 54% (2686) van de gecytolokaliseerde merkers kon één enkele chromosoomband worden toegewezen; aan de overige merkers werd een cytogenetische bandbreedte toegewezen.

Representatie van grotere genomische structuren vereist een mechanisme om overbodige en gedeeltelijk overbodige elementen te identificeren. Aangezien kaartposities op basis van RH worden bepaald door de amplificatie van korte DNA-segmenten, kunnen ze worden weergegeven als afzonderlijke genomische punten. Functionele genomische elementen zijn echter vaak subjectiever gedefinieerd. Zo kan één enkel gen worden vertegenwoordigd door meerdere merkers die over een grote genomische regio zijn verspreid, waarbij elke merker met een afzonderlijke kaartpositie overeenkomt. De integratie wordt ook bemoeilijkt door de nomenclatuur van de merkers, zodat vaak meerdere namen aan hetzelfde genomische element worden toegekend. Voor de duidelijkheid hebben wij zowel de precieze lokalisatie van elke afzonderlijke marker berekend als de consensuspositie van een groep onderling verwante markers, die een bundel worden genoemd.

Een cumulatieve lijst van database-identifiers (ID’s) werd samengesteld uit alle markers in Compdb. Markers waarvan werd vastgesteld dat ze ID’s deelden (in wezen een identieke naam, sequentie of EST cluster deelden) werden in bundels gegroepeerd die vermoedelijk transcripten of andere functionele genomische elementen vertegenwoordigden. Elke bundel-kaartpositie werd gedefinieerd uit de kaartposities van de individuele markers waaruit de bundel bestond. Stel bijvoorbeeld dat bundel X drie markers bevat met intervalposities die respectievelijk kadermarkers 1-4, 2-5, en 3-6 omspannen. Bundel X zou dan worden weergegeven met een maximale positie van 1-6 en een minimale, meest waarschijnlijke kaartpositie van 3-4. Bepaalde bundels bevatten markers met niet-overlappende kaartposities, wat wijst op mogelijke fouten in RH-scores, EST-clusteropbouw of identificatie-labeling. In deze gevallen werden de bundels opgesplitst in subsets van markers met overlappende kaartposities. Drieënveertig procent (1796) van de markers kon tot 719 bundels worden samengevoegd, en voor 89% van de bundels werden minimale kaartposities bepaald. Voor bundels met gedefinieerde minimale kaartintervallen was de gemiddelde grootte van het minimale interval 1,4 Mb, terwijl het gemiddelde maximale interval 5,2 Mb besloeg. Dit geeft aan dat de bundelingsprocedure de meest waarschijnlijke locatie van veel transcripten aanzienlijk kan beperken door kaartposities van equivalente markers te associëren. De resterende 76 bundels (11%) bevatten markers met niet-overlappende kaartposities, en dit percentage is grotendeels indicatief voor het cumulatieve foutenpercentage binnen de RHdb en UniGene datasets. Deze niet-overlappende bundels worden momenteel beoordeeld op de bron en reden van de conflicterende kaartposities.

Datapresentatie

Voor de presentatie van de gegevens hebben wij een CompView-internetsite ontwikkeld (http://genome.chop.edu) die grafische en op tekst gebaseerde interfaces biedt. Het hele chromosoom (of subsecties die door markernamen of cytogenetische banden worden gedefinieerd) kan grafisch worden bekeken en aangepast met behulp van de interactieve Java applet Mapview (Fig.3) (Letovsky et al. 1998). Informatie voor individuele merkers omvat primer sequenties en RH scores, database ID’s, EST clustertoewijzingen, afgeleide cytogenetische posities, en geassocieerde grote-insert klonen (Fig. 4). Om de in CompView gepresenteerde genomische gegevens aan te vullen, worden ook hypertext links naar externe databanken aangeboden. Momenteel zijn er directe links naar 28 internet-gebaseerde databases, met specifieke markerinformatie beschikbaar voor 19 databases (tabel 2). Deze omvatten links naar marker of sequentie repositories zoals dbSTS, dbEST, GenBank, UniGene, RHdb, en GDB; links naar individuele laboratorium of genoom centrum marker databases; real-time queries van grote-insert kloon screening projecten; sequentie homologie zoekopdrachten met behulp van BLAST; en zoekmachine queries met behulp van OMIM, BioHunt, en GeneCards (Fig. 4). De individuele markerrecords die in CompView worden gepresenteerd, dienen dus als een dataportaal naar een breder scala van genomische, sequentie- en functionele gegevens die op andere sites beschikbaar zijn.

Figuur 3.

Grotere versie bekijken:

  • In dit venster
  • In een nieuw venster
  • Downloaden als PowerPoint Slide
Figuur 3.

CompView Web interface voorbeelden. (A) Invoerscherm om naar een regio van het chromosoom te zoeken. Regio’s kunnen worden gedefinieerd door twee flankerende markers (links), door te klikken op een cytogenetische band van een chromosoomideogram (rechts), of door één of een reeks cytogenetische banden te selecteren (niet afgebeeld). Een query input voor de regio tussen D1S468 en D1S214 wordt weergegeven. (B) Tabellarische weergave voor de query D1S468 tot D1S214 vanA. Het markertype, de transcriptionele status, het RH-interval, de RH-kaartpositie en de cytolocatie worden voor elke marker getoond, met een hyperlink naar meer volledige informatie die voor elke marker wordt gegeven. Attop wordt het totale aantal van elk type gevonden marker getoond. Klikken op de knop “kaart van regio” rechtsboven levert C op. (C) Grafische weergave van de queryD1S468 tot D1S214 bekeken met Mapview. In dit voorbeeld zijn alleen het RH kader (links) en een deel van de RH markers’ tier (rechts) zichtbaar. CentiRay afstanden van 1pter worden rechts van het raamwerk getoond. Onderbroken RH markers worden voorafgegaan door een verticale lijn die hun 1000:1 waarschijnlijkheidsposities aangeeft ten opzichte van het RH raamwerk. De markers die voor bevraging worden gebruikt zijn op het raamwerk gemarkeerd, evenals de RH marker voorGNB1; klikken op GNB1 levert het markerrecord op dat in fig. 4 wordt getoond.

Figuur 4.

Grotere versie bekijken:

  • In dit venster
  • In een nieuw venster
  • Downloaden als PowerPoint Slide

Figuur 4.

Marker record voorbeeld. Afgebeeld is het individuele record voor genGNB1. Onderstreepte tekst geeft een hypertext link aan. Externe database links zijn in dit voorbeeld aanwezig naar dbEST (zie Tabel 2 legenda voor afkortingen), GDB, Sanger, GenBank, UniGene, en RHdb entries voor deze marker; om een BLAST-zoekopdracht uit te voeren van de niet-redundante (GenBank), EST (EST), en high-throughput genomic sequence (HTGS) collecties in GenBank; zoeken op GeneCards, OMIM en BioHunt naar “GNB1”; en zoeken in de Sanger Centre chromosome 1 mapping database Acedb1 naar BACs en PACs met de GNB1 primer sequenties. De knoppen “KAART VAN GNB1” en “GNB1 REGIO” geven een grafische voorstelling van de regio rond GNB1, respectievelijk analoog aan fig. 3. Een samenvatting in tabelvorm van alle markers die aan deze regio zijn toegewezen, analoog aan fig. 3 B. De namen van de gegevenscategorieën links (zoals “Expression status”) zijn hyperlinks naar hulppagina’s die de categorie beschrijven.

Bekijk deze tabel:

  • In dit venster
  • In een nieuw venster

Tabel 2.

Links naar externe databases in de CompView website

Veel markers zijn geassocieerd met meerdere namen, en het sorteren van de overbodige nomenclatuur voor een bepaalde locus is vaak vervelend. Om geschikte markernamen te selecteren, hebben wij een algoritme gecreëerd dat de meest geschikte markernaam selecteert uit de pool van database-ID’s die met elke marker geassocieerd zijn, volgens een vooraf bepaalde naambronhiërarchie. Bundels kregen op soortgelijke wijze een naam door een selectie te maken uit de pool van markernamen binnen elke bundel.

Integriteit van de gegevens

Verificatie van de volgorde van de voorspelde markers is een cruciale stap in de kaartconstructie. De computationele methoden die zijn gebruikt voor de constructie van de RH- en koppelingslagen waren gebaseerd op standaard karteringsalgoritmen die betrouwbaar zijn gebleken voor nauwkeurige markerordening (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). Wij gebruikten ook een aantal interne en externe vergelijkingen om de integriteit van onze karteringsprocedure te beoordelen. Voor de interne vergelijking hebben we eerst de skeletkaart zorgvuldig geanalyseerd om te bepalen of de RH-gemarkeerde marker volgorde gunstig afweek van de volgorde voorspeld door genetische koppelingsanalyse. Ook werd voor het RH raamwerk elke marker individueel verwijderd en vervolgens opnieuw in kaart gebracht om de lokalisatie met voldoende statistische betrouwbaarheid te bevestigen. Bovendien vergeleken wij de posities van alle markers die zowel op het koppelings- als op het RH-kader waren geplaatst. Voor alle interne vergelijkingen waren vrijwel alle markerposities in overeenstemming. Voor externe verificatie hebben we onze resultaten vergeleken met die van eerder gepubliceerde chromosoom 1 kaarten. De volgorde van onze 289 RH raamwerk markers werd vergeleken met de corresponderende posities op de GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998), en Généthon versie 3 GL kaarten (Dib et al. 1996). De nauwkeurigheid van het uit de GDB afgeleide cytogenetische raamwerk werd bepaald door vergelijking met een set van 212 chromosoom 1 groot-insert klonen die cytogenetisch in kaart waren gebracht door het Sanger Centre als voorbereiding op sequencing. Elke vergelijking toonde concordante markeropdrachten voor >90% van de markers. Bijna alle discrepanties bleken geïsoleerd te zijn, waarbij onze voorspelde markerposities gewoonlijk naast die in andere kaarten lagen en gewoonlijk markers betroffen met zwakke statistische ondersteuning voor plaatsing. Tenslotte vergeleken we onze markervolgorden met die voorspeld door eerder gepubliceerde kaarten van 1p35-36 (Jensen et al. 1997) en 1q41-43 (Weith et al. 1995). Overeenstemmingspercentages voor gemeenschappelijk gekarteerde markers waren 94% met de distale 1p-kaart en 100% met de distale 1q-kaart. Over het geheel genomen suggereren deze vergelijkingen sterk dat de CompView-methode deugdelijk is en dat geïsoleerde variaties van markerposities hoogstwaarschijnlijk te wijten zijn aan fouten bij het genereren of invoeren van gegevens en niet zozeer bij de opbouw van de kaart.

Chromosoom 1-analyse

Verschillende aspecten van de chromosoom 1-resultaten werden verder geanalyseerd. Van de 289 RH kaderposities, werden 182 (63%) definitief toegewezen aan de korte arm. Deze over-representatie is waarschijnlijk te wijten aan het grotere aantal 1p-specifieke RH markers in RHdb, wat op zijn beurt te wijten is aan selectieve targeting van 1p voor STS generatie door het Sanger Centre in hun chromosoom 1 sequencing inspanningen (Gregory et al. 1998). RH afstanden worden gemeten in centiRays, die over het algemeen worden beschouwd als evenredig met de fysieke afstand (Cox et al. 1990). Er werden echter opgeblazen RH kaart-afstanden waargenomen binnen de centromerische en aangrenzende 1q heterochromatische regio’s (RH kader positiesD1S2696-D1S3356; gemiddelde afstand 27.5 cR vs. 12.7 cR voor het gehele kader; P < 0.001), consistent met eerdere waarnemingen voor centromerische regio’s (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Verscheidene bijkomende regio’s met lage kadermerker/centiRay afstand werden waargenomen, het meest in het bijzonder in 1p35 en 1q43 (Fig. 1). Deze regio’s kunnen lokale gebieden van slechte markerdekking of verhoogde radioresistentie vertegenwoordigen, aangezien beide regio’s donkere cytogenetische banden overlappen (zie hieronder). Hoewel een telomeer-specifieke STS nog niet beschikbaar is voor 1p, is een recent geïdentificeerde 1q-specifieke marker (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) aanwezig in onze RH tier, en zijn kaartinterval omvat het 1q telomeer. Het zal belangrijk zijn om toekomstige RH kaarten te verankeren met telomerische markers als deze beschikbaar komen.

Lichte Giemsa-kleuring cytogenetische banden worden over het algemeen beschouwd als transcript rijk (Bernardi 1989). Om te bepalen of dit principe geldt voor chromosoom 1, berekenden we het aantal transcripten dat specifiek was toegewezen aan lichte en donkere banden op onze cytogenetische tier. Van 1883 transcripten in kaart brengen van een enkele band, werden 1663 (88,3%) toegewezen aan lichte banden (tabel 3). Na rekening te hebben gehouden met de relatieve grootte van elke band, zoals eerder bepaald door fractionele lengtemetingen (Francke en Oliver 1978), bleken lichte banden gemiddeld 1,7 maal meer kans te hebben een transcript te bevatten dan donkere banden van gelijke grootte, waarbij de lichte band 1q21 het rijkst was aan transcripten. Er waren echter verschillende opmerkelijke uitzonderingen op de algemene trend, waaronder een hoge transcriptdichtheid voor de donkere band 1p31 en een lage dichtheid voor de lichte banden 1p32, 1p22, 1q23, 1q31, en 1q42.

Bekijk deze tabel:

  • In dit venster
  • In een nieuw venster
Tabel 3.

Cytogenetische Band/Marker Vergelijking

Plaats een reactie