RESULTS
Rationale und Aufbau von CompView
Eine beträchtliche Menge an genomischen Daten wurde in mehreren Datenbanken hinterlegt, darunter radiohybridbasierte Kartierungsdaten (RHdb) (Lijnzaad et al. 1998), Genotypisierungsdaten polymorpher Marker (CEPHdb) (Dausset et al. 1990) und EST-Sequenz- und Clusterdaten, die mutmaßlich einzigartige Transkripte darstellen (UniGene) (Boguski und Schuler 1995). Diese Datensätze dienten als Grundlage für die Zusammenstellung der Karte mit Hilfe unseres CompView-Verfahrens. Die schiere Anzahl der verfügbaren Marker übersteigt bei weitem die Fähigkeit rechnergestützter Kartenerstellungsmethoden, mehr als einen kleinen Prozentsatz der Marker mit hoher Sicherheit zuzuordnen. Daher haben wir die Reihenfolge einer Teilmenge (Rahmen) von Markern mit hohem Vertrauen bestimmt und die restlichen Marker relativ zu diesem Rahmen positioniert. CompView verwendet einen iterativen Prozess (dynamisches Framing), um einem festgelegten Rahmen nach und nach Marker hinzuzufügen und so die Anzahl der Rahmenmarker und die Gesamtauflösung der Karte zu maximieren.
Als Ausgangspunkt für CompView wählten wir den Satz PCR-formatierter Marker, die auf dem Genebridge4 (GB4) Radiation Hybrid (RH) Panel (Gyapay et al. 1996) ausgewertet wurden, da dies der größte öffentlich verfügbare homogene Datensatz menschlicher genomischer Marker ist. Die Rohdaten aus RHdb und UniGene wurden in Compdb importiert, eine speziell für dieses Projekt entwickelte relationale Datenbank. Alle RHdb-Einträge, die im GB4-Panel bewertet und Chromosom 1 zugeordnet wurden (5557 Marker), wurden auf Primersequenz-Identität analysiert und zu 4442 eindeutigen Markersätzen zusammengestellt. Die RH-Daten für den Satz eindeutiger Marker wurden dann mit MultiMap, einem Expertensystem für die automatische RH-Kartenerstellung, analysiert (Matise et al. 1994).
Ein Satz von 62 Généthon-Mikrosatelliten-Markern, die im GB4-Panel sorgfältig ausgewertet wurden, diente während der Konstruktion als anfängliche Skelettkarte. Die Skelettmarker wurden mit einer paarweisen Wahrscheinlichkeit von ≥1000:1 geordnet, und die von der RH und der genetischen Bindung bestimmten Ordnungen stimmten vollständig überein. Jeder Nicht-Skelett-Marker wurde dann mit Hilfe von MultiMap gegen die Skelettkarte analysiert, um festzustellen, ob er mit ausreichender statistischer Unterstützung (≥1000:1) zu einer eindeutigen Position auf der Skelettkarte hinzugefügt werden konnte. Das endgültige Gerüst bestand aus 289 Markern, die die 263 Mb von Chromosom 1 abdeckten, was eine durchschnittliche Auflösung von 910 kb ergab (Abb. 1). Anschließend wurden die 1000:1-Likelihood-Intervalle aller verbleibenden Marker in Bezug auf das Gerüst berechnet. Insgesamt wurden 4220 einzigartige Marker, die 5306 Primer-Sets repräsentieren, den Kartenpositionen zugeordnet (Tab.1).
- In diesem Fenster
- In einem neuen Fenster
- Als PowerPoint-Folie herunterladen
Chromosom 1 RH Gerüst. Die Gerüstmarker sind horizontal von links oben nach rechts unten aufgelistet, beginnend mit dem 1p-Terminus. Die Abstände der Marker sind proportional zu ihren centiRay-Positionen. Die Zytolokalisationen sind am Anfang jeder Zeile angegeben. Eine ungefähre physikalische Skala ist unten rechts dargestellt.
- In diesem Fenster
- In einem neuen Fenster
Zusammenfassung der Chromosom-1-Kartierung
Datenintegration
Von den 289 Markern des RH-Rahmens waren 111 polymorph und wurden in den Referenzstammbäumen des Centre d’Etude du Polymorphisme Humain (CEPH) genotypisiert (Dausset et al. 1990). Analog zur Konstruktion des RH-Rahmens wurden diese 111 Marker als Skelettkarte verwendet, um einen genetischen Kopplungsrahmen (GL) zu konstruieren. Alle Chromosom 1 zugeordneten Polymorphismen aus der CEPHdb v8.1 Genotyp-Datenbank wurden als polymorpher Marker-Datensatz verwendet. Der resultierende GL-Rahmen umfasste 160 Marker, die mit einer Wahrscheinlichkeit von ≥1000:1 geordnet waren, was zu Auflösungen von 2,0 cM und 1,6 Mb führte (Tabelle 1). Weitere 628 polymorphe Marker, einschließlich häufig verwendeter Tetranukleotid- und intragenischer Polymorphismen, die oft von Ganzgenomkarten ausgeschlossen werden, wurden dann in 1000:1-Likelihood-Intervalle relativ zum Rahmenwerk eingeordnet. Wir haben auch 239 Chromosom-1-spezifische Einzelnukleotid-Polymorphismen (SNPs) einbezogen, die in GB4 (Wang et al. 1998) ausgewertet wurden. Insgesamt wurden auf den GL- und RH-Ebenen 5008 einzigartige Marker platziert, mit einer durchschnittlichen Markerdichte von 52 kb (Tabelle 1).
Dann integrierten wir die RH-Ebene, die größtenteils aus Markern besteht, die transkribierte Sequenzen darstellen, mit den UniGene EST-Sequenzclustern (Boguski und Schuler 1995). Cluster und kartierte RH-Marker, die eine identische EST-Sequenz aufweisen, wurden miteinander verbunden. Insgesamt stellten 3543 der 4220 RH-Marker (84 %) Transkripte dar, und 2795 (79 %) dieser Transkripte waren mit insgesamt 1830 EST-Clustern assoziiert (Tabelle 1).
Physikalische Kartierungsdaten wurden integriert, indem Marker identifiziert wurden, für die positive PAC-, BAC- oder YAC-Klone identifiziert wurden. Wir stellten fest, ob jeder kartierte Marker in einem oder mehreren BAC- oder PAC-Klonen enthalten war, die vom Sanger Centre für die Sequenzierung von Chromosom 1 identifiziert worden waren (Gregory et al. 1998), und 6167 BAC/PAC-Klone, die 1199 Chromosom-1-Marker repräsentieren, wurden integriert (Tabelle 1). YAC-Klone, die viele der kartierten Marker enthalten, wurden vom Whitehead Institute Center for Genome Research (WICGR) isoliert (Hudson et al. 1995). Insgesamt wurden 1930 YACs von Chromosom 1 hinzugefügt, die zusammen 2275 Marker auf der Karte darstellen. Die Anzahl der vorhandenen Marker und die Überschneidungen zwischen der RH-, GL- und physischen Ebene sind in dem Venn-Diagramm in Abbildung 2 dargestellt.
- In diesem Fenster
- In einem neuen Fenster
- Als PowerPoint-Folie herunterladen
Venn-Diagramm der Marker-Subtypen. Das Diagramm zeigt die Verteilung der Marker zwischen und auf die RH-, GL- und physischen Ebenen. Die RH- und GL-Markersätze sind durch alle RH- und GL-Marker definiert, denen in CompView Kartenpositionen zugewiesen wurden (n = 4220 bzw. n = 788). Der physische Markersatz wird durch die Anzahl der eindeutigen Marker mit assoziierten WICGR YACs und/oder Sanger PAC/BACs (n = 2480) definiert, von denen eine Teilmenge (n = 1742) in CompView lokalisiert ist.
Um zytogenetische Positionsinformationen einzubeziehen, haben wir die Genome Database (GDB) (Letovsky et al. 1998) verwendet, um einen Satz von 110 RH-Tier-Markern zu identifizieren, die zytogenetisch auf einem bestimmten Chromosom-1-Band lokalisiert worden waren. Unter Verwendung dieser Lokalisierungen als zytogenetisches Gerüst wurden dann die abgeleiteten Zytolokalisationen für alle übrigen GL- und RH-Marker berechnet. Für 54 % (2686) der zytolokalisierten Marker konnte eine einzelne Chromosomenbande zugeordnet werden; den übrigen Markern wurde ein zytogenetischer Bandenbereich zugewiesen.
Die Repräsentation größerer genomischer Strukturen erfordert einen Mechanismus zur Identifizierung redundanter und teilweise redundanter Elemente. Da RH-basierte Kartenpositionen durch die Amplifikation von kurzen DNA-Segmenten bestimmt werden, können sie als eindeutige genomische Punkte dargestellt werden. Funktionelle genomische Elemente sind jedoch oft subjektiv definiert. So kann ein einzelnes Gen durch mehrere Marker repräsentiert sein, die über eine große genomische Region verteilt sind, wobei jeder Marker einer bestimmten Kartenposition entspricht. Die Integration wird auch durch die Nomenklatur der Marker erschwert, so dass demselben genomischen Element oft mehrere Namen zugeordnet werden. Aus Gründen der Klarheit haben wir sowohl die genaue Lokalisierung jedes einzelnen Markers als auch die Konsensposition einer Gruppe miteinander verbundener Marker, die als Bündel bezeichnet werden, berechnet.
Eine kumulative Liste von Datenbank-Identifikatoren (IDs) wurde aus allen Markern in Compdb zusammengestellt. Marker, für die gemeinsame IDs gefunden wurden (die im Wesentlichen einen identischen Namen, eine identische Sequenz oder einen identischen EST-Cluster aufweisen), wurden zu Bündeln zusammengefasst, die vermutlich Transkripte oder andere funktionelle genomische Elemente darstellen. Die Kartenposition jedes Bündels wurde aus den Kartenpositionen der einzelnen Marker, die das Bündel bilden, definiert. Nehmen wir zum Beispiel an, dass das Bündel X drei Marker mit Intervallpositionen enthält, die die Rahmenmarker 1-4, 2-5 bzw. 3-6 umfassen. Bündel X würde dann mit einer maximalen Position von 1-6 und einer minimalen, höchstwahrscheinlichen Kartenposition von 3-4 dargestellt werden. Bestimmte Bündel enthielten Marker mit nicht überlappenden Kartenpositionen, was auf mögliche Fehler bei der RH-Bewertung, der Bildung von EST-Clustern oder der Kennzeichnung von Identifikatoren hinweist. In diesen Fällen wurden die Bündel in Teilmengen von Markern mit überlappenden Kartenpositionen aufgeteilt. Dreiundvierzig Prozent (1796) der Marker konnten zu 719 Bündeln zusammengefasst werden, und für 89 % der Bündel wurden Mindestkartenpositionen definiert. Bei Bündeln mit definierten minimalen Kartenintervallen betrug die durchschnittliche Größe des minimalen Intervalls 1,4 Mb, während das durchschnittliche maximale Intervall 5,2 Mb umfasste. Dies deutet darauf hin, dass das Bündelungsverfahren den wahrscheinlichsten Ort vieler Transkripte durch die Verknüpfung von Kartenpositionen äquivalenter Marker erheblich eingrenzen kann. Die verbleibenden 76 Bündel (11 %) enthielten Marker mit nicht überlappenden Kartenpositionen, und dieser Prozentsatz ist weitgehend ein Hinweis auf die kumulative Fehlerrate innerhalb der RHdb- und UniGene-Datensätze. Diese nicht überlappenden Bündel werden derzeit auf die Quelle und den Grund der widersprüchlichen Kartenpositionen untersucht.
Datenpräsentation
Für die Datenpräsentation haben wir eine CompView-Internetseite (http://genome.chop.edu) entwickelt, die grafische und textbasierte Schnittstellen bietet. Das gesamte Chromosom (oder Teilabschnitte, die durch Markernamen oder zytogenetische Banden definiert sind) kann mit dem interaktiven Java-Applet Mapview (Abb.3) grafisch dargestellt und angepasst werden (Letovsky et al. 1998). Die Informationen zu den einzelnen Markern umfassen Primer-Sequenzen und RH-Scores, Datenbank-IDs, EST-Cluster-Zuordnungen, abgeleitete zytogenetische Positionen und zugehörige Large-Insert-Klone (Abb. 4). Zur Ergänzung der in CompView präsentierten genomischen Daten werden auch Hypertext-Links zu externen Datenbanken angeboten. Derzeit sind direkte Links zu 28 internetbasierten Datenbanken enthalten, wobei für 19 Datenbanken spezifische Markerinformationen verfügbar sind (Tabelle 2). Dazu gehören Links zu Marker- oder Sequenzdatenbanken wie dbSTS, dbEST, GenBank, UniGene, RHdb und GDB, Links zu Markerdatenbanken einzelner Labore oder Genomzentren, Echtzeitabfragen von großen Klon-Screening-Projekten, Sequenzhomologiesuchen mit BLAST und Suchmaschinenabfragen mit OMIM, BioHunt und GeneCards (Abb. 4). Somit dienen die einzelnen Marker-Datensätze, die in CompView präsentiert werden, als Datenportal für ein breiteres Spektrum von Genom-, Sequenz- und Funktionsdaten, die auf anderen Websites verfügbar sind.
- In diesem Fenster
- In einem neuen Fenster
- Als PowerPoint-Folie herunterladen
CompView Web Interface Beispiele. (A) Eingabebildschirm für die Suche nach einer Region des Chromosoms. Regionen können durch zwei flankierende Marker (links), durch Anklicken einer zytogenetischen Bande aus einem Chromosomenideogramm (rechts) oder durch Auswahl einer oder mehrerer zytogenetischer Banden (nicht gezeigt) definiert werden. Es wird eine Abfrage für die Region zwischen D1S468 und D1S214 angezeigt. (B) Tabellarische Rückgabe für die Abfrage D1S468 bis D1S214 vonA. Für jeden Marker werden der Markertyp, der Transkriptionsstatus, das RH-Intervall, die RH-Kartenposition und die Zytolokation angezeigt, wobei für jeden Marker ein Hyperlink zu umfassenderen Informationen bereitgestellt wird. Darüber hinaus wird die Gesamtzahl der gefundenen Marker angezeigt. Wenn Sie auf die Schaltfläche „Karte der Region“ oben rechts klicken, wird C angezeigt. (C) Grafische Wiedergabe der Abfrage D1S468 bis D1S214 mit Mapview. In diesem Beispiel sind nur der rechte Rahmen (links) und ein Teil der rechten Marker-Ebene (rechts) sichtbar. CentiRay-Entfernungen von 1pter werden rechts vom Rahmen angezeigt. Den intervallierten RH-Markern ist eine vertikale Linie vorangestellt, die ihre 1000:1-Wahrscheinlichkeitsposition relativ zum RH-Rahmen anzeigt. Die für die Abfrage verwendeten Marker sind im Gerüst hervorgehoben, ebenso wie der RH-Marker fürGNB1; ein Klick auf GNB1 führt zu dem in Abb. 4 gezeigten Marker-Datensatz.
- In diesem Fenster
- In einem neuen Fenster
- Als PowerPoint-Folie herunterladen
Beispiel für einen Marker-Datensatz. Abgebildet ist der individuelle Datensatz für das GenGNB1. Der unterstrichene Text zeigt einen Hypertext-Link an. Dieses Beispiel enthält Links zu externen Datenbanken wie dbEST (Abkürzungen siehe Legende in Tabelle 2), GDB, Sanger, GenBank, UniGene und RHdb für diesen Marker; zur Durchführung einer BLAST-Suche in den nichtredundanten (GenBank), EST- (EST) und Hochdurchsatz-Genomsequenz- (HTGS) Sammlungen in GenBank; GeneCards, OMIM und BioHunt nach „GNB1“ zu durchsuchen und die Sanger Centre Chromosome 1 Mapping Database Acedb1 nach BACs und PACs mit den GNB1-Primersequenzen zu durchsuchen. Die Schaltflächen „MAP OF GNB1“ und „GNB1 REGION“ bieten eine grafische Darstellung der Region um GNB1 analog zu Abb. 3 Cand und eine tabellarische Zusammenfassung aller Marker, die dieser Region zugeordnet sind, analog zu Abb. 3 B. Die links aufgeführten Namen der Datenkategorien (z. B. „Expressionsstatus“) sind mit Hyperlinks zu Hilfeseiten versehen, die diese Kategorie beschreiben.
- In diesem Fenster
- In einem neuen Fenster
Links zu externen Datenbanken auf der CompView-Website
Viele Marker sind mit mehreren Namen assoziiert, und die Sortierung durch die redundante Nomenklatur für einen bestimmten Locus ist oft mühsam. Um geeignete Markernamen auszuwählen, haben wir einen Algorithmus entwickelt, der den am besten geeigneten Markernamen aus dem Pool der Datenbank-IDs auswählt, die mit jedem Marker verbunden sind, und zwar gemäß einer vorgegebenen Hierarchie der Namensquellen. Bündel wurden auf ähnliche Weise benannt, indem aus dem Pool der Markernamen innerhalb jedes Bündels ausgewählt wurde.
Datenintegrität
Die Überprüfung der vorhergesagten Markerreihenfolge ist ein entscheidender Schritt bei der Erstellung der Karte. Die Berechnungsmethoden, die für die Konstruktion der RH- und Linkage-Ebenen verwendet wurden, basierten auf Standard-Kartierungsalgorithmen, die sich als zuverlässig für eine genaue Markeranordnung erwiesen haben (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). Wir haben auch eine Reihe von internen und externen Vergleichen durchgeführt, um die Integrität unseres Kartierungsverfahrens zu bewerten. Für den internen Vergleich analysierten wir zunächst sorgfältig die Skelettkarte, um festzustellen, ob die von der RH definierte Markerreihenfolge mit der durch die genetische Kopplungsanalyse vorhergesagten Reihenfolge übereinstimmte. Außerdem wurde für das RH-Gerüst jeder Marker einzeln entfernt und dann neu kartiert, um die Lokalisierung mit ausreichendem statistischen Vertrauen zu bestätigen. Darüber hinaus verglichen wir die Positionen aller Marker, die sowohl auf der Kopplungs- als auch auf der RH-Ebene platziert waren. Bei allen internen Vergleichen stimmten praktisch alle Markerpositionen überein. Zur externen Überprüfung verglichen wir unsere Ergebnisse mit denen von bereits veröffentlichten Chromosom-1-Karten. Die Reihenfolge unserer 289 RH-Rahmenmarker wurde mit den entsprechenden Positionen auf den GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998) und Généthon Version 3 GL Karten (Dib et al. 1996) verglichen. Die Genauigkeit des von der GDB abgeleiteten zytogenetischen Rahmens wurde durch einen Vergleich mit einem Satz von 212 Chromosom-1-Großinsert-Klonen ermittelt, die vom Sanger Centre in Vorbereitung auf die Sequenzierung zytogenetisch kartiert worden waren. Jeder Vergleich ergab übereinstimmende Markerordnungen für >90 % der Marker. Fast alle Diskrepanzen erwiesen sich als isoliert, wobei die von uns vorhergesagten Markerpositionen in der Regel an diejenigen in anderen Karten angrenzen und in der Regel Marker mit schwacher statistischer Unterstützung für die Platzierung betreffen. Schließlich verglichen wir unsere Markerreihenfolgen mit denen, die von zuvor veröffentlichten Karten von 1p35-36 (Jensen et al. 1997) und 1q41-43 (Weith et al. 1995) vorhergesagt wurden. Die Konkordanzraten für gemeinsam kartierte Marker betrugen 94% mit der distalen 1p-Karte und 100% mit der distalen 1q-Karte. Insgesamt deuten diese Vergleiche stark darauf hin, dass die CompView-Methode solide ist und dass isolierte Abweichungen von Markerpositionen höchstwahrscheinlich eher auf Fehler bei der Datengenerierung oder -eingabe als auf Fehler bei der Kartenerstellung zurückzuführen sind.
Analyse von Chromosom 1
Einige Aspekte der Ergebnisse von Chromosom 1 wurden weiter analysiert. Von den 289 RH-Rahmenpositionen wurden 182 (63 %) definitiv dem kurzen Arm zugeordnet. Diese Überrepräsentation ist wahrscheinlich auf die größere Anzahl von 1p-spezifischen RH-Markern in RHdb zurückzuführen, was wiederum auf die selektive Auswahl von 1p für die STS-Generierung durch das Sanger Centre bei der Sequenzierung von Chromosom 1 zurückzuführen ist (Gregory et al. 1998). Die RH-Entfernungen werden in centiRays gemessen, die im Allgemeinen als proportional zur physischen Entfernung angesehen werden (Cox et al. 1990). Es wurden jedoch überhöhte RH-Kartenabstände innerhalb der zentromerischen und angrenzenden heterochromatischen 1q-Regionen beobachtet (RH-RahmenpositionenD1S2696-D1S3356; durchschnittlicher Abstand 27,5 cR vs. 12,7 cR für den gesamten Rahmen; P < 0,001), was mit früheren Beobachtungen für zentromerische Regionen übereinstimmt (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Mehrere zusätzliche Regionen mit geringem Abstand zwischen Rahmenmarker und CentiRay wurden beobachtet, vor allem in 1p35 und 1q43 (Abb. 1). Diese Regionen könnten lokale Bereiche mit schlechter Markerabdeckung oder erhöhter Radioresistenz darstellen, da beide Regionen dunkle zytogenetische Banden überlappen (siehe unten). Obwohl ein telomerspezifischer STS für 1p noch nicht zur Verfügung steht, ist ein kürzlich identifizierter 1q-spezifischer Marker (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) in unserer RH-Ebene vorhanden, und sein Kartenintervall schließt das 1q-Telom ein. Es wird wichtig sein, zukünftige RH-Karten mit telomeren Markern zu verankern, sobald diese verfügbar sind.
Helle Giemsa-färbende zytogenetische Banden werden im Allgemeinen als transkriptreich angesehen (Bernardi 1989). Um festzustellen, ob dieser Grundsatz auch für Chromosom 1 gilt, berechneten wir die Anzahl der Transkripte, die speziell den hellen und dunklen Banden auf unserer zytogenetischen Ebene zugeordnet wurden. Von 1883 Transkripten, die einer einzigen Bande zugeordnet werden konnten, wurden 1663 (88,3 %) den hellen Banden zugeordnet (Tabelle 3). Nach Berücksichtigung der relativen Größe jeder Bande, die zuvor durch Messungen der Fraktionslänge bestimmt wurde (Francke und Oliver 1978), wurde festgestellt, dass helle Banden im Durchschnitt 1,7-mal wahrscheinlicher ein Transkript enthalten als gleich große dunkle Banden, wobei die helle Bande 1q21 am transkriptreichsten ist. Es gab jedoch einige bemerkenswerte Ausnahmen von diesem allgemeinen Trend, darunter eine hohe Transkriptdichte für die dunkle Bande 1p31 und eine geringe Dichte für die hellen Banden 1p32, 1p22, 1q23, 1q31 und 1q42.
- In diesem Fenster
- In einem neuen Fenster
Zytogenetischer Banden/Marker-Vergleich