RISULTATI
Ragionamento e costruzione di CompView
Una notevole quantità di dati genomici è stata depositata in diversi database, compresi i dati di mappatura basati sull’ibrido di radiazione (RHdb) (Lijnzaad et al. 1998), dati di genotipizzazione di marcatori polimorfici (CEPHdb) (Dausset et al. 1990), e dati di sequenza EST e cluster che rappresentano trascrizioni uniche putative (UniGene) (Boguski e Schuler 1995). Questi set di dati sono stati utilizzati come base per il nostro assemblaggio della mappa, utilizzando la nostra procedura CompView. L’enorme numero di marcatori disponibili supera di gran lunga la capacità dei metodi di costruzione delle mappe basati sul calcolo di ordinare più di una piccola percentuale dei marcatori con alta confidenza. Pertanto, abbiamo determinato l’ordine ad alta confidenza di un sottoinsieme (quadro) di marcatori e posizionato il resto dei marcatori rispetto a questo quadro. CompView utilizza un processo iterativo (inquadramento dinamico) per aggiungere sequenzialmente i marcatori a un quadro stabilito, massimizzando così il numero di marcatori del quadro e la risoluzione complessiva della mappa.
Abbiamo scelto il set di marcatori formattati per PCR che sono stati segnati sul pannello di ibridi di radiazione (RH) Genebridge4 (GB4) (Gyapay et al. 1996) come punto di partenza per CompView, poiché questo è il più grande set di dati omogeneo di marcatori genomici umani pubblicamente disponibile. I dati grezzi di RHdb e UniGene sono stati importati in Compdb, un database relazionale personalizzato sviluppato per questo progetto. Tutte le voci di RHdb segnate sul pannello GB4 e assegnate al cromosoma 1 (5557 marcatori) sono state analizzate per l’identità di sequenza dei primer e assemblate in 4442 set di marcatori unici. I dati RH per il set di marcatori unici sono stati poi analizzati con MultiMap, un sistema esperto per la costruzione automatizzata della mappa RH (Matise et al. 1994).
Un set di 62 marcatori microsatelliti Généthon che sono stati accuratamente valutati nel pannello GB4 è servito come mappa scheletrica iniziale durante la costruzione. I marcatori scheletrici sono stati ordinati con probabilità di coppia ≥1000:1, e gli ordini determinati dall’RH e dal linkage genetico erano in completo accordo. Ogni marcatore non scheletrico è stato poi analizzato rispetto alla mappa scheletrica usando MultiMap per determinare se poteva essere aggiunto ad una posizione unica sulla mappa scheletrica con sufficiente supporto statistico (≥1000:1). Il quadro finale consisteva di 289 marcatori che coprivano i 263 Mb del cromosoma 1, con una risoluzione media di 910 kb (Fig. 1). Gli intervalli di verosimiglianza 1000:1 di tutti i marcatori rimanenti, relativi alla struttura, sono stati calcolati. Un totale di 4220 marcatori unici, che rappresentano 5306 set di primer, sono stati assegnati alle posizioni della mappa (Tabella 1).
- In questa finestra
- In una nuova finestra
- Scarica come diapositiva PowerPoint
Cromosoma 1 quadro RH. I marcatori del quadro sono elencati orizzontalmente dall’alto a sinistra in basso a destra a partire dalla terminazione 1p. I marcatori sono spaziati proporzionalmente alle loro posizioni centiRay. Le citolocazioni sono indicate all’inizio di ogni riga. Una scala fisica approssimativa è rappresentata in basso a destra.
- In questa finestra
- In una nuova finestra
Riassunto della mappatura del cromosoma 1
Integrazione dei dati
Dei 289 marcatori del quadro RH, 111 erano polimorfici e sono stati genotipizzati nei pedigree di riferimento del Centre d’Etude du Polymorphisme Humain (CEPH) (Dausset et al. 1990). In un processo analogo alla costruzione del quadro RH, questi 111 marcatori sono stati utilizzati come mappa scheletrica per costruire un quadro di linkage genetico (GL). Tutti i polimorfismi assegnati al cromosoma 1 dal database dei genotipi CEPHdb v8.1 sono stati utilizzati come set di dati dei marcatori polimorfici. Il quadro GL risultante comprendeva 160 marcatori ordinati con probabilità ≥1000:1, con risoluzioni di 2,0 cM e 1,6 Mb (Tabella 1). Altri 628 marcatori polimorfici, compresi i polimorfismi tetranucleotidici e intragenici comunemente usati che sono spesso esclusi dalle mappe dell’intero genoma, sono stati poi inseriti in intervalli di probabilità 1000:1 relativi al quadro. Abbiamo anche incluso 239 polimorfismi a singolo nucleotide (SNPs) specifici del cromosoma 1 che erano stati valutati in GB4 (Wang et al. 1998). Complessivamente, i livelli GL e RH hanno totalizzato 5008 piazzamenti di marcatori unici, con una densità media di marcatori di 52 kb (Tabella 1).
Poi, abbiamo integrato il livello RH, che è in gran parte composto da marcatori che rappresentano sequenze trascritte, con i cluster di sequenze EST di UniGene (Boguski e Schuler 1995). I cluster e i marcatori RH mappati che condividono una sequenza EST identica sono stati associati insieme. Nel complesso, 3543 dei 4220 marcatori RH (84%) rappresentavano trascrizioni, e 2795 (79%) di queste trascrizioni erano associate a un totale di 1830 cluster EST (Tabella 1).
I dati di mappatura fisica sono stati integrati identificando i marcatori per i quali sono stati identificati cloni PAC, BAC o YAC positivi. Abbiamo determinato se ogni marcatore mappato fosse contenuto in uno o più cloni BAC o PAC identificati per il sequenziamento del cromosoma 1 dal Centro Sanger (Gregory et al. 1998), e sono stati integrati 6167 cloni BAC/PAC che rappresentano 1199 marcatori del cromosoma 1 (Tabella 1). I cloni YAC contenenti molti dei marcatori mappati sono stati isolati dal Whitehead Institute Center for Genome Research (WICGR) (Hudson et al. 1995). Un totale di 1930 YAC del cromosoma 1 sono stati aggiunti, insieme rappresentano 2275 marcatori sulla mappa. Il numero di marcatori presenti e la sovrapposizione tra i livelli RH, GL e fisico è dimostrato dal diagramma di Venn nella Figura 2.
- In questa finestra
- In una nuova finestra
- Scarica come diapositiva PowerPoint
Diagramma di Venn dei sottotipi di marcatori. Il diagramma mostra la distribuzione dei marcatori tra i livelli RH, GL e fisico. I set di marcatori RH e GL sono definiti da tutti i marcatori RH e GL assegnati alle posizioni della mappa in CompView (n = 4220 e n = 788), rispettivamente. Il set di marcatori fisici è definito dal numero di marcatori unici con associati WICGR YACs e/o Sanger PAC/BACs (n = 2480), un sottoinsieme dei quali (n = 1742) è localizzato in CompView.
Per includere informazioni posizionali citogenetiche, abbiamo usato il Genome Database (GDB) (Letovsky et al. 1998) per identificare un set di 110 marcatori RH tier che erano stati localizzati citogeneticamente ad una specifica banda del cromosoma 1. Utilizzando queste localizzazioni come quadro citogenetico, sono state calcolate le citolocazioni dedotte per tutti i restanti marcatori GL e RH. Una singola banda cromosomica potrebbe essere assegnata per il 54% (2686) dei marcatori citolocalizzati; al resto dei marcatori è stata assegnata una banda citogenetica.
La rappresentazione di strutture genomiche più grandi richiede un meccanismo per identificare elementi ridondanti e parzialmente ridondanti. Poiché le posizioni delle mappe basate su RH sono determinate dall’amplificazione di brevi segmenti di DNA, esse possono essere rappresentate come punti genomici distinti. Tuttavia, gli elementi genomici funzionali sono spesso definiti in modo più soggettivo. Così, un singolo gene potrebbe essere rappresentato da più marcatori distribuiti in una grande regione genomica, con ogni marcatore corrispondente a una posizione distinta della mappa. L’integrazione è anche complicata dalla nomenclatura dei marcatori, per cui più nomi sono spesso assegnati allo stesso elemento genomico. Per chiarezza, abbiamo calcolato sia la localizzazione precisa di ogni marcatore distinto che la posizione di consenso di un gruppo di marcatori interconnessi, chiamati bundle.
Un elenco cumulativo di identificatori di database (ID) è stato compilato da tutti i marcatori in Compdb. I marcatori trovati per condividere gli ID (essenzialmente condividendo un nome, una sequenza o un cluster EST identici) sono stati raggruppati in fasci che presumibilmente rappresentavano trascrizioni o altri elementi genomici funzionali. Ogni posizione della mappa del fascio è stata definita dalle posizioni della mappa dei singoli marcatori che compongono il fascio. Per esempio, supponiamo che il fascio X contenga tre marcatori con posizioni intervallate che abbracciano i marcatori quadro 1-4, 2-5 e 3-6, rispettivamente. Il fascio X verrebbe quindi rappresentato con una posizione massima di 1-6 e una posizione minima, molto probabilmente di 3-4. Alcuni fasci contenevano marcatori con posizioni di mappa non sovrapposte, indicando possibili errori nel punteggio RH, nella costruzione di cluster EST o nell’etichettatura degli identificatori. In questi casi, i fasci sono stati suddivisi in sottoinsiemi di marcatori con posizioni di mappa sovrapposte. Il 43% (1796) dei marcatori ha potuto essere assemblato in 719 fasci e le posizioni minime della mappa sono state definite per l’89% dei fasci. Per i fasci con intervalli minimi di mappa definiti, la dimensione media dell’intervallo minimo era di 1,4 Mb, mentre il massimo medio era di 5,2 Mb. Questo indica che la procedura di raggruppamento può sostanzialmente restringere la posizione più probabile di molte trascrizioni associando posizioni di mappa di marcatori equivalenti. I restanti 76 fasci (11%) contenevano marcatori con posizioni di mappa non sovrapposte, e questa percentuale è ampiamente indicativa del tasso di errore cumulativo all’interno dei set di dati RHdb e UniGene. Questi fasci non sovrapposti sono attualmente in fase di valutazione per la fonte e la ragione delle posizioni di mappa contrastanti.
Presentazione dei dati
Per la presentazione dei dati, abbiamo sviluppato un sito internet CompView (http://genome.chop.edu) che fornisce interfacce grafiche e testuali. L’intero cromosoma (o sottosezioni definite da nomi di marcatori o bande citogenetiche) può essere visualizzato graficamente e personalizzato utilizzando l’applet interattiva Java Mapview (Fig.3) (Letovsky et al. 1998). Le informazioni per i singoli marcatori includono le sequenze dei primer e i punteggi RH, gli ID dei database, le assegnazioni dei cluster EST, le posizioni citogenetiche dedotte e i cloni large-insert associati (Fig. 4). Per integrare i dati genomici presentati in CompView, vengono forniti anche collegamenti ipertestuali a database esterni. Attualmente, sono inclusi collegamenti diretti a 28 banche dati basate su Internet, con informazioni specifiche sui marcatori disponibili per 19 banche dati (Tabella 2). Questi includono collegamenti a repertori di marcatori o sequenze come dbSTS, dbEST, GenBank, UniGene, RHdb e GDB; collegamenti a database di marcatori di singoli laboratori o centri genomici; interrogazioni in tempo reale di progetti di screening di cloni con grandi inserti; ricerche di omologia di sequenza utilizzando BLAST; e interrogazioni di motori di ricerca utilizzando OMIM, BioHunt e GeneCards (Fig. 4). Così, i singoli record di marcatori presentati in CompView servono come un portale di dati per una più ampia gamma di dati genomici, di sequenza e funzionali disponibili in altri siti.
- In questa finestra
- In una nuova finestra
- Scarica come diapositiva PowerPoint
Esempi di interfaccia Web di CompView. (A) Schermata di input per cercare una regione del cromosoma. Le regioni possono essere definite da due marcatori fiancheggiatori (a sinistra), cliccando su una banda citogenetica da un ideogramma cromosomico (a destra), o selezionando una o più bande citogenetiche (non mostrato). Viene visualizzato un input di query per la regione tra D1S468 e D1S214. (B) Ritorno tabellare per la query D1S468 a D1S214 daA. Il tipo di marcatore, lo stato trascrizionale, l’intervallo RH, la posizione della mappa RH e la citolocalizzazione sono mostrati per ogni marcatore, con un hyperlink a informazioni più complete fornite per ogni marcatore. In cima viene mostrato il numero totale di ogni tipo di marcatore trovato. Cliccando sul pulsante “mappa della regione” in alto a destra si ottiene C. (C) restituzione grafica della queryD1S468 a D1S214 visto con Mapview. In questo esempio, sono visibili solo il quadro RH (a sinistra) e una parte del livello dei marcatori RH (a destra). Le distanze CentiRay da 1pter sono mostrate a destra del quadro. I marcatori RH intervallati sono preceduti da una linea verticale che indica la loro posizione di verosimiglianza 1000:1 rispetto alla struttura RH. I marcatori utilizzati per l’interrogazione sono evidenziati sul quadro, così come il marcatore RH perGNB1; cliccando su GNB1 si ottiene il record del marcatore mostrato in Fig. 4.
- In questa finestra
- In una nuova finestra
- Download as PowerPoint Slide
Esempio di record del marcatore. Viene mostrato il record individuale per il geneGNB1. Il testo sottolineato indica un collegamento ipertestuale. I collegamenti a database esterni sono presenti in questo esempio a dbEST (vedi legenda della Tabella 2 per le abbreviazioni), GDB, Sanger, GenBank, UniGene e RHdb per questo marcatore; per eseguire una ricerca BLAST delle collezioni non ridondanti (GenBank), EST (EST) e highthroughput genomic sequence (HTGS) in GenBank; per cercare GeneCards, OMIM e BioHunt per “GNB1”; e per cercare nel database di mappatura del cromosoma 1 del Centro Sanger Acedb1 per BACs e PACs con le sequenze dei primer GNB1. I pulsanti etichettati “MAPPA DI GNB1” e “GNB1 REGIONE” forniscono una rappresentazione grafica della regione che circonda GNB1 analogo a Fig. 3 Cand un riassunto tabellare di tutti i marcatori di mappatura a questa regione analogo a Fig. 3 B, rispettivamente. I nomi delle categorie di dati elencati a sinistra (come “Stato di espressione”) sono collegati a pagine di aiuto che descrivono la categoria.
- In questa finestra
- In una nuova finestra
Collegamenti a database esterni nel sito web CompView
Molti marcatori sono associati a nomi multipli, e ordinare attraverso la nomenclatura ridondante per un dato locus è spesso noioso. Per selezionare i nomi dei marcatori adatti, abbiamo creato un algoritmo che seleziona il nome del marcatore più appropriato dal pool di ID del database associati a ciascun marcatore, secondo una gerarchia predeterminata della fonte del nome. I bundle sono stati nominati in modo simile, selezionando dal pool di nomi dei marcatori all’interno di ciascun bundle.
Integrità dei dati
La verifica dell’ordine previsto dei marcatori è un passo cruciale nella costruzione della mappa. I metodi di calcolo utilizzati per la costruzione dei livelli di RH e di linkage erano basati su algoritmi di mappatura standard che si sono dimostrati affidabili per un ordine accurato dei marcatori (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). Abbiamo anche utilizzato una serie di confronti interni ed esterni per valutare l’integrità della nostra procedura di mappatura. Per il confronto interno, abbiamo prima analizzato attentamente la mappa scheletrica per determinare se l’ordine del marcatore definito dall’RH si confrontava favorevolmente con l’ordine previsto dall’analisi di linkage genetico. Inoltre, per il quadro RH, ogni marcatore è stato rimosso individualmente e poi rimappato per confermare la localizzazione con sufficiente confidenza statistica. Inoltre, abbiamo confrontato le posizioni di tutti i marcatori posizionati su entrambi i livelli di linkage e RH. Per tutti i confronti interni, praticamente tutte le posizioni dei marcatori erano in accordo. Per la verifica esterna, abbiamo confrontato i nostri risultati con quelli delle mappe del cromosoma 1 precedentemente pubblicate. L’ordine dei nostri 289 marcatori del quadro RH è stato confrontato con le posizioni corrispondenti sulle mappe GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998), e Généthon versione 3 GL (Dib et al. 1996). L’accuratezza del quadro citogenetico derivato da GDB è stata determinata dal confronto con un set di 212 cloni a inserzione larga del cromosoma 1 che erano stati mappati citogeneticamente dal Centro Sanger in preparazione al sequenziamento. Ogni confronto ha mostrato ordini di marcatori concordanti per >90% dei marcatori. Quasi tutte le discrepanze sono risultate isolate, con le nostre posizioni previste dei marcatori di solito adiacenti a quelle in altre mappe e di solito coinvolgono marcatori con un debole supporto statistico per il posizionamento. Infine, abbiamo confrontato i nostri ordini di marcatori con quelli previsti dalle mappe precedentemente pubblicate di 1p35-36 (Jensen et al. 1997) e 1q41-43 (Weith et al. 1995). I tassi di concordanza per i marcatori mappati in comune erano del 94% con la mappa distale 1p e del 100% con la mappa distale 1q. Nel complesso, questi confronti suggeriscono fortemente che il metodo CompView è solido e che le variazioni isolate delle posizioni dei marcatori sono molto probabilmente dovute a errori nella generazione o nell’inserimento dei dati piuttosto che nella costruzione della mappa.
Analisi del cromosoma 1
Sono stati analizzati ulteriormente diversi aspetti dei risultati del cromosoma 1. Delle 289 posizioni del quadro RH, 182 (63%) sono state definitivamente assegnate al braccio corto. Questa sovrarappresentazione è probabilmente dovuta al maggior numero di marcatori RH 1p-specifici in RHdb, che a sua volta è dovuto al targeting selettivo di 1p per la generazione di STS da parte del Centro Sanger nei loro sforzi di sequenziamento del cromosoma 1 (Gregory et al. 1998). Le distanze di RH sono misurate in centiRays, che sono generalmente considerate proporzionali alla distanza fisica (Cox et al. 1990). Tuttavia, gonfiate distanze mappa RH sono stati osservati all’interno del centromerico e adiacente 1q regioni eterocromatiche (RH quadro posizioniD1S2696-D1S3356; avg. distanza 27,5 cR vs. 12,7 cR per l’intero quadro; P < 0,001), coerente con precedenti osservazioni per le regioni centromeriche (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Diverse regioni aggiuntive di basso quadro marker / centiRay distanza sono stati osservati, in particolare in 1p35 e 1q43 (Fig. 1). Queste regioni possono rappresentare aree locali di scarsa copertura marcatore o maggiore radioresistenza, come entrambe le regioni si sovrappongono bande citogenetiche scure (vedi sotto). Anche se un STS specifico per il telomero non è ancora disponibile per 1p, un marcatore specifico per 1q recentemente identificato (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) è presente nel nostro tier RH, e il suo intervallo di mappa include il telomero 1q. Sarà importante ancorare le future mappe RH con marcatori telomerici non appena saranno disponibili.
Le bande citogenetiche con colorazione Giemsa sono generalmente considerate ricche di trascrizioni (Bernardi 1989). Per determinare se questo principio vale per il cromosoma 1, abbiamo calcolato il numero di trascrizioni che erano state assegnate specificamente alle bande chiare e scure sul nostro tier citogenetico. Dei 1883 trascritti che mappano su una singola banda, 1663 (88,3%) sono stati assegnati alle bande chiare (Tabella 3). Dopo aver tenuto conto della dimensione relativa di ogni banda, come precedentemente determinato dalle misure di lunghezza frazionaria (Francke e Oliver 1978), le bande chiare sono risultate in media 1,7 volte più probabili di contenere una trascrizione rispetto alle bande scure di dimensioni equivalenti, con la banda chiara 1q21 che è la più ricca di trascrizioni. Tuttavia, ci sono state diverse eccezioni degne di nota alla tendenza generale, compresa un’alta densità di trascrizione per la banda scura 1p31 e basse densità per le bande chiare 1p32, 1p22, 1q23, 1q31 e 1q42.
- In questa finestra
- In una nuova finestra
Confronto citogenetico Banda/Marcatore