Une vue complète du chromosome humain 1

RESULTATS

Raison d’être et construction de CompView

Une quantité substantielle de données génomiques a été déposée dans plusieurs bases de données, notamment les données de cartographie basées sur les hybrides de rayonnement (RHdb) (Lijnzaad et al. 1998), des données de génotypage de marqueurs polymorphes (CEPHdb) (Dausset et al. 1990), et des données de séquences et de grappes d’EST représentant des transcrits uniques putatifs (UniGene) (Boguski et Schuler 1995). Ces ensembles de données ont été utilisés comme base pour notre assemblage de cartes, en utilisant notre procédure CompView. Le nombre de marqueurs disponibles dépasse de loin la capacité des méthodes de construction de cartes basées sur le calcul à ordonner plus qu’un petit pourcentage des marqueurs avec une grande confiance. Par conséquent, nous avons déterminé l’ordre de haute confiance d’un sous-ensemble (cadre) de marqueurs et positionné le reste des marqueurs par rapport à ce cadre. CompView utilise un processus itératif (cadrage dynamique) pour ajouter séquentiellement des marqueurs à un cadre établi, maximisant ainsi le nombre de marqueurs du cadre et la résolution globale de la carte.

Nous avons choisi l’ensemble des marqueurs formatés par PCR qui ont été notés sur le panel d’hybrides de radiation (RH) Genebridge4 (GB4) (Gyapay et al. 1996) comme point de départ pour CompView, car il s’agit du plus grand ensemble de données homogènes de marqueurs génomiques humains disponibles publiquement. Les données brutes de RHdb et UniGene ont été importées dans Compdb, une base de données relationnelle personnalisée développée pour ce projet. Toutes les entrées RHdb notées sur le panel GB4 et assignées au chromosome 1 (5557 marqueurs) ont été analysées pour l’identité des séquences d’amorces et assemblées en 4442 ensembles de marqueurs uniques. Les données RH pour l’ensemble des marqueurs uniques ont ensuite été analysées avec MultiMap, un système expert pour la construction automatisée de cartes RH (Matise et al. 1994).

Un ensemble de 62 marqueurs microsatellites de Généthon qui ont été soigneusement notés dans le panel GB4 a servi de carte squelettique initiale pendant la construction. Les marqueurs squelettiques ont été ordonnés avec des cotes par paire ≥1000:1, et les ordres déterminés par RH et par liaison génétique étaient en parfait accord. Chaque marqueur non squelettique a ensuite été analysé par rapport à la carte squelettique en utilisant MultiMap pour déterminer s’il pouvait être ajouté à une position unique sur la carte squelettique avec un soutien statistique suffisant (≥1000:1). Le cadre final était composé de 289 marqueurs couvrant les 263 Mb du chromosome 1, ce qui donne une résolution moyenne de 910 kb (Fig. 1). Les intervalles de vraisemblance 1000:1 de tous les marqueurs restants, par rapport au cadre, ont ensuite été calculés. Un total de 4220 marqueurs uniques, représentant 5306 jeux d’amorces, se sont vus attribuer des positions sur la carte (tableau 1).

Figure 1.

Voir version plus grande:

  • Dans cette fenêtre
  • Dans une nouvelle fenêtre
  • Télécharger comme diapositive PowerPoint

Figure 1.

Chromosome 1 RH cadre. Les marqueurs du cadre sont énumérés horizontalement du haut à gauche au bas à droite en commençant par la terminaison 1p. Les marqueurs sont espacés proportionnellement à leurs positions centiRay. Les cytolocalisations sont indiquées au début de chaque ligne. Une échelle physique approximative est représentée en bas à droite.

Visualiser ce tableau:

  • Dans cette fenêtre
  • Dans une nouvelle fenêtre

Tableau 1.

Résumé de la cartographie du chromosome 1

Intégration des données

Parmi les 289 marqueurs du cadre RH, 111 étaient polymorphes et avaient été génotypés dans les pedigrees de référence du Centre d’Etude du Polymorphisme Humain (CEPH) (Dausset et al. 1990). Dans un processus analogue à la construction du cadre RH, ces 111 marqueurs ont été utilisés comme une carte squelette pour construire un cadre de liaison génétique (GL). Tous les polymorphismes attribués au chromosome 1 de la base de données de génotypes CEPHdb v8.1 ont été utilisés comme ensemble de données de marqueurs polymorphes. Le cadre GL résultant comprenait 160 marqueurs ordonnés avec des probabilités ≥1000:1, donnant des résolutions de 2,0 cM et 1,6 Mb (tableau 1). 628 marqueurs polymorphes supplémentaires, y compris des polymorphismes tétranucléotidiques et intragéniques couramment utilisés qui sont souvent exclus des cartes du génome entier, ont ensuite été placés dans des intervalles de probabilité de 1000:1 par rapport au cadre. Nous avons également inclus 239 polymorphismes nucléotidiques simples (SNP) spécifiques du chromosome 1 qui avaient été notés dans GB4 (Wang et al. 1998). Dans l’ensemble, les niveaux GL et RH ont totalisé 5008 placements de marqueurs uniques, avec une densité moyenne de marqueurs de 52 kb (tableau 1).

Puis, nous avons intégré le palier RH, qui est largement composé de marqueurs représentant des séquences transcrites, avec les clusters de séquences EST UniGene (Boguski et Schuler 1995). Les clusters et les marqueurs RH cartographiés partageant une séquence EST identique ont été associés ensemble. Dans l’ensemble, 3543 des 4220 marqueurs RH (84%) représentaient des transcrits, et 2795 (79%) de ces transcrits ont été associés à un total de 1830 clusters EST (tableau 1).

Les données de cartographie physique ont été intégrées en identifiant les marqueurs pour lesquels des clones PAC, BAC ou YAC positifs ont été identifiés. Nous avons déterminé si chaque marqueur cartographié était contenu dans un ou plusieurs clones BAC ou PAC identifiés pour le séquençage du chromosome 1 par le Centre Sanger (Gregory et al. 1998), et 6167 clones BAC/PAC représentant 1199 marqueurs du chromosome 1 ont été intégrés (Tableau 1). Des clones YAC contenant un grand nombre des marqueurs cartographiés ont été isolés par le Whitehead Institute Center for Genome Research (WICGR) (Hudson et al. 1995). Un total de 1930 YACs du chromosome 1 ont été ajoutés, représentant ensemble 2275 marqueurs sur la carte. Le nombre de marqueurs présents et se chevauchant entre les niveaux RH, GL et physique est démontré par le diagramme de Venn de la figure 2.

Figure 2.

Voir version plus grande:

  • Dans cette fenêtre
  • Dans une nouvelle fenêtre
  • Télécharger comme diapositive PowerPoint

Figure 2.

Diagramme de Venn des sous-types de marqueurs. Le diagramme montre la distribution des marqueurs entre et parmi les niveaux RH, GL et physique. Les ensembles de marqueurs RH et GL sont définis par tous les marqueurs RH et GL auxquels on a attribué des positions de carte dans CompView (n = 4220 et n = 788), respectivement. L’ensemble de marqueurs physiques est défini par le nombre de marqueurs uniques avec des YACs WICGR associés et/ou des PAC/BACs Sanger (n = 2480), dont un sous-ensemble (n = 1742) est localisé dans CompView.

Pour inclure les informations positionnelles cytogénétiques, nous avons utilisé la base de données du génome (GDB) (Letovsky et al. 1998) pour identifier un ensemble de 110 marqueurs RH tier qui avaient été cytogénétiquement localisés à une bande spécifique du chromosome 1. En utilisant ces localisations comme cadre cytogénétique, les cytolocalisations inférées ont ensuite été calculées pour tous les autres marqueurs GL et RH. Une seule bande chromosomique a pu être attribuée pour 54% (2686) des marqueurs cytolocalisés ; le reste des marqueurs s’est vu attribuer une gamme de bandes cytogénétiques.

La représentation de structures génomiques plus importantes nécessite un mécanisme pour identifier les éléments redondants et partiellement redondants. Comme les positions cartographiques basées sur les RH sont déterminées par l’amplification de courts segments d’ADN, elles peuvent être représentées comme des points génomiques distincts. Cependant, les éléments génomiques fonctionnels sont souvent définis de manière plus subjective. Ainsi, un seul gène peut être représenté par plusieurs marqueurs répartis dans une grande région génomique, chaque marqueur correspondant à une position de carte distincte. L’intégration est également compliquée par la nomenclature des marqueurs, de sorte que plusieurs noms sont souvent attribués au même élément génomique. Pour plus de clarté, nous avons calculé à la fois la localisation précise de chaque marqueur distinct et la position consensuelle d’un groupe de marqueurs interreliés, appelé faisceau.

Une liste cumulative d’identifiants de base de données (ID) a été compilée à partir de tous les marqueurs dans Compdb. Les marqueurs trouvés pour partager des ID (partageant essentiellement un nom, une séquence ou un cluster d’EST identiques) ont été regroupés en faisceaux qui représentaient vraisemblablement des transcrits ou d’autres éléments génomiques fonctionnels. Chaque position de carte de faisceau a été définie à partir des positions de carte des marqueurs individuels qui composent le faisceau. Par exemple, supposons que le faisceau X contient trois marqueurs avec des positions intervalles couvrant les marqueurs cadres 1-4, 2-5, et 3-6, respectivement. Le faisceau X serait alors représenté par une position maximale de 1-6 et une position minimale, très probablement cartographique, de 3-4. Certains faisceaux contenaient des marqueurs dont les positions sur la carte ne se chevauchaient pas, ce qui indique des erreurs possibles dans la notation RH, la construction de clusters EST ou l’étiquetage des identifiants. Dans ces cas, les paquets ont été divisés en sous-ensembles de marqueurs avec des positions de carte se chevauchant. Quarante-trois pour cent (1796) des marqueurs ont pu être assemblés en 719 faisceaux, et des positions de carte minimales ont été définies pour 89 % des faisceaux. Pour les faisceaux avec des intervalles de carte minimums définis, la taille moyenne de l’intervalle minimum était de 1,4 Mb, tandis que le maximum moyen s’étendait sur 5,2 Mb. Cela indique que la procédure de regroupement peut réduire considérablement l’emplacement le plus probable de nombreux transcrits en associant les positions cartographiques de marqueurs équivalents. Les 76 regroupements restants (11 %) contenaient des marqueurs dont les positions sur la carte ne se chevauchaient pas, et ce pourcentage est largement indicatif du taux d’erreur cumulé dans les ensembles de données RHdb et UniGene. Ces faisceaux non chevauchants sont actuellement en cours d’évaluation pour déterminer la source et la raison des positions de carte conflictuelles.

Présentation des données

Pour la présentation des données, nous avons développé un site internet CompView (http://genome.chop.edu) qui fournit des interfaces graphiques et textuelles. Le chromosome entier (ou des sous-sections qui sont définies par des noms de marqueurs ou des bandes cytogénétiques) peut être visualisé graphiquement et personnalisé en utilisant l’applet interactive Java Mapview (Fig.3) (Letovsky et al. 1998). Les informations relatives aux marqueurs individuels comprennent les séquences d’amorces et les scores RH, les ID des bases de données, les attributions des groupes d’EST, les positions cytogénétiques déduites et les clones à insertion large associés (Fig. 4). Pour compléter les données génomiques présentées dans CompView, des liens hypertextes vers des bases de données externes sont également fournis. Actuellement, des liens directs vers 28 bases de données basées sur Internet sont inclus, avec des informations spécifiques sur les marqueurs disponibles pour 19 bases de données (Tableau 2). Il s’agit notamment de liens vers des dépôts de marqueurs ou de séquences tels que dbSTS, dbEST, GenBank, UniGene, RHdb et GDB ; de liens vers des bases de données de marqueurs de laboratoires individuels ou de centres de génomique ; d’interrogations en temps réel de projets de criblage de clones à grande insertion ; de recherches d’homologie de séquences à l’aide de BLAST ; et d’interrogations de moteurs de recherche à l’aide d’OMIM, BioHunt et GeneCards (Fig. 4). Ainsi, les enregistrements de marqueurs individuels présentés dans CompView servent de portail de données vers un plus large éventail de données génomiques, séquentielles et fonctionnelles disponibles sur d’autres sites.

Figure 3.

Voir version plus grande:

  • Dans cette fenêtre
  • Dans une nouvelle fenêtre
  • Télécharger comme diapositive PowerPoint

Figure 3.

Exemples d’interface Web CompView. (A) Écran de saisie pour rechercher une région du chromosome. Les régions peuvent être définies par deux marqueurs flanquants (à gauche), en cliquant sur une bande cytogénétique à partir d’un idéogramme de chromosome (à droite), ou en sélectionnant une ou une gamme de bandes cytogénétiques (non montré). Une entrée de requête pour la région entre D1S468 et D1S214 est affichée. (B) Retour tabulaire pour la requête D1S468 à D1S214 deA. Le type de marqueur, le statut transcriptionnel, l’intervalle RH, la position de la carte RH et la cytolocalisation sont indiqués pour chaque marqueur, avec un hyperlien vers des informations plus complètes fournies pour chaque marqueur. Le nombre total de chaque type de marqueur trouvé est indiqué en haut. En cliquant sur le bouton « map of region » en haut à droite, on obtient C. (C) Retour graphique de la requêteD1S468 à D1S214 visualisée avec Mapview. Dans cet exemple, seuls le cadre RH (à gauche) et une partie de l’étage des marqueurs RH (à droite) sont visibles. Les distances CentiRay de 1pter sont indiquées à droite du cadre. Les marqueurs RH intercalés sont précédés d’une ligne verticale indiquant leurs positions de vraisemblance 1000:1 par rapport au cadre RH. Les marqueurs utilisés pour l’interrogation sont mis en évidence sur le cadre, tout comme le marqueur RH de GNB1 ; en cliquant sur GNB1, on obtient l’enregistrement du marqueur présenté dans la Fig. 4.

Figure 4.

Voir version plus grande:

  • Dans cette fenêtre
  • Dans une nouvelle fenêtre
  • Télécharger comme diapositive PowerPoint

Figure 4.

Exemple d’enregistrement de marqueur. Montré est l’enregistrement individuel pour geneGNB1. Le texte souligné indique un lien hypertexte. Des liens vers des bases de données externes sont présents dans cet exemple vers les entrées dbEST (voir la légende du tableau 2 pour les abréviations), GDB, Sanger, GenBank, UniGene et RHdb pour ce marqueur ; pour effectuer une recherche BLAST des collections de séquences non redondantes (GenBank), EST (EST) et de séquences génomiques à haut débit (HTGS) dans GenBank ; d’effectuer une recherche dans GeneCards, OMIM et BioHunt pour « GNB1 » ; et d’effectuer une recherche dans la base de données de cartographie du chromosome 1 du Centre Sanger, Acedb1, pour trouver des BAC et des PAC avec les séquences d’amorces GNB1. Les boutons intitulés « MAP OF GNB1 » (carte du GNB1) et « GNB1 REGION » (région du GNB1) fournissent respectivement une représentation graphique de la région entourant le GNB1, analogue à la figure 3, et un résumé tabulaire de tous les marqueurs correspondant à cette région, analogue à la figure 3B. Les noms de catégories de données énumérés à gauche (tels que « Expression status ») sont des hyperliens vers des pages d’aide décrivant la catégorie.

Voir ce tableau:

  • Dans cette fenêtre
  • Dans une nouvelle fenêtre

Tableau 2.

Liens vers des bases de données externes sur le site Web CompView

De nombreux marqueurs sont associés à de multiples noms, et le tri de la nomenclature redondante pour un locus donné est souvent fastidieux. Pour sélectionner des noms de marqueurs appropriés, nous avons créé un algorithme qui sélectionne le nom de marqueur le plus approprié à partir du pool d’identifiants de base de données associés à chaque marqueur, selon une hiérarchie de sources de noms prédéterminée. Les faisceaux ont été nommés de manière similaire en sélectionnant dans le pool de noms de marqueurs au sein de chaque faisceau.

Intégrité des données

La vérification de l’ordre prédit des marqueurs est une étape cruciale dans la construction des cartes. Les méthodes de calcul utilisées pour la construction des étages RH et de liaison étaient basées sur des algorithmes de cartographie standard qui se sont avérés fiables pour un ordre précis des marqueurs (Matise et al. 1994 ; Dib et al. 1996 ; Langston et al. 1999). Nous avons également utilisé un certain nombre de comparaisons internes et externes pour évaluer l’intégrité de notre procédure de cartographie. Pour la comparaison interne, nous avons d’abord analysé soigneusement la carte du squelette pour déterminer si l’ordre des marqueurs défini par le cadre RH se comparait favorablement à l’ordre prédit par l’analyse de liaison génétique. De plus, pour le cadre RH, chaque marqueur a été supprimé individuellement puis remappé pour confirmer la localisation avec une confiance statistique suffisante. De plus, nous avons comparé les positions de tous les marqueurs placés à la fois sur le tiers de liaison et sur le tiers RH. Pour toutes les comparaisons internes, pratiquement toutes les positions des marqueurs étaient en accord. Pour la vérification externe, nous avons comparé nos résultats avec ceux des cartes du chromosome 1 publiées précédemment. L’ordre des 289 marqueurs de notre cadre RH a été comparé aux positions correspondantes sur les cartes GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998), et Généthon version 3 GL (Dib et al. 1996). La précision du cadre cytogénétique dérivé de la GDB a été déterminée par comparaison avec un ensemble de 212 clones à insertion large du chromosome 1 qui avaient été cartographiés cytogénétiquement par le Centre Sanger en préparation du séquençage. Chaque comparaison a montré des ordres de marqueurs concordants pour >90% des marqueurs. Presque toutes les divergences se sont avérées être isolées, nos positions de marqueurs prédites étant généralement adjacentes à celles d’autres cartes et impliquant généralement des marqueurs dont le placement ne bénéficie que d’un faible soutien statistique. Enfin, nous avons comparé les ordres de nos marqueurs avec ceux prédits par les cartes précédemment publiées de 1p35-36 (Jensen et al. 1997) et 1q41-43 (Weith et al. 1995). Les taux de concordance pour les marqueurs cartographiés en commun étaient de 94% avec la carte 1p distale et de 100% avec la carte 1q distale. Dans l’ensemble, ces comparaisons suggèrent fortement que la méthode CompView est solide et que les variations isolées des positions des marqueurs sont très probablement dues à des erreurs dans la génération ou la saisie des données plutôt que dans la construction des cartes.

Analyse du chromosome 1

Plusieurs aspects des résultats du chromosome 1 ont été analysés plus avant. Sur les 289 positions de cadre RH, 182 (63%) ont été définitivement assignées au bras court. Cette surreprésentation est probablement due au plus grand nombre de marqueurs RH spécifiques de 1p dans RHdb, qui à son tour est dû au ciblage sélectif de 1p pour la génération de STS par le Centre Sanger dans ses efforts de séquençage du chromosome 1 (Gregory et al. 1998). Les distances RH sont mesurées en centiRays, qui sont généralement considérés comme proportionnels à la distance physique (Cox et al. 1990). Cependant, des distances cartographiques RH gonflées ont été observées dans les régions centromériques et hétérochromatiques 1q adjacentes (positions de cadre RHD1S2696-D1S3356 ; distance moyenne 27,5 cR contre 12,7 cR pour le cadre entier ; P < 0,001), en accord avec les observations précédentes pour les régions centromériques (Benham et al. 1989 ; Cox et al. 1990 ; Walter et al. 1994). Plusieurs autres régions présentant une faible distance marqueur-cadre/centiRay ont été observées, plus particulièrement en 1p35 et 1q43 (Fig. 1). Ces régions peuvent représenter des zones locales de faible couverture de marqueurs ou de radiorésistance accrue, car les deux régions chevauchent des bandes cytogénétiques sombres (voir ci-dessous). Bien qu’un STS spécifique au télomère ne soit pas encore disponible pour 1p, un marqueur spécifique à 1q récemment identifié (TEL1q-10) (Hudson et al. 1995 ; Dib et al. 1996) est présent dans notre grappe RH, et son intervalle cartographique inclut le télomère 1q. Il sera important d’ancrer les futures cartes RH avec des marqueurs télomériques dès qu’ils seront disponibles.

Les bandes cytogénétiques à coloration légère de Giemsa sont généralement considérées comme riches en transcription (Bernardi 1989). Pour déterminer si ce principe est vrai pour le chromosome 1, nous avons calculé le nombre de transcrits qui avaient été assignés spécifiquement aux bandes claires et sombres de notre étage cytogénétique. Sur 1883 transcrits correspondant à une seule bande, 1663 (88,3%) ont été assignés aux bandes claires (Tableau 3). Après avoir pris en compte la taille relative de chaque bande, déterminée précédemment par des mesures de la longueur fractionnée (Francke et Oliver 1978), on a constaté que les bandes claires étaient en moyenne 1,7 fois plus susceptibles de contenir un transcrit que les bandes sombres de taille équivalente, la bande claire 1q21 étant la plus riche en transcrit. Cependant, il y avait plusieurs exceptions notables à la tendance générale, notamment une forte densité de transcription pour la bande sombre 1p31 et de faibles densités pour les bandes claires 1p32, 1p22, 1q23, 1q31 et 1q42.

Visualiser ce tableau:

  • Dans cette fenêtre
  • Dans une nouvelle fenêtre

Tableau 3.

Comparaison des bandes/marqueurs cytogénétiques

.

Laisser un commentaire