Una visión completa del cromosoma 1 humano

RESULTADOS

Razón y construcción de CompView

Una cantidad sustancial de datos genómicos ha sido depositada en varias bases de datos, incluyendo datos de mapeo basados en híbridos de radiación (RHdb) (Lijnzaad et al. 1998), datos de genotipado de marcadores polimórficos (CEPHdb) (Dausset et al. 1990), y datos de secuencias y clusters de EST que representan transcripciones únicas putativas (UniGene) (Boguski y Schuler 1995). Estos conjuntos de datos se utilizaron como base para nuestro ensamblaje de mapas, utilizando nuestro procedimiento CompView. El gran número de marcadores disponibles supera con creces la capacidad de los métodos de construcción de mapas basados en cálculos para ordenar más que un pequeño porcentaje de los marcadores con alta confianza. Por lo tanto, determinamos el orden de alta confianza de un subconjunto (marco) de marcadores y colocamos el resto de los marcadores en relación con este marco. CompView utiliza un proceso iterativo (encuadre dinámico) para añadir secuencialmente marcadores a un marco establecido, maximizando así el número de marcadores del marco y la resolución global del mapa.

Elegimos el conjunto de marcadores formados por PCR que fueron puntuados en el panel híbrido de radiación (RH) de Genebridge4 (GB4) (Gyapay et al. 1996) como punto de partida para CompView, ya que se trata del mayor conjunto de datos homogéneos de marcadores genómicos humanos disponible públicamente. Los datos brutos de RHdb y UniGene se importaron a Compdb, una base de datos relacional personalizada desarrollada para este proyecto. Todas las entradas de RHdb puntuadas en el panel GB4 y asignadas al cromosoma 1 (5.557 marcadores) se analizaron en función de la identidad de la secuencia del cebador y se ensamblaron en 4.442 conjuntos de marcadores únicos. Los datos de RH para el conjunto de marcadores únicos se analizaron entonces con MultiMap, un sistema experto para la construcción automatizada de mapas de RH (Matise et al. 1994).

Un conjunto de 62 marcadores de microsatélites Généthon que fueron cuidadosamente puntuados en el panel GB4 sirvió como mapa esquelético inicial durante la construcción. Los marcadores esqueléticos se ordenaron con probabilidades ≥1000:1 entre pares, y los órdenes determinados por el RH y el enlace genético coincidieron completamente. A continuación, se analizó cada marcador no esquelético frente al mapa esquelético utilizando MultiMap para determinar si podía añadirse a una posición única en el mapa esquelético con suficiente apoyo estadístico (≥1000:1). El marco final consistió en 289 marcadores que cubrían los 263 Mb del cromosoma 1, lo que supuso una resolución media de 910 kb (Fig. 1). A continuación, se calcularon los intervalos de probabilidad 1000:1 de todos los marcadores restantes, en relación con el marco. Se asignaron posiciones en el mapa a un total de 4220 marcadores únicos, que representaban 5306 conjuntos de cebadores (Tabla 1).

Figura 1.

Ver versión ampliada:

  • En esta ventana
  • En una nueva ventana
  • Descargar como diapositiva de PowerPoint

Figura 1.

Marco del cromosoma 1 RH. Los marcadores del marco se enumeran horizontalmente desde arriba a la izquierda hasta abajo a la derecha, empezando por la terminación de 1p. Los marcadores están espaciados proporcionalmente a sus posiciones en centiRay. Las citolocalizaciones se indican al principio de cada línea. En la parte inferior derecha se representa una escala física aproximada.

Ver esta tabla:

  • En esta ventana
  • En una nueva ventana

Tabla 1.

Resumen del mapeo del cromosoma 1

Integración de datos

De los 289 marcadores del marco RH, 111 eran polimórficos y habían sido genotipados en los pedigríes de referencia del Centre d’Etude du Polymorphisme Humain (CEPH) (Dausset et al. 1990). En un proceso análogo al de la construcción del marco RH, estos 111 marcadores se utilizaron como mapa esquelético para construir un marco de ligamiento genético (GL). Todos los polimorfismos asignados al cromosoma 1 de la base de datos de genotipos CEPHdb v8.1 se utilizaron como conjunto de datos de marcadores polimórficos. El marco GL resultante comprendía 160 marcadores ordenados con probabilidades ≥1000:1, con resoluciones de 2,0 cM y 1,6 Mb (Tabla 1). Otros 628 marcadores polimórficos, incluyendo tetranucleótidos y polimorfismos intragénicos de uso común que a menudo se excluyen de los mapas del genoma completo, se colocaron en intervalos de probabilidad de 1000:1 en relación con el marco. También incluimos 239 polimorfismos de un solo nucleótido (SNP) específicos del cromosoma 1 que habían sido puntuados en GB4 (Wang et al. 1998). En total, los niveles GL y RH sumaron 5008 colocaciones únicas de marcadores, con una densidad media de marcadores de 52 kb (Tabla 1).

A continuación, integramos el nivel RH, que está compuesto en gran parte por marcadores que representan secuencias transcritas, con los clusters de secuencias EST de UniGene (Boguski y Schuler 1995). Los clusters y los marcadores RH mapeados que compartían una secuencia EST idéntica se asociaron juntos. En general, 3543 de los 4220 marcadores de SR (84%) representaban transcripciones, y 2795 (79%) de estas transcripciones estaban asociadas con un total de 1830 clusters de EST (Tabla 1).

Los datos de mapeo físico se integraron identificando los marcadores para los que se habían identificado clones positivos de PAC, BAC o YAC. Se determinó si cada marcador mapeado estaba contenido en uno o más clones BAC o PAC identificados para la secuenciación del cromosoma 1 por el Centro Sanger (Gregory et al. 1998), y se integraron 6167 clones BAC/PAC que representaban 1199 marcadores del cromosoma 1 (Tabla 1). Los clones YAC que contienen muchos de los marcadores mapeados han sido aislados por el Whitehead Institute Center for Genome Research (WICGR) (Hudson et al. 1995). Se añadieron un total de 1930 YAC del cromosoma 1, que representan 2275 marcadores en el mapa. El número de marcadores presentes y superpuestos entre los niveles RH, GL y físico se demuestra en el diagrama de Venn de la Figura 2.

Figura 2.

Ver versión ampliada:

  • En esta ventana
  • En una nueva ventana
  • Descargar como diapositiva de PowerPoint

Figura 2.

Diagrama de Venn de los subtipos de marcadores. El diagrama muestra la distribución de los marcadores entre los niveles RH, GL y físico. Los conjuntos de marcadores RH y GL están definidos por todos los marcadores RH y GL asignados a posiciones de mapa en CompView (n = 4220 y n = 788), respectivamente. El conjunto de marcadores físicos se define por el número de marcadores únicos con WICGR YACs y/o Sanger PAC/BACs asociados (n = 2480), un subconjunto de los cuales (n = 1742) está localizado en CompView.

Para incluir la información posicional citogenética, utilizamos la Base de Datos del Genoma (GDB) (Letovsky et al. 1998) para identificar un conjunto de 110 marcadores de nivel RH que habían sido localizados citogenéticamente a una banda específica del cromosoma 1. Utilizando estas localizaciones como marco citogenético, se calcularon entonces las citolocalizaciones inferidas para todos los marcadores GL y RH restantes. Se pudo asignar una sola banda cromosómica para el 54% (2686) de los marcadores citolocalizados; al resto de los marcadores se les asignó un rango de bandas citogenéticas.

La representación de estructuras genómicas mayores requiere un mecanismo para identificar elementos redundantes y parcialmente redundantes. Como las posiciones del mapa basadas en el RH se determinan mediante la amplificación de segmentos cortos de ADN, pueden representarse como puntos genómicos distintos. Sin embargo, los elementos genómicos funcionales suelen definirse de forma más subjetiva. Así, un solo gen puede estar representado por múltiples marcadores distribuidos por una gran región genómica, y cada marcador corresponde a una posición cartográfica distinta. La integración también se ve complicada por la nomenclatura de los marcadores, ya que a menudo se asignan varios nombres al mismo elemento genómico. Para mayor claridad, hemos calculado tanto la localización precisa de cada marcador distinto como la posición consensuada de un grupo de marcadores interrelacionados, denominado paquete.

Se compiló una lista acumulativa de identificadores de base de datos (ID) a partir de todos los marcadores en Compdb. Los marcadores que compartían IDs (esencialmente compartían un nombre, secuencia o grupo de EST idénticos) se agruparon en paquetes que presumiblemente representaban transcripciones u otros elementos genómicos funcionales. Cada posición cartográfica del paquete se definió a partir de las posiciones cartográficas de los marcadores individuales que componen el paquete. Por ejemplo, supongamos que el paquete X contiene tres marcadores con posiciones de intervalo que abarcan los marcadores marco 1-4, 2-5 y 3-6, respectivamente. El haz X se representaría entonces con una posición máxima de 1-6 y una posición mínima, muy probablemente en el mapa, de 3-4. Algunos paquetes contenían marcadores con posiciones cartográficas que no se solapaban, lo que indicaba posibles errores en la puntuación de RH, la construcción de grupos de EST o el etiquetado de identificadores. En estos casos, los paquetes se dividieron en subconjuntos de marcadores con posiciones cartográficas superpuestas. El 43% (1.796) de los marcadores pudo reunirse en 719 conjuntos, y se definieron posiciones cartográficas mínimas para el 89% de los conjuntos. En el caso de los paquetes con intervalos cartográficos mínimos definidos, el tamaño medio del intervalo mínimo era de 1,4 Mb, mientras que el máximo medio abarcaba 5,2 Mb. Esto indica que el procedimiento de agrupación puede acotar sustancialmente la localización más probable de muchos transcritos al asociar posiciones cartográficas de marcadores equivalentes. Los 76 paquetes restantes (11%) contenían marcadores con posiciones cartográficas no superpuestas, y este porcentaje es en gran medida indicativo de la tasa de error acumulada en los conjuntos de datos de RHdb y UniGene. Actualmente se está evaluando el origen y la razón de las posiciones conflictivas en los mapas de estos paquetes no superpuestos.

Presentación de datos

Para la presentación de los datos, hemos desarrollado un sitio de Internet CompView (http://genome.chop.edu) que proporciona interfaces gráficas y de texto. El cromosoma completo (o las subsecciones definidas por los nombres de los marcadores o las bandas citogenéticas) puede visualizarse gráficamente y personalizarse utilizando el applet interactivo Java Mapview (Fig.3) (Letovsky et al. 1998). La información de los marcadores individuales incluye las secuencias de los cebadores y las puntuaciones RH, las identificaciones de las bases de datos, las asignaciones de los clústeres EST, las posiciones citogenéticas inferidas y los clones de inserción grandes asociados (Fig. 4). Para complementar los datos genómicos presentados en CompView, también se proporcionan enlaces de hipertexto a bases de datos externas. Actualmente, se incluyen enlaces directos a 28 bases de datos basadas en Internet, con información de marcadores específicos disponible para 19 bases de datos (Tabla 2). Éstas incluyen enlaces a repositorios de marcadores o secuencias como dbSTS, dbEST, GenBank, UniGene, RHdb y GDB; enlaces a bases de datos de marcadores de laboratorios individuales o centros genómicos; consultas en tiempo real de proyectos de cribado de clones de gran tamaño; búsquedas de homología de secuencias mediante BLAST; y consultas en motores de búsqueda mediante OMIM, BioHunt y GeneCards (Fig. 4). Así, los registros de marcadores individuales presentados en CompView sirven como un portal de datos a un conjunto más amplio de datos genómicos, de secuencia y funcionales disponibles en otros sitios.

Figura 3.

Ver versión ampliada:

  • En esta ventana
  • En una nueva ventana
  • Descargar como diapositiva de PowerPoint

Figura 3.

Ejemplos de la interfaz web de CompView. (A) Pantalla de entrada para buscar una región del cromosoma. Las regiones pueden definirse mediante dos marcadores de flanqueo (izquierda), haciendo clic en una banda citogenética de un ideograma del cromosoma (derecha), o seleccionando una o un rango de bandas citogenéticas (no se muestra). Se muestra una entrada de consulta para la región entre D1S468 y D1S214. (B) Retorno tabular para la consulta D1S468 a D1S214 deA. Se muestra el tipo de marcador, el estado transcripcional, el intervalo RH, la posición en el mapa RH y la citolocalización para cada marcador, con un hipervínculo a información más completa para cada marcador. En la parte superior se muestra el número total de cada tipo de marcador encontrado. Haciendo clic en el botón «mapa de la región» en la parte superior derecha se obtiene C. (C) Retorno gráfico de la consultaD1S468 a D1S214 vista con Mapview. En este ejemplo, sólo son visibles el marco RH (izquierda) y una parte de la grada de los marcadores RH (derecha). Las distancias CentiRay de 1pter se muestran a la derecha del marco. Los marcadores de la SR intercalados van precedidos de una línea vertical que indica sus posiciones de probabilidad 1000:1 en relación con el marco de la SR. Los marcadores utilizados para la consulta están resaltados en el marco, al igual que el marcador RH para GNB1; al hacer clic en GNB1 se obtiene el registro del marcador que se muestra en la Fig. 4.

Figura 4.

Ver versión ampliada:

  • En esta ventana
  • En una nueva ventana
  • Descargar como diapositiva de PowerPoint

Figura 4.

Ejemplo de registro de marcador. Se muestra el registro individual para el genGNB1. El texto subrayado indica un enlace de hipertexto. Los enlaces a bases de datos externas están presentes en este ejemplo para las entradas de dbEST (véase la leyenda de la Tabla 2 para las abreviaturas), GDB, Sanger, GenBank, UniGene y RHdb para este marcador; para realizar una búsqueda BLAST de las colecciones de secuencias genómicas no redundantes (GenBank), EST (EST) y de alto rendimiento (HTGS) en GenBank; para buscar «GNB1» en GeneCards, OMIM y BioHunt; y para buscar en la base de datos de mapeo del cromosoma 1 del Centro Sanger, Acedb1, los BAC y PAC con las secuencias de cebadores de GNB1. Los botones etiquetados como «MAPA DE GNB1» y «REGIÓN GNB1» proporcionan una representación gráfica de la región que rodea a GNB1 análoga a la Fig. 3 Cand un resumen tabular de todos los marcadores que mapean esta región análoga a la Fig. 3 B, respectivamente. Los nombres de las categorías de datos que aparecen a la izquierda (como «Estado de expresión») tienen hipervínculos a páginas de ayuda que describen la categoría.

Ver esta tabla:

  • En esta ventana
  • En una nueva ventana

Tabla 2.

Enlaces a bases de datos externas en el sitio web de CompView

Muchos marcadores están asociados a múltiples nombres, y clasificar la nomenclatura redundante para un determinado locus es a menudo tedioso. Para seleccionar los nombres de los marcadores adecuados, creamos un algoritmo que selecciona el nombre de marcador más apropiado del conjunto de ID de la base de datos asociados a cada marcador, de acuerdo con una jerarquía predeterminada de fuentes de nombres. Los nombres de los paquetes se nombraron de manera similar, seleccionando del conjunto de nombres de marcadores dentro de cada paquete.

Integridad de los datos

La verificación del orden de los marcadores previstos es un paso crucial en la construcción del mapa. Los métodos computacionales utilizados para la construcción de los niveles de SR y de ligamiento se basaron en algoritmos cartográficos estándar que han demostrado ser fiables para un ordenamiento preciso de los marcadores (Matise et al. 1994; Dib et al. 1996; Langston et al. 1999). También utilizamos una serie de comparaciones internas y externas para evaluar la integridad de nuestro procedimiento de mapeo. Para la comparación interna, primero analizamos cuidadosamente el mapa esquelético para determinar si el orden de los marcadores definidos por el RH se comparaba favorablemente con el orden predicho por el análisis de vinculación genética. Además, para el marco RH, se eliminó cada marcador individualmente y luego se volvió a mapear para confirmar la localización con suficiente confianza estadística. Además, comparamos las posiciones de todos los marcadores colocados tanto en el marco de enlace como en el de RH. En todas las comparaciones internas, prácticamente todas las posiciones de los marcadores coincidieron. Para la verificación externa, comparamos nuestros resultados con los de los mapas del cromosoma 1 publicados anteriormente. El orden de nuestros 289 marcadores del marco RH se comparó con las posiciones correspondientes en los mapas GeneMap96 RH (Schuler et al. 1996), GeneMap98 RH (Deloukas et al. 1998) y Généthon versión 3 GL (Dib et al. 1996). La precisión del marco citogenético derivado del GDB se determinó mediante la comparación con un conjunto de 212 clones de gran inserción del cromosoma 1 que habían sido cartografiados citogenéticamente por el Centro Sanger en preparación para la secuenciación. Cada comparación mostró órdenes de marcadores concordantes para >90% de los marcadores. Casi todas las discrepancias resultaron ser aisladas, y nuestras posiciones de marcadores predichas solían ser adyacentes a las de otros mapas y solían implicar a marcadores con escaso apoyo estadístico para su colocación. Por último, comparamos nuestros órdenes de marcadores con los predichos por mapas previamente publicados de 1p35-36 (Jensen et al. 1997) y 1q41-43 (Weith et al. 1995). Las tasas de concordancia para los marcadores mapeados en común fueron del 94% con el mapa distal 1p y del 100% con el mapa distal 1q. En general, estas comparaciones sugieren fuertemente que el método CompView es sólido y que las variaciones aisladas de las posiciones de los marcadores se deben muy probablemente a errores en la generación o entrada de datos más que en la construcción del mapa.

Análisis del cromosoma 1

Se analizaron más a fondo varios aspectos de los resultados del cromosoma 1. De las 289 posiciones del marco RH, 182 (63%) se asignaron definitivamente al brazo corto. Esta sobrerrepresentación se debe probablemente al mayor número de marcadores RH específicos de 1p en RHdb, que a su vez se debe a la selección de 1p para la generación de STS por parte del Centro Sanger en sus esfuerzos de secuenciación del cromosoma 1 (Gregory et al. 1998). Las distancias RH se miden en centiRays, que generalmente se consideran proporcionales a la distancia física (Cox et al. 1990). Sin embargo, se observaron distancias de mapa RH infladas dentro de las regiones heterocromáticas centroméricas y adyacentes a 1q (posiciones del marco RHD1S2696-D1S3356; distancia media de 27,5 cR frente a 12,7 cR para todo el marco; P < 0,001), en consonancia con observaciones anteriores para las regiones centroméricas (Benham et al. 1989; Cox et al. 1990; Walter et al. 1994). Se observaron varias regiones adicionales de baja distancia marcador marco/centiRay, sobre todo en 1p35 y 1q43 (Fig. 1). Estas regiones pueden representar áreas locales de escasa cobertura de marcadores o de mayor radioresistencia, ya que ambas regiones se superponen a bandas citogenéticas oscuras (ver más adelante). Aunque todavía no se dispone de un STS específico para el telómero 1p, un marcador específico de 1q recientemente identificado (TEL1q-10) (Hudson et al. 1995; Dib et al. 1996) está presente en nuestro nivel de RH, y su intervalo de mapa incluye el telómero 1q. Será importante anclar futuros mapas de SR con marcadores teloméricos a medida que estén disponibles.

Las bandas citogenéticas que tiñen con Giemsa se consideran generalmente ricas en transcritos (Bernardi 1989). Para determinar si este principio es válido para el cromosoma 1, calculamos el número de transcritos que habían sido asignados específicamente a bandas claras y oscuras en nuestro nivel citogenético. De 1883 transcritos asignados a una sola banda, 1663 (88,3%) fueron asignados a bandas claras (Tabla 3). Tras tener en cuenta el tamaño relativo de cada banda, determinado previamente mediante mediciones de longitud fraccionaria (Francke y Oliver 1978), se observó que las bandas claras tenían una probabilidad 1,7 veces mayor de contener un transcrito que las bandas oscuras de tamaño equivalente, siendo la banda clara 1q21 la más rica en transcritos. Sin embargo, hubo varias excepciones notables a la tendencia general, incluyendo una alta densidad de transcripción para la banda oscura 1p31 y bajas densidades para las bandas claras 1p32, 1p22, 1q23, 1q31 y 1q42.

Ver esta tabla:

  • En esta ventana
  • En una nueva ventana

Tabla 3.

Comparación de bandas/marcadores citogenéticos

Deja un comentario