Preguntas frecuentes: BLAT

Temas

  • BLAT vs. BLAST
  • BLAT no puede encontrar ninguna secuencia o no todas las coincidencias esperadas
  • Los resultados de BLAT no se pueden encontrar. BLAST
  • BLAT no puede encontrar una secuencia en absoluto o no todas las coincidencias esperadas
  • BLAT o In-Silico PCR encuentra múltiples coincidencias como chr_alt o chr_fix aunque sólo se espera una
  • Restricciones de uso de BLAT
  • Descarga del código fuente y la documentación de BLAT
  • Replicación de los parámetros de BLAT basados en la web en la versión de comandosde línea de comandos
  • Usar la bandera -ooc
  • Replicar los cálculos del porcentaje de identidad y de la puntuación de BLAT basados en la web
  • Replicar los resultados de la búsqueda «me siento afortunado» de BLAT basados en la web
  • Usar BLAT para secuencias cortas con la máxima sensibilidad
  • BLAT ALL genomes
  • BLAT ALL genomes: No se han encontrado coincidencias
  • Aproximación de los resultados de BLAT basados en la web utilizando gfServer/gfClient
  • Las posiciones de inicio de los resultados de Standalone o gfServer/gfClient están desviadas en uno

Volver al índice de preguntas frecuentes

BLAT vs. BLAST

¿Cuáles son las diferencias entre BLAT y BLAST?

BLAT es una herramienta de alineación como BLAST, pero su estructura es diferente. En el ADN, BLAT funciona manteniendo un índice de un genoma entero en la memoria. Así, la base de datos objetivo de BLAT no es un conjunto de secuencias del GenBank, sino un índice derivado del ensamblaje de todo el genoma. Por defecto, el índice se compone de todos los meros de 11 que no se solapan, excepto los que están muy implicados en las repeticiones, y utiliza menos de un gigabyte de RAM. Este menor tamaño significa que BLAT es mucho más fácil de replicar que BLAST. Blat de ADN está diseñado para encontrar rápidamente secuencias del 95% y de mayor similitud de una longitud de 40 bases o más. Puede pasar por alto alineaciones de secuencias más divergentes o más cortas. (La configuración por defecto y el comportamiento esperado de Blat independiente son ligeramente diferentes de los de la versión gráfica de BLAT.)

En las proteínas, BLAT utiliza 4-mers en lugar de 11-mers, encontrando secuencias de proteínas de 80% y más de similitud a la consulta de longitud 20+ aminoácidos. El índice de proteínas requiere algo más de 2 gigabytes de RAM. En la práctica -debido a las tasas de divergencia de las secuencias a lo largo del tiempo evolutivo- DNA BLAT funciona bien dentro de los seres humanos y los primates, mientras que protein Blat sigue encontrando buenas coincidencias dentro de los vertebrados terrestres e incluso en organismos anteriores para las proteínas conservadas. Dentro de los humanos, el protein Blat da una imagen mucho mejor de las familias de genes (paralogos) que el DNA Blat. Sin embargo, BLAST y psi-BLAST en el NCBI pueden encontrar coincidencias mucho más remotas.

Desde un punto de vista práctico, BLAT tiene varias ventajas sobre BLAST:

  • velocidad (sin colas, respuesta en segundos) al precio de una menor profundidad de homología
  • la capacidad de enviar una larga lista de consultas simultáneas en formato fasta
  • cinco cómodas opciones de ordenación de la salida
  • un enlace directo al navegador de UCSC
  • detalles del bloque de alineación en orden genómico natural
  • una opción para lanzar la alineación más tarde como parte de una pista personalizada

BLAT se utiliza comúnmente para buscar la ubicación de una secuencia en el genoma o determinar la estructura de los exones de un ARNm, pero los usuarios expertos pueden ejecutar grandes trabajos por lotes y realizar cambios de sensibilidad de los parámetros internos instalando Blat de línea de comandos en su propio servidor Linux.

BLAT no encuentra una secuencia o no todas las coincidencias esperadas

No puedo encontrar una secuencia con BLAT aunque estoy seguro de que está en el genoma. ¿Estoy haciendo algo mal?

En primer lugar, compruebe si está utilizando la versión correcta del genoma. Por ejemplo, hay dos versiones del genoma humano que se utilizan actualmente de forma generalizada (hg19 y hg38) y es posible que su secuencia sólo esté en una de ellas. Muchos artículos publicados no especifican la versión de ensamblaje, por lo que puede ser necesario probar con ambas.

Las secuencias muy cortas que pasan por encima de un sitio de empalme en una secuencia de ADNc no se pueden encontrar, ya que no están en el genoma. Los cebadores de qPCR son un ejemplo típico. Para estos casos, intente utilizar la PCR In-Silico y seleccionar un conjunto de genes como objetivo. En general, la herramienta In-Silico PCR es más sensible y debería preferirse para los pares de cebadores.

Otro caso problemático es la búsqueda de secuencias en repeticiones o transposones.BLAT omite las partes más repetitivas de la consulta y limita el número de coincidencias que encuentra, lo que hace que se pierdan coincidencias para estas secuencias repetidas.La versión online de BLAT enmascara 11mers de la consulta que aparecen más de 1024 veces en el genoma y limita los resultados a 16 coincidencias por cadena cromosómica. Esto significa que se devuelven como máximo 32 localizaciones por cromosoma. Esto se hace para mejorar la velocidad, pero puede dar lugar a resultados perdidos cuando se buscan secuencias en repeticiones.

A menudo, para las secuencias repetidas, se puede utilizar la pista de la cadena propia para encontrar las otras coincidencias, pero sólo si las otras coincidencias son lo suficientemente largas y específicas. Puede comprobar si alguna secuencia está presente en un lugar concreto utilizando la pista «Coincidencia corta» si su secuencia es inferior a 30 pb.Puede sortear esta limitación de longitud mínima añadiendo más secuencia de flanqueo a su consulta para que ésta sea lo suficientemente única. Si esto no es posible, la única alternativa es descargar los ejecutables de BLAT y el archivo .2bit de un genoma a su propia máquina y utilizar BLAT en la línea de comandos. Para más información, consulte Descargar el código fuente y la documentación de BLAT. Cuando utilice la versión de BLAT en la línea de comandos, puede establecer la opción repMatch a un valor grande para intentar mejorar la búsqueda de coincidencias en regiones repetitivas y no utilizar uno de los archivos de enmascaramiento de repetición 11.ooc por defecto.

BLAT o In-Silico PCR encuentra múltiples coincidencias como chr_alt o chr_fix aunque sólo se espera una

Estoy viendo dos o más coincidencias en el genoma aunque sólo debería haber una. ¿Qué son estas coincidencias adicionales?

Esto suele ocurrir en los nuevos montajes del genoma, como el hg38, cuando se busca una secuencia que tiene una secuencia «alternativa» o «fija». Para mejorar la calidad de estos ensamblajes, los curadores han añadido múltiples versiones de algunos loci importantes, por ejemplo, las regiones MHC. También añaden secuencias fijas para resolver errores sin cambiar la referencia. Consulte la entrada de nuestro blog sobre parches para obtener más información.

Cuando se hace blat o isPCR de una secuencia que coincide con una ubicación cromosómica que también tiene una secuencia fix o alt, verá una coincidencia en el cromosoma de referencia (por ejemplo, «chr1») y otra coincidencia en la secuencia patch (por ejemplo, chr1_KN196472v1_fix). En la mayoría de los casos es seguro ignorar la coincidencia del parche, ya que un genoma humano no contendrá al mismo tiempo la secuencia de referencia y la alternativa. Para obtener más información sobre los tipos específicos de secuencias de parche, consulte nuestra entrada de preguntas frecuentes sobre el tema.

Restricciones de uso de Blat

He recibido una advertencia de su servidor Blat informándome de que he superado las limitaciones de uso del servidor. ¿Pueden informarme sobre los parámetros de uso del servidor Blat de la UCSC?

Debido a la gran demanda de nuestros servidores Blat, restringimos el servicio para los usuarios que consultan la herramienta BLAT de forma programada o realizan grandes consultas por lotes. El uso de BLAT mediante programación está limitado a un máximo de una consulta cada 15 segundos y a no más de 5.000 consultas al día. Por favor, limite las consultas por lotes a 25 secuencias o menos.

Para los usuarios con grandes demandas de Blat, recomendamos descargar la herramienta BLAT para su uso local. Para obtener más información, consulte Descarga del código fuente y la documentación de BLAT.

Descarga del código fuente y la documentación de BLAT

¿Se puede descargar el código fuente de BLAT? ¿Está disponible la documentación?

El código fuente y los ejecutables de BLAT están disponibles libremente para uso académico, no lucrativo y personal. La información sobre licencias comerciales está disponible en el sitio web de Kent Informatics.

El código fuente de BLAT puede descargarse de http://hgdownload.soe.ucsc.edu/admin/ (ubicado en /kent/src/blat dentro del árbol de código fuente jksrci*.zip más reciente). Para los ejecutables de BLAT, vaya a http://hgdownload.soe.ucsc.edu/admin/exe/ y elija su tipo de máquina.

La documentación sobre las especificaciones del programa BLAT está disponible aquí. Tenga en cuenta que el BLAT de línea de comandos no devuelve coincidencias con nucleótidos U en la secuencia de consulta.

Replicación de los parámetros del Blat basado en la web en la versión de línea de comandos

Estoy configurando mi propio servidor Blat y me gustaría utilizar los mismos valores de parámetros que utiliza el servidor Blat basado en la web de la UCSC.

Casi siempre esperamos pequeñas diferencias entre el hgBLAT/gfServer y el Blat autónomo de línea de comandos. Las mejores coincidencias se pueden encontrar utilizando las utilidades pslReps y pslCDnaFilter. El Blat basado en la web está ajustado de forma permisiva con una puntuación mínima de 20, que mostrará la mayoría de los alineamientos. Aconsejamos decidir qué parámetros de filtrado tienen más sentido para el experimento o el análisis. A menudo estos ajustes serán diferentes y más estrictos que los del Blat basado en la web. Teniendo esto en cuenta, utilice los siguientes ajustes para aproximarse a los resultados de búsqueda del Blat basado en la web:

Nota: Hay casos en los que el enfoque gfServer/gfClient proporciona una mejor aproximación a los resultados de la web que el Blat independiente. Véase el ejemplo siguiente para una visión general de este proceso.

Blat autónomo:

  • Búsqueda en Blat:
    blat -stepSize=5 -repMatch=2253 -minScore=20 -minIdentity=0 database.2bit query.fa output.psl
  • Nota: Para replicar los resultados de la web, debe utilizarse la salida PSL. BLAT maneja los formatos de salida alternativos (como blast8) de forma ligeramente diferente, y esto puede dar lugar a pequeñas diferencias en los resultados; en particular para las alineaciones cortas. Además, la secuencia de consulta debe tener todos los nucleótidos U convertidos en nucleótidos T o tener la bandera «-q=rna» utilizada para coincidir con la web-BLAT.

faToTwoBit:

  • Usa el enmascaramiento suave para convertir el formato Fasta al formato de 2 bits para la entrada BLAT.

gfServer (así es como están configurados los servidores BLAT basados en la web de la UCSC):

  • Servidor BLAT (capaz de PCR):
    gfServer start blatMachine portX -stepSize=5 -log=untrans.log database.2bit
  • Servidor BLAT traducido:
    gfServer start blatMachine portY -trans -mask -log=trans.log database.2bit

Para habilitar las coincidencias ADN/ADN y ADN/ARN, sólo se necesitan los archivos host, port y twoBit. El mismo puerto se utiliza tanto para Blat sin traducir (gfClient) como para PCR (webPcr). Necesitará un servidor Blat separado en un puerto separado para habilitar el Blat traducido (búsquedas de proteínas o búsquedas traducidas en el espacio de las proteínas).

gfClient:

  • Configure -minScore=0 y -minIdentity=0. Esto resultará en algunos aciertos de baja puntuación, generalmente espurios, pero para el uso interactivo es suficientemente fácil ignorarlos (porque los resultados están ordenados por puntuación) y a veces los aciertos de baja puntuación son útiles.

Observaciones sobre repMatch:

  • La configuración por defecto para las coincidencias de ADN de gfServer es: repMatch = 1024 * (tileSize/stepSize).
  • La configuración por defecto para las coincidencias de ADN de Blat es: repMatch = 1024 (si tileSize=11).
  • Para obtener resultados en la línea de comandos que sean equivalentes a los resultados basados en la web, se debe especificar repMatch cuando se utilice BLAT.

Para obtener más información sobre cómo replicar la puntuación y el porcentaje de coincidencias de identidad mostrados por nuestro Blat basado en la web, consulte este FAQ de BLAT.

Para más información sobre los parámetros disponibles para BLAT, gfServer y gfClient, consulte las especificaciones de BLAT.

Usando la bandera -ooc

¿Qué hace la bandera -ooc?

Usando cualquier opción -ooc en BLAT, como -ooc=11.ooc, acelera las búsquedas similares a la secuencia de enmascaramiento de repetición. El archivo 11.ooc contiene secuencias determinadas como sobrerrepresentadas en la secuencia del genoma. Para mejorar la velocidad de la búsqueda, estas secuencias no se utilizan cuando se realiza un alineamiento con el genoma. Para secuencias de tamaño razonable, esto no creará un problema y reducirá significativamente el tiempo de procesamiento.

Al no utilizar el archivo 11.ooc, aumentará el tiempo de alineación, pero también aumentará ligeramente la sensibilidad. Esto puede ser importante si está alineando secuencias más cortas o secuencias de baja calidad. Por ejemplo, si una secuencia particular consiste principalmente en secuencias en el archivo 11.ooc, nunca será sembrada correctamente para una alineación si se usa la bandera -ooc.

En resumen, si no está encontrando ciertas secuencias y puede permitirse el tiempo de procesamiento extra, puede querer ejecutar BLAT sin el archivo 11.ooc si su situación particular justifica su uso.

Replicación de los cálculos de identidad y puntuación del Blat basado en la web

Usando mi propio servidor Blat de línea de comandos, ¿cómo puedo replicar los cálculos de identidad y puntuación producidos por el Blat basado en la web?

No hay ninguna opción en el Blat de línea de comandos que le dé el porcentaje de identidad y la puntuación. Sin embargo, hemos creado scripts que incluyen los cálculos:

  • Ver el script perl del árbol de fuentes: pslScore.pl
  • Ver el programa C correspondiente: pslScore.c y las funciones de biblioteca asociadas pslScore y pslCalcMilliBad en psl.c

Vea nuestro FAQ sobre licencias y descargas de código fuente para obtener información sobre la obtención de la fuente.

Replicación de los resultados de la búsqueda «Me siento afortunado» de Blat basada en la web

¿Cómo puedo generar los mismos resultados de búsqueda que la opción «Me siento afortunado» de Blat basada en la web utilizando Blat de línea de comandos?

El código para la búsqueda «Me siento afortunado» de Blat ordena los resultados basándose en la opción de salida de ordenación que haya seleccionado en la página de consulta. A continuación, devuelve la alineación de mayor puntuación de la primera secuencia de consulta.

Si está ordenando los resultados por «consulta, inicio» o «cromo, inicio», generar el resultado «Me siento afortunado» es sencillo: ordene el archivo de salida por estas columnas, y luego seleccione el resultado superior.

Para replicar cualquiera de las opciones de ordenación que implican puntuación, primero debe calcular la puntuación de cada resultado en su archivo de salida PSL, y luego ordenar los resultados por puntuación u otra combinación (por ejemplo, «query, score» y «chrom, score»). Consulte la sección sobre Replicación de los cálculos de identidad y puntuación porcentual de Blat basados en la web para obtener información sobre el cálculo de la puntuación.

Alternativamente, puede intentar filtrar su salida de Blat PSL utilizando el programapslReps o pslCDnaFilter disponible en el código fuente del Navegador del Genoma. Para obtener información sobre cómo obtener el código fuente, consulte nuestras preguntas frecuentes sobre licencias y descargas del código fuente.

Uso de BLAT para secuencias cortas con máxima sensibilidad

¿Cómo configuro BLAT para secuencias cortas con máxima sensibilidad?

Aquí hay algunas pautas para configurar Blat independiente y gfServer/gfClient para estas condiciones:

  • La fórmula para encontrar el tamaño de consulta más corto que garantice una coincidencia (si los azulejos coincidentes no están marcados como sobreutilizados) es: 2 * stepSize + tileSize – 1
    Por ejemplo, con stepSize fijado en 5 y tileSize fijado en 11, se encontrarán coincidencias de tamaño de consulta 2 * 5 + 11 – 1 = 20 pb si la consulta coincide exactamente con el objetivo.
    El parámetro stepSize puede ir de 1 a tileSize.
    El parámetro tileSize puede ir de 6 a 15. En el caso de las proteínas, el rango empieza por abajo.
    Para minMatch=1 (por ejemplo, proteína), la longitud mínima de coincidencia garantizada es: 1 * stepSize + tileSize – 1
    Nota: También hay un «tamaño mínimo de suerte» para los aciertos. Se trata de la menor coincidencia posible que BLAT puede encontrar. Este tamaño mínimo de suerte se puede calcular con la fórmula: stepSize + tileSize. Por ejemplo, si usamos un tileSize de 11 y stepSize de 5, los aciertos menores a 16 bases no serán reportados.
  • Pruebe a usar -fine.
  • Use un valor grande para repMatch (por ejemplo, -repMatch = 1000000) para reducir la posibilidad de que un azulejo sea marcado como sobreutilizado.
  • No utilice un archivo .ooc.
  • No utilice -fastMap.
  • No utilice opciones de línea de comandos de enmascaramiento.

Los cambios anteriores harán que BLAT sea más sensible, pero también ralentizarán la velocidad y aumentarán el uso de memoria. Puede ser necesario procesar un cromosoma a la vez para reducir los requisitos de memoria.

Una nota sobre el filtrado de la salida: aumentar el valor del parámetro -minScore más allá de la mitad del tamaño de la consulta no tiene más efecto. Por lo tanto, utilice el programa pslReps o pslCDnaFilter disponible en el código fuente del Navegador del Genoma para filtrar el tamaño, la puntuación, la cobertura o la calidad deseada. Para obtener información sobre cómo obtener el código fuente, consulte nuestras preguntas frecuentes sobre licencias y descargas del código fuente.

Blat ALL genomes

¿Cómo puedo blatear consultas para los ensamblajes genómicos por defecto de todos los organismos?

BLAT está diseñado para encontrar rápidamente la similitud de secuencias entre la consulta y las secuencias objetivo. Generalmente, BLAT se utiliza para encontrar lugares de homología de secuencias en un único genoma objetivo o para determinar la estructura de exones de un ARNm. BLAT también permite a los usuarios comparar la secuencia de consulta con todos los ensamblajes por defecto de los organismos alojados en el UCSC Genome Browser. La función Search ALL puede ser útil si tiene una secuencia de consulta ambigua y está tratando de determinar a qué organismo puede pertenecer.

Seleccionando la casilla «Search ALL» encima de la lista desplegable Genome le permite buscar en los genomas de los ensamblajes por defecto para todos nuestros organismos. También busca en los servidores Blat de cualquier centro adjunto, lo que significa que puede buscar en sus centros de ensamblaje generados por el usuario. La página de resultados muestra una lista ordenada de todos nuestros organismos y su homología con la secuencia consultada. Los resultados están ordenados de manera que el organismo con la mejor puntuación de alineación está en la parte superior, indicando qué región(es) de ese organismo tiene(n) la mayor homología con su secuencia de consulta.La alineación completa, incluyendo los desajustes y los huecos, debe tener una puntuación de 20 o más para aparecer en la salida de Blat. Al hacer clic en un enlace de la lista de ensamblajes, accederá a una nueva página que muestra varias ubicaciones y puntuaciones de homología de secuencias en el ensamblaje de interés.

Blat ALL genomes: No se han encontrado coincidencias

Mis resultados de Blat ALL muestran ensamblajes con coincidencias, pero al hacer clic en ellos se informa de que no hay coincidencias

En la página de resultados de Blat ALL, la columna «Hits» no representa alineaciones, en su lugar informa de tile hits. Los aciertos de mosaico son coincidencias de 11 bases kmer encontradas en el objetivo, que no representan necesariamente alineaciones exitosas. Cuando uno hace clic en el enlace «Assembly» se produce un alineamiento Blat completo para ese genoma y cualquier puntuación de alineamiento que represente menos de un resultado de 20 pb aparecerá como sin coincidencias encontradas.

Cuando se envía una secuencia a la utilidad Blat ALL, la secuencia se compara con un índice en el servidor. El índice se ha construido a partir del genoma objetivo, con un stepSize de 11bp por defecto.Estos 11-mers «embaldosan» la secuencia de la siguiente manera:

TGGACAACATG GCAAGAATCAG TCTCTACAGAA

Después de construir el índice, el primer paso del alineamiento es leer la secuencia de consulta (búsqueda), extraer todos los 11-mers, y buscarlos en el índice de 11-mers del genoma actualmente en la memoria. Las coincidencias encontradas allí representan los «éxitos» iniciales que se ven en la página de resultados de Blat ALL. El siguiente paso es buscar las coincidencias que se solapan o que se encuentran a una cierta distancia entre sí, e intentar alinear las secuencias entre las ubicaciones de las coincidencias en el objetivo y la consulta.

Por ejemplo, si dos coincidencias de 11 bases se alinean perfectamente, se obtendría una puntuación de 22. Esto está por encima de la puntuación mínima requerida de 20 (ver Blat ALL genomes), y sería reportado como un alineamiento. Sin embargo, hay penalizaciones por huecos y desajustes, así como por posibles solapamientos (véase el tamaño de los pasos en las especificaciones de BLAT), todo lo cual podría hacer que la puntuación fuera inferior a 20. En ese caso, Blat ALL informaría de 2 «aciertos», pero al hacer clic en el ensamblaje no informaría de ninguna coincidencia. Esto ocurre más a menudo cuando hay sólo unos pocos (1-3) aciertos reportados por Blat ALL.

Aproximación de los resultados de Blat basados en la web utilizando gfServer/gfClient

A menudo el uso de gfServer/gfClient proporciona una mejor aproximación o incluso una réplica de los resultados de Blat basados en la web, que de otro modo no se pueden encontrar utilizando Blat independiente. Este enfoque imita el servidor Blat utilizado por el Blat basado en la web del Navegador del Genoma. El siguiente ejemplo mostrará cómo configurar un hg19 gfServer, y luego hacer una consulta. Primero, descargue la utilidad apropiada para el sistema operativo y dele permisos de ejecución:

#For linuxrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/linux.x86_64/blat/ ./#For MacOSrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/macOSX.x86_64/blat/ ./chmod +x gfServer gfClient blat

Después, descargue el genoma .2bit apropiado (hg19 en este ejemplo), y ejecute la utilidad gfServer con los parámetros del web Blat, designando la máquina local y el puerto 1234:

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit./gfServer start 127.0.0.1 1234 -stepSize=5 hg19.2bit

Después de unos momentos, el gfServer se inicializará y estará listo para recibir consultas. Para aproximarnos al Blat web, utilizaremos el gfClient con los siguientes parámetros, designando nuestros ficheros de entrada y salida.

./gfClient -minScore=20 -minIdentity=0 127.0.0.1 1234 . input.fa out.psl

El fichero de salida out.psl debería tener resultados muy similares al Blat web.

Los resultados de Blat autónomo o gfServer/gfClient comienzan con una posición menos

Mis resultados de Blat autónomo o gfServer/gfClient Blat tienen una posición de inicio que es una menos que la que veo en los resultados de Blat web

Esto se debe a cómo almacenamos las coordenadas internas en el Navegador del Genoma. El tipo de hipervínculo predeterminado de Blat Output muestra los resultados en nuestra estructura de datos de coordenadas internas. Estas coordenadas internas tienen un inicio basado en cero y un final basado en uno. Consulte la siguiente entrada de la FAQ para obtener más información.

Si el tipo de salida se cambia a psl en el Blat web, se verán los mismos resultados de coordenadas medio abiertas basados en cero que los procedimientos Blat y gfServer/gfClient independientes.

Deja un comentario