Sujets
- BLAT vs. BLAST
- BLAT ne trouve pas du tout une séquence ou pas toutes les correspondances attendues
- BLAT ou In-Silico PCR trouve plusieurs correspondances telles que chr_alt ou chr_fix alors qu’une seule est attendue
- Restrictions d’utilisation de BLAT
- Téléchargement de la source et de la documentation de BLAT
- Reproduction des paramètres de BLAT basés sur le web dans la version en ligne de commande.line version
- Utilisation de l’indicateur -ooc
- Replication des calculs d’identité en pourcentage et de score de BLAT basés sur le web
- Replication des résultats de recherche « Je me sens chanceux » de BLAT basés sur le web
- Utilisation de BLAT pour les séquences courtes avec une sensibilité maximale
- BLAT ALL genomes
- BLAT ALL genomes : Aucune correspondance trouvée
- Approximation des résultats BLAT basés sur le web en utilisant gfServer/gfClient
- Standalone ou les positions de départ des résultats gfServer/gfClient décalés d’un
Retour à la table des matières de la FAQ
BLAT vs. BLAST
Quelles sont les différences entre BLAT et BLAST ?
BLAT est un outil d’alignement comme BLAST, mais il est structuré différemment. Sur l’ADN, BLAT fonctionne en gardant en mémoire un index d’un génome entier. Ainsi, la base de données cible de BLAT n’est pas un ensemble de séquences GenBank, mais plutôt un index dérivé de l’assemblage du génome entier. Par défaut, l’index est constitué de tous les 11-mères non chevauchants, à l’exception de ceux qui sont fortement impliqués dans les répétitions, et il utilise moins d’un gigaoctet de RAM. Cette taille plus petite signifie que BLAT est beaucoup plus facilement mis en miroir que BLAST. Blat of DNA est conçu pour trouver rapidement des séquences de 95 % et plus de similarité d’une longueur de 40 bases ou plus. Il peut manquer des alignements de séquences plus divergentes ou plus courtes. (Les paramètres par défaut et le comportement attendu de Blat autonome sont légèrement différents de ceux de la version graphique de BLAT.)
Sur les protéines, BLAT utilise 4-mers plutôt que 11-mers, trouvant des séquences de protéines de 80% et plus de similarité avec la requête de longueur 20+ acides aminés. L’index des protéines nécessite un peu plus de 2 gigaoctets de RAM. En pratique – en raison des taux de divergence des séquences au cours de l’évolution – le DNA BLAT fonctionne bien chez l’homme et les primates, tandis que le protein Blat continue à trouver de bonnes correspondances chez les vertébrés terrestres et même chez les organismes plus anciens pour les protéines conservées. Chez l’homme, le Blat protéique donne une bien meilleure image des familles de gènes (paralogues) que le Blat ADN. Cependant, BLAST et psi-BLAST au NCBI peuvent trouver des correspondances beaucoup plus éloignées.
D’un point de vue pratique, le BLAT présente plusieurs avantages par rapport au BLAST :
- la rapidité (pas de file d’attente, réponse en quelques secondes) au prix d’une profondeur d’homologie moindre
- la possibilité de soumettre une longue liste de requêtes simultanées au format fasta
- cinq options de tri de sortie pratiques
- un lien direct dans le navigateur UCSC
- . les détails des blocs d’alignement dans l’ordre génomique naturel
- une option pour lancer l’alignement plus tard dans le cadre d’une piste personnalisée
BLAT est couramment utilisé pour rechercher l’emplacement d’une séquence dans le génome ou déterminer la structure des exon d’un ARNm, mais les utilisateurs experts peuvent exécuter de gros travaux par lots et effectuer des changements de sensibilité des paramètres internes en installant Blat en ligne de commande sur leur propre serveur Linux.
BLAT ne peut pas trouver une séquence ou pas toutes les correspondances attendues
Je ne peux pas trouver une séquence avec BLAT bien que je sois sûr qu’elle soit dans le génome. Est-ce que je fais quelque chose de mal?
D’abord, vérifiez si vous utilisez la bonne version du génome. Par exemple, deux versions du génome humain sont actuellement largement utilisées (hg19 et hg38) et votre séquence peut se trouver uniquement dans l’une d’entre elles. De nombreux articles publiés ne précisent pas la version d’assemblage, il peut donc être nécessaire d’essayer les deux.
Des séquences très courtes qui passent sur un site d’épissage dans une séquence d’ADNc ne peuvent pas être trouvées, car elles ne sont pas dans le génome. Les amorces de qPCR sont un exemple typique. Pour ces cas, essayez d’utiliser la PCR In-Silico et de sélectionner un ensemble de gènes comme cible. En général, l’outil In-Silico PCR est plus sensible et devrait être préféré pour les paires d’amorces.
Un autre cas problématique est la recherche de séquences dans les répétitions ou les transposons.BLAT saute les parties les plus répétitives de la requête et limite le nombre de correspondances qu’il trouve, ce qui conduit à des correspondances manquantes pour ces séquences répétées.La version en ligne de BLAT masque les 11mers de la requête qui apparaissent plus de 1024 fois dans le génome et limite les résultats à 16 correspondances par brin de chromosome. Cela signifie qu’au maximum 32 localisations par chromosome sont retournées. Ceci est fait pour améliorer la vitesse, mais peut entraîner des résultats manqués lorsque vous recherchez des séquences dans des répétitions.
Souvent pour les séquences répétées, vous pouvez utiliser la piste de l’auto-chaîne pour trouver les autres correspondances, mais seulement si les autres correspondances sont suffisamment longues et spécifiques. Vous pouvez vérifier si une séquence est présente à un endroit particulier en utilisant la piste « Short match » si votre séquence est inférieure à 30 pb.Vous pouvez contourner cette limitation de longueur minimale mais en ajoutant plus de séquence flanquante à votre requêtepour rendre la requête suffisamment unique. Si cela n’est pas possible, la seule alternative est de télécharger les exécutables de BLAT et le fichier .2bit d’un génome sur votre propre machine et d’utiliser BLAT en ligne de commande. Voir Téléchargement des sources et de la documentation de BLAT pour plus d’informations. Lorsque vous utilisez la version de BLAT en ligne de commande, vous pouvez définir l’option repMatch à une valeur élevée pour essayer d’améliorer la recherche de correspondances dans les régions répétitives et ne pas utiliser l’un des fichiers de masquage des répétitions par défaut 11.ooc.
BLAT ou In-Silico PCR trouve plusieurs correspondances telles que chr_alt ou chr_fix même si une seule est attendue
Je vois deux correspondances ou plus dans le génome alors qu’il ne devrait y en avoir qu’une. Que sont ces correspondances supplémentaires ?
Cela se produit généralement sur les assemblages de génome les plus récents, comme hg38, lorsque vous recherchez une séquence qui a une séquence « alternate » ou « fix ». Pour améliorer la qualité de ces assemblages, les conservateurs ont ajouté des versions multiples de certains loci importants, par exemple les régions du CMH. Ils ajoutent également des séquences de correction pour résoudre les erreurs sans modifier la référence. Voir notre article de blog sur les correctifs pour plus d’informations.
Lorsque vous blattez ou isPCR une séquence qui correspond à un emplacement chromosomique qui a également une séquence fix ou alt, vous verrez une correspondance sur le chromosome de référence (par exemple « chr1 ») et une autre correspondance sur la séquence corrective (par exemple chr1_KN196472v1_fix). Dans la plupart des cas, il est prudent d’ignorer le résultat du patch, car un génome humain ne contient pas à la fois la séquence de référence et la séquence alternative. Pour plus d’informations sur les types spécifiques de séquences de patch, voir notre entrée FAQ sur le sujet.
Restrictions d’utilisation du Blat
J’ai reçu un avertissement de votre serveur Blat m’informant que j’avais dépassé les limites d’utilisation du serveur. Pouvez-vous me donner des informations sur les paramètres d’utilisation du serveur Blat de l’UCSC ?
En raison de la forte demande sur nos serveurs Blat, nous limitons le service pour les utilisateurs qui interrogent l’outil BLAT par programme ou qui effectuent de grandes requêtes par lots. L’utilisation programmée de BLAT est limitée à un maximum d’un accès toutes les 15 secondes et à un maximum de 5 000 accès par jour. Veuillez limiter les requêtes par lots à 25 séquences ou moins.
Pour les utilisateurs ayant de gros volumes de demandes de BLAT, nous recommandons de télécharger l’outil BLAT pour une utilisation locale. Pour plus d’informations, voir Téléchargement de la source et de la documentation BLAT.
Téléchargement de la source et de la documentation BLAT
La source BLAT est-elle disponible au téléchargement ? La documentation est-elle disponible ?
La source et les exécutables de BLAT sont librement disponibles pour une utilisation académique, à but non lucratif et personnelle. Des informations sur les licences commerciales sont disponibles sur le site Web de Kent Informatics.
La source de BLAT peut être téléchargée à partir de http://hgdownload.soe.ucsc.edu/admin/ (située à /kent/src/blat dans l’arbre source jksrci*.zip le plus récent). Pour les exécutables BLAT, allez sur http://hgdownload.soe.ucsc.edu/admin/exe/ et choisissez votre type de machine.
La documentation sur les spécifications du programme BLAT est disponible ici. Notez que le BLAT en ligne de commande ne renvoie pas les correspondances avec les nucléotides U dans la séquence de requête.
Repliquer les paramètres du Blat basé sur le web dans la version en ligne de commande
Je suis en train de mettre en place mon propre serveur Blat et j’aimerais utiliser les mêmes valeurs de paramètres que le serveur Blat basé sur le web de l’UCSC.
Nous nous attendons presque toujours à de petites différences entre le hgBLAT/gfServer et le Blat autonome en ligne de commande. Les meilleures correspondances peuvent être trouvées en utilisant les utilitaires pslReps et pslCDnaFilter. Le Blat basé sur le Web est réglé de manière permissive avec un score de coupure minimum de 20, ce qui affichera la plupart des alignements. Nous vous conseillons de décider quels paramètres de filtrage sont les plus judicieux pour l’expérience ou l’analyse. Souvent, ces paramètres seront différents et plus stricts que ceux de la version web de Blat. En gardant cela à l’esprit, utilisez les paramètres suivants pour vous rapprocher des résultats de recherche du Blat basé sur le web :
Note : Il y a des cas où l’approche gfServer/gfClient fournit une meilleure approximation des résultats web que le Blat autonome. Voir l’exemple ci-dessous pour une vue d’ensemble de ce processus.
Blat autonome:
- Recherche BLAT:
blat -stepSize=5 -repMatch=2253 -minScore=20 -minIdentity=0 database.2bit query.fa output.psl
- Note : Pour reproduire les résultats web, la sortie PSL devrait être utilisée. BLAT traite les formats de sortie alternatifs (tels que blast8) légèrement différemment, ce qui peut entraîner des différences mineures dans les résultats ; en particulier pour les alignements courts. En outre, la séquence de requête devrait avoir tous les nucléotides U convertis en nucléotides T ou avoir le drapeau « -q=rna » utilisé pour correspondre au web-BLAT.
faToTwoBit:
- Utilise le masquage doux pour convertir le format Fasta au format 2 bits pour l’entrée BLAT.
gfServer (c’est ainsi que sont configurés les serveurs BLAT basés sur le web de l’UCSC):
- Serveur BLAT (capable de PCR):
gfServer start blatMachine portX -stepSize=5 -log=untrans.log database.2bit
- serveur BLAT traduit:
gfServer start blatMachine portY -trans -mask -log=trans.log database.2bit
Pour permettre les correspondances ADN/ADN et ADN/ARN, seuls les fichiers host, port et twoBit sont nécessaires. Le même port est utilisé pour le Blat non traduit (gfClient) et la PCR (webPcr). Vous aurez besoin d’un serveur Blat distinct sur un port distinct pour activer le Blat traduit (recherches de protéines ou recherches traduites dans l’espace protéique).
gfClient:
- Set -minScore=0 et -minIdentity=0. Il en résultera quelques occurrences à faible score, généralement parasites, mais pour une utilisation interactive, il est suffisamment facile de les ignorer (car les résultats sont triés par score) et parfois les occurrences à faible score s’avèrent pratiques.
Notes sur repMatch:
- Le paramètre par défaut pour les correspondances d’adn de gfServer est : repMatch = 1024 * (tileSize/stepSize).
- Le paramètre par défaut pour les correspondances d’adn de Blat est : repMatch = 1024 (si tileSize=11).
- Pour obtenir des résultats en ligne de commande qui sont équivalents aux résultats basés sur le web, repMatch doit être spécifié lors de l’utilisation de BLAT.
Pour plus d’informations sur la façon de reproduire le score et le pourcentage de correspondance d’identité affichés par notre Blat basé sur le web, veuillez consulter cette FAQ BLAT.
Pour plus d’informations sur les paramètres disponibles pour BLAT, gfServer et gfClient, consultez les spécifications BLAT.
Utilisation du drapeau -ooc
Que fait le drapeau -ooc ?
L’utilisation de n’importe quelle option -ooc dans BLAT, telle que -ooc=11.ooc, accélère les recherches similaires à la séquence de masquage de répétition. Le fichier 11.ooc contient des séquences déterminées comme étant surreprésentées dans la séquence du génome. Pour améliorer la vitesse de recherche, ces séquences ne sont pas utilisées lors de l’ensemencement d’un alignement contre le génome. Pour les séquences de taille raisonnable, cela ne créera pas de problème et réduira considérablement le temps de traitement.
En n’utilisant pas le fichier 11.ooc, vous augmenterez le temps d’alignement, mais vous augmenterez aussi légèrement la sensibilité. Cela peut être important si vous alignez des séquences plus courtes ou des séquences de mauvaise qualité. Par exemple, si une séquence particulière se compose principalement de séquences dans le fichier 11.ooc, elle ne sera jamais ensemencée correctement pour un alignement si le drapeau -ooc est utilisé.
En résumé, si vous ne trouvez pas certaines séquences et que vous pouvez vous permettre le temps de traitement supplémentaire, vous pouvez vouloir exécuter BLAT sans le fichier 11.ooc si votre situation particulière justifie son utilisation.
Reproduction des calculs d’identité en pourcentage et de score de Blat basés sur le web
En utilisant mon propre serveur Blat en ligne de commande, comment puis-je reproduire les calculs d’identité en pourcentage et de score produits par Blat basé sur le web ?
Il n’y a pas d’option à Blat en ligne de commande qui vous donne l’identité en pourcentage et le score. Cependant, nous avons créé des scripts qui incluent les calculs :
- Voir le script perl à partir de l’arbre des sources :
pslScore.pl
- Visualiser le programme C correspondant :
pslScore.c
et les fonctions de bibliothèque associéespslScore
etpslCalcMilliBad
danspsl.c
Voir notre FAQ sur les licences de code source et les téléchargements pour des informations sur l’obtention de la source.
Reproduction des résultats de la recherche « I’m feeling lucky » de Blat basée sur le web
Comment puis-je générer les mêmes résultats de recherche que l’option « I’m feeling lucky » de Blat basée sur le web en utilisant Blat en ligne de commande ?
Le code de la recherche Blat « I’m feeling lucky » ordonne les résultats en fonction de l’option de sortie de tri que vous avez sélectionnée sur la page de requête. Il renvoie ensuite l’alignement le mieux noté de la première séquence de requête.
Si vous triez les résultats par « requête, début » ou « chrom, début », la génération du résultat « I’m feeling lucky » est simple : triez le fichier de sortie par ces colonnes, puis sélectionnez le résultat le plus élevé.
Pour reproduire l’une des options de tri impliquant le score, vous devez d’abord calculer le score de chaque résultat dans votre fichier de sortie PSL, puis trier les résultats par score ou autre combinaison (par exemple, « query, score » et « chrom, score »). Voir la section sur la reproduction des calculs d’identité en pourcentage et de score de Blat basés sur le Web pour des informations sur le calcul du score.
Alternativement, vous pouvez essayer de filtrer votre sortie PSL de Blat en utilisant le programmepslReps
ou pslCDnaFilter
disponible dans le code source de Genome Browser. Pour obtenir des informations sur l’obtention du code source, consultez notre FAQ sur les licences et les téléchargements de code source.
Utilisation de BLAT pour les séquences courtes avec une sensibilité maximale
Comment puis-je configurer BLAT pour les séquences courtes avec une sensibilité maximale ?
Voici quelques directives pour configurer Blat autonome et gfServer/gfClient pour ces conditions :
- La formule pour trouver la taille de requête la plus courte qui garantira une correspondance (si les tuiles correspondantes ne sont pas marquées comme surutilisées) est : 2 * stepSize + tileSize – 1
Par exemple, avec stepSize défini à 5 et tileSize défini à 11, des correspondances de taille de requête 2 * 5 + 11 – 1 = 20 pb seront trouvées si la requête correspond exactement à la cible.
Le paramètre stepSize peut aller de 1 à tileSize.
Le paramètre tileSize peut aller de 6 à 15. Pour les protéines, la plage commence plus bas.
Pour minMatch=1 (par ex.protéine), la longueur minimale garantie de la correspondance est : 1 * stepSize + tileSize – 1
Note : Il existe également une « taille minimale chanceuse » pour les occurrences. Il s’agit de la plus petite correspondance possible que BLAT peut trouver. Cette taille minimale chanceuse peut être calculée en utilisant la formule : stepSize + tileSize. Par exemple, si nous utilisons un tileSize de 11 et stepSize de 5, les hits plus petits que 16 bases ne seront pas signalés. - Essayez d’utiliser -fine.
- Utilisez une grande valeur pour repMatch (par exemple -repMatch = 1000000) pour réduire la chance qu’une tuile soit marquée comme sur-utilisée.
- N’utilisez pas un fichier .ooc.
- N’utilisez pas -fastMap.
- N’utilisez pas les options de ligne de commande de masquage.
Les changements ci-dessus rendront BLAT plus sensible, mais ralentiront également la vitesse et augmenteront l’utilisation de la mémoire. Il peut être nécessaire de traiter un chromosome à la fois pour réduire les besoins en mémoire.
Une note sur le filtrage de la sortie : augmenter la valeur du paramètre -minScore au-delà de la moitié de la taille de la requête n’a plus aucun effet. Par conséquent, utilisez le programme pslReps
ou pslCDnaFilter
disponible dans le code source de Genome Browser pour filtrer la taille, le score, la couverture ou la qualité souhaitée. Pour obtenir des informations sur l’obtention du code source, consultez notre FAQ sur les licences et les téléchargements de code source.
Battre TOUS les génomes
Comment puis-je blater des requêtes pour les assemblages de génomes par défaut de tous les organismes ?
BLAT est conçu pour trouver rapidement la similarité de séquence entre les séquences de requête et les séquences cibles. Généralement, BLAT est utilisé pour trouver des emplacements d’homologie de séquence dans un seul génome cible ou pour déterminer la structure d’exon d’un ARNm. BLAT permet également aux utilisateurs de comparer la séquence d’interrogation à tous les assemblages par défaut pour les organismes hébergés sur l’UCSC Genome Browser. La fonction Search ALLpeut être utile si vous avez une séquence de requête ambiguë et que vous essayez de déterminer à quel organisme elle peut appartenir.
Sélectionner la case « Search ALL » au-dessus de la liste déroulante Génome vous permet de rechercher les génomesdes assemblages par défaut pour tous nos organismes. Il recherche également tous les serveurs Blat des hubs attachés, ce qui signifie que vous pouvez rechercher vos hubs d’assemblage générés par l’utilisateur. La page de résultats affiche une liste ordonnée de tous nos organismes et leur homologie avec votre séquence d’interrogation. Les résultats sont ordonnés de manière à ce que l’organisme ayant le meilleur score d’alignement se trouve en haut, ce qui indique la ou les régions de cet organisme qui présentent la plus grande homologie avec votre séquence d’interrogation.l’alignement complet, y compris les mésappariements et les lacunes, doit obtenir un score de 20 ou plus pour apparaître dans le résultat de Blat. En cliquant dans un lien dans la liste des assemblages, vous serez amené à une nouvelle page affichant divers emplacements et scores d’homologie de séquence dans l’assemblage d’intérêt.
Blat ALL genomes : Aucune correspondance trouvée
Mes résultats de Blat ALL affichent des assemblages avec des occurrences, mais cliquer dessus ne rapporte aucune correspondance
Dans la page de résultats de Blat ALL, la colonne « Hits » ne représente pas les alignements, au lieu de cela, elle rapporte les tile hits. Les Tile hits sont des correspondances kmer de 11 bases trouvées dans la cible, qui ne représentent pas nécessairement des alignements réussis. Lorsque l’on clique sur le lien ‘Assembly’, un alignement complet de Blat pour ce génome se produira et tous les scores d’alignement représentant un résultat inférieur à 20 pb reviendront comme aucune correspondance trouvée.
Lorsque vous soumettez une séquence à l’utilitaire Blat ALL, la séquence est comparée à un index dans le serveur. L’index a été construit à partir du génome cible, avec un stepSize par défaut de 11bp.Ces 11-mères « tuilent » la séquence comme suit :
TGGACAACATG GCAAGAATCAG TCTCTACAGAA
Après la construction de l’index, la première étape de l’alignement consiste à lire la séquence de requête (recherche), à extraire tous les 11-mères, et à les rechercher dans l’index 11-mer du génome actuellement en mémoire. Les correspondances trouvées dans cet index représentent les premiers « hits » que vous voyez dans la page de résultats de Blat ALL. L’étape suivante consiste à rechercher les occurrences qui se chevauchent ou se situent à une certaine distance les unes des autres, et à tenter d’aligner les séquences entre les emplacements des occurrences dans la cible et la requête.
Par exemple, si deux occurrences de 11-mères s’alignent parfaitement, il en résulte un score de 22. Ce score est supérieur au score minimum requis de 20 (voir Blat ALL genomes), et serait signalé comme un alignement. Cependant, il y a des pénalités pour les lacunes et les non-concordances, ainsi que pour le chevauchement potentiel (voir stepsize dans les spécifications de BLAT), ce qui pourrait ramener le score en dessous de 20. Dans ce cas, Blat ALL signalera 2 « hits », mais en cliquant sur l’assemblage, aucune correspondance ne sera signalée. Cela se produit le plus souvent lorsqu’il n’y a que quelques (1-3) occurrences rapportées par Blat ALL.
Approximation des résultats de Blat basés sur le web en utilisant le gfServer/gfClient
Souvent, l’utilisation du gfServer/gfClient fournit une meilleure approximation ou même une réplique des résultats de Blat basés sur le web, qui autrement ne peuvent pas être trouvés en utilisant Blat autonome. Cette approche imite le serveur Blat utilisé par le Blat basé sur le Web de Genome Browser. L’exemple suivant montre comment configurer un gfServer hg19, puis effectuer une requête. Tout d’abord, téléchargez l’utilitaire approprié pour le système d’exploitation et donnez-lui les autorisations d’exécution:
#For linuxrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/linux.x86_64/blat/ ./#For MacOSrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/macOSX.x86_64/blat/ ./chmod +x gfServer gfClient blat
Puis, téléchargez le génome .2bit approprié (hg19 dans cet exemple), et exécutez l’utilitaire gfServer avec les paramètres de web Blat, en désignant la machine locale et le port 1234:
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.2bit./gfServer start 127.0.0.1 1234 -stepSize=5 hg19.2bit
Après quelques instants, le gfServer s’initialisera et sera prêt à recevoir des requêtes. Afin d’approcher le Blat du web, nous utiliserons le gfClient avec les paramètres suivants, désignant nos fichiers d’entrée et de sortie.
./gfClient -minScore=20 -minIdentity=0 127.0.0.1 1234 . input.fa out.psl
Le fichier de sortie out.psl
devrait avoir des résultats très similaires au Blat du web.
Les positions de départ des résultats de Standalone ou de gfServer/gfClient sont décalées d’une unité
Mes résultats de Blat autonome ou de gfServer/gfClient ont une position de départ inférieure d’une unité à ce que je vois sur les résultats de Blat web
Cela est dû à la façon dont nous stockons les coordonnées internes dans le Genome Browser. Le type d’hyperlien de sortie Blat par défaut montre les résultats dans notre structure de données de coordonnées internes. Ces coordonnées internes ont un début basé sur zéro et une fin basée sur un. Voir l’entrée suivante de la FAQ pour plus d’informations.
Si le type de sortie est changé en psl sur le Blat web, les mêmes résultats de coordonnées demi-ouvertes basées sur zéro seront vus comme les procédures Blat et gfServer/gfClient autonomes.