Le développement de logiciels pour la reconnaissance des motifs est un sujet majeur en génétique, en biologie moléculaire et en bioinformatique. Les motifs de séquences spécifiques peuvent fonctionner comme des séquences régulatrices contrôlant la biosynthèse, ou comme des séquences de signalisation qui dirigent une molécule vers un site spécifique de la cellule ou régulent sa maturation. Comme la fonction régulatrice de ces séquences est importante, on pense qu’elles sont conservées sur de longues périodes d’évolution. Dans certains cas, la parenté évolutive peut être estimée par le degré de conservation de ces sites.
NotationEdit
Les motifs de séquence conservés sont appelés séquences consensus et ils montrent quels résidus sont conservés et quels résidus sont variables. Considérons l’exemple de séquence d’ADN suivant :
AN{A}YR
Dans cette notation, A signifie qu’un A se trouve toujours à cette position ; représente soit C, soit T ; N représente n’importe quelle base ; et {A} signifie n’importe quelle base sauf A. Y représente n’importe quelle pyrimidine, et R indique n’importe quelle purine.
Dans cet exemple, la notation ne donne aucune indication sur la fréquence relative de C ou T se produisant à cette position. Une méthode alternative de représentation d’une séquence consensus utilise un logo de séquence. Il s’agit d’une représentation graphique de la séquence consensus, dans laquelle la taille d’un symbole est liée à la fréquence à laquelle un nucléotide (ou un acide aminé) donné apparaît à une certaine position. Dans les logos de séquence, plus le résidu est conservé, plus le symbole de ce résidu est grand ; moins il est fréquent, plus le symbole est petit. Les logos de séquence peuvent être générés à l’aide de WebLogo, ou en utilisant le Gestalt Workbench, un outil de visualisation accessible au public écrit par Gustavo Glusman à l’Institute for Systems Biology.