Desenvolver software para reconhecimento de padrões é um tópico importante em genética, biologia molecular e bioinformática. Os motivos de sequência específicos podem funcionar como sequências reguladoras que controlam a biossíntese, ou como sequências de sinal que direccionam uma molécula para um local específico dentro da célula ou que regulam a sua maturação. Como a função reguladora dessas seqüências é importante, acredita-se que elas sejam conservadas ao longo de longos períodos de evolução. Em alguns casos, a relação evolutiva pode ser estimada pela quantidade de conservação destes locais.
NotationEdit
Os motivos da sequência conservada são chamados de sequências de consenso e mostram quais os resíduos que são conservados e quais os resíduos que são variáveis. Considere o seguinte exemplo de seqüência de DNA:
AN{A}YR
Nesta notação, A significa que um A é sempre encontrado nessa posição; significa C ou T; N significa qualquer base; e {A} significa qualquer base exceto A. Y representa qualquer pirimidina, e R indica qualquer purina.
Neste exemplo, a notação não dá nenhuma indicação da freqüência relativa de C ou T ocorrendo nessa posição. Um método alternativo de representar uma sequência de consenso usa um logotipo de sequência. Esta é uma representação gráfica da seqüência de consenso, na qual o tamanho de um símbolo está relacionado com a freqüência que um determinado nucleotídeo (ou aminoácido) ocorre em uma determinada posição. Na seqüência de logotipos quanto mais conservado o resíduo, maior o símbolo para esse resíduo é desenhado; quanto menos freqüente, menor o símbolo. Logotipos sequenciais podem ser gerados usando o WebLogo, ou usando o Gestalt Workbench, uma ferramenta de visualização publicamente disponível escrita por Gustavo Glusman no Institute for Systems Biology.