Rozwój oprogramowania do rozpoznawania wzorców jest głównym tematem w genetyce, biologii molekularnej i bioinformatyce. Określone motywy sekwencji mogą funkcjonować jako sekwencje regulacyjne kontrolujące biosyntezę lub jako sekwencje sygnałowe, które kierują cząsteczkę do określonego miejsca w komórce lub regulują jej dojrzewanie. Ponieważ funkcja regulacyjna tych sekwencji jest ważna, uważa się, że są one konserwowane w długich okresach ewolucji. W niektórych przypadkach, ewolucyjne pokrewieństwo może być oszacowane przez ilość zachowania tych miejsc.
NotationEdit
Zachowane motywy sekwencji nazywane są sekwencjami konsensusowymi i pokazują, które reszty są zachowane, a które zmienne. Rozważmy następującą przykładową sekwencję DNA:
AN{A}YR
W tym zapisie, A oznacza, że A zawsze występuje w tej pozycji; oznacza albo C albo T; N oznacza dowolną zasadę; a {A} oznacza dowolną zasadę z wyjątkiem A. Y oznacza dowolną pirymidynę, a R oznacza dowolną purynę.
W tym przykładzie, zapis nie daje żadnych wskazówek co do względnej częstości występowania C lub T w tej pozycji. Alternatywna metoda reprezentacji sekwencji konsensusu wykorzystuje logo sekwencji. Jest to graficzna reprezentacja sekwencji konsensusowej, w której wielkość symbolu związana jest z częstością występowania danego nukleotydu (lub aminokwasu) w określonej pozycji. W logach sekwencji im bardziej konserwatywna reszta, tym większy jest symbol tej reszty; im rzadsza, tym symbol jest mniejszy. Loga sekwencji można wygenerować za pomocą WebLogo lub za pomocą Gestalt Workbench, publicznie dostępnego narzędzia wizualizacyjnego napisanego przez Gustavo Glusmana z Institute for Systems Biology.
.