Die Entwicklung von Software zur Mustererkennung ist ein wichtiges Thema in der Genetik, Molekularbiologie und Bioinformatik. Spezifische Sequenzmotive können als regulatorische Sequenzen fungieren, die die Biosynthese steuern, oder als Signalsequenzen, die ein Molekül an eine bestimmte Stelle in der Zelle leiten oder seine Reifung regulieren. Da die regulatorische Funktion dieser Sequenzen wichtig ist, geht man davon aus, dass sie über lange Zeiträume der Evolution konserviert sind. In einigen Fällen kann die evolutionäre Verwandtschaft anhand des Ausmaßes der Erhaltung dieser Stellen geschätzt werden.
NotationBearbeiten
Die konservierten Sequenzmotive werden als Konsensussequenzen bezeichnet und zeigen, welche Reste konserviert und welche Reste variabel sind. Betrachten wir die folgende Beispiel-DNA-Sequenz:
AN{A}YR
In dieser Notation bedeutet A, dass ein A immer an dieser Position zu finden ist; es steht entweder für C oder T; N steht für eine beliebige Base; und {A} bedeutet eine beliebige Base außer A. Y steht für ein beliebiges Pyrimidin und R für ein beliebiges Purin.
In diesem Beispiel gibt die Notation keinen Hinweis auf die relative Häufigkeit des Auftretens von C oder T an dieser Position. Eine alternative Methode zur Darstellung einer Konsensussequenz ist die Verwendung eines Sequenzlogos. Dabei handelt es sich um eine grafische Darstellung der Konsensussequenz, bei der die Größe eines Symbols mit der Häufigkeit des Vorkommens eines bestimmten Nukleotids (oder einer Aminosäure) an einer bestimmten Position in Beziehung steht. In Sequenzlogos wird das Symbol für einen Rest umso größer gezeichnet, je konservierter er ist; je seltener er ist, desto kleiner ist das Symbol. Sequenzlogos können mit WebLogo oder mit der Gestalt Workbench erstellt werden, einem öffentlich zugänglichen Visualisierungstool, das von Gustavo Glusman am Institut für Systembiologie geschrieben wurde.