Ein wesentliches Ziel der Biologie ist es, die Funktion aller Proteine zu erforschen. Anhand der Beziehung zwischen Proteinsequenzen und deren Funktionen können wir verstehen, welche Teile der Proteinsequenz dem Protein bestimmte Funktionen geben. Heute sind mehr als 250 Millionen Proteine bekannt (uniprot.org). Daher ist es kaum möglich, jedes einzelne davon experimentell auf seine Funktionen zu untersuchen. In den letzten Jahren haben Wissenschaftlerinnen und Wissenschaftler Methoden (Alignment-Algorithmen) entwickelt, mit denen ähnliche Proteinsequenzen verglichen werden können, wobei die konservierten Regionen - die wichtigsten Teile der Proteine - zu Gruppen zusammengefasst werden. Man nimmt an, dass Proteine, die zur gleichen Gruppe gehören, ähnliche Funktionen haben. Viele Teile von Proteinen, wie beispielsweise intrinsisch ungeordnete Regionen, sind jedoch schwer zu vergleichen, da sie nicht in diese Gruppen fallen. Bei diesen intrinsisch ungeordneten Regionen handelt es sich um strukturell flexible Proteinabschnitte, die regulatorische Aufgaben erfüllen, beispielsweise bei der Bildung biomolekularer Kondensate. Diese ungeordneten Regionen neigen dazu, im Laufe der Evolution viele Sequenzänderungen (Mutationen) zu durchlaufen. Je mehr Unterschiede in der Sequenz bestehen, desto ungeordneter sind sie, und desto schwieriger ist es, sie zu vergleichen und ihre Funktion zu bestimmen.
Die Forschungsgruppe von Agnes Toth-Petroczy am Max-Planck-Institut für molekulare Zellbiologie und Genetik (MPI-CBG) in Dresden und am Zentrum für Systembiologie Dresden (CSBD) haben nun einen neuen Algorithmus entwickelt, der diese intrinsisch ungeordneten Regionen vergleichen kann. SHARK (Similarity/Homology Assessment by Relating K-mers), der neue Algorithmus, wurde zu SHARK-dive hinzugefügt, einem Werkzeug für maschinelles Lernen, das herkömmliche Alignment-Methoden beim Finden von evolutionären Ähnlichkeiten in Sequenzen, die nicht angeglichen werden können, übertrifft. „Intrinsisch ungeordnete Regionen sind an vielen Funktionen eines Organismus beteiligt, und sie entwickeln sich schneller als die strukturierten Teile von Proteinen. Das macht es schwierig, mit den derzeitigen Methoden Ähnlichkeiten zwischen ihnen zu finden. Ihre Funktionen und ihre Entwicklung waren bisher wenig erforscht, obwohl sie etwa 21 % aller Proteine ausmachen“, erklärt Chi Fung Willis Chow, Doktorand in der Gruppe von Toth-Petroczy und Erstautor der Studie. Er fügt hinzu: „Mit SHARK-dive haben wir jetzt ein Werkzeug, mit dem wir intrinsisch ungeordnete Regionen identifizieren können, die sich in ihrer Sequenz unterscheiden, aber in ihrer Funktion ähnlich sind, etwas, womit die derzeitigen Alignment-Methoden Schwierigkeiten haben.“
„SHARK-dive identifiziert nicht nur intrinsisch ungeordnete Regionen mit ähnlichen Funktionen, sondern deckt auch versteckte Sequenzmuster auf, die entfernte Ähnlichkeiten und funktionelle Verbindungen erklären. Das macht SHARK-dive zu einem nützlichen Werkzeug um ungeordnete Proteine zu untersuchen und zu verstehen“, erklärt Agnes Toth-Petroczy, die diese Studie leitete. „Wir hoffen, dass SHARK-dive dazu beitragen wird, eine Sammlung von Funktionen für intrinsisch ungeordnete Regionen zu erstellen. Wissenschaftlerinnen und Wissenschaftler wären dann imstande, die Beziehung zwischen den Funktionen und Sequenzen in diesen ungeordneten, schwer zuzuordnenden Bereichen besser zu erforschen.“
Chi Fung Willis Chow, Soumyadeep Ghosh, Anna Hadarovich, and Agnes Toth-Petroczy: SHARK enables sensitive detection of evolutionary homologs and functional analogs in unalignable and disordered sequences, PNAS, October 9, 2024, 121 (42) e2401622121, doi.org/10.1073/pnas.2401622121