In membranlosen Organellen, die als biomolekulare Kondensate bezeichnet werden, konzentrieren sich Hunderte von verschiedenen Proteinen, um lebenswichtige biologische Prozesse zu ermöglichen. Wie Öltröpfchen, die sich im Wasser bilden, entstehen diese dynamischen, flüssigkeitsähnlichen Tröpfchen sehr schnell, beispielsweise durch Phasentrennung, und bilden vorübergehende Strukturen, die vor dem Inneren der wässrigen Zelle geschützt sind. Forschende haben in den letzten Jahren nachgewiesen, dass Kondensate an vielen physiologischen Funktionen beteiligt sind, wie beispielsweise an der DNA-Kontrolle, der Zellteilung, der zellulären Signalübertragung und der verschachtelten Struktur der Nukleoli im Zellkern. Daher werden biomolekulare Kondensate von den Forschern zunehmend für neue therapeutische Ziele genutzt. Allerdings ist es nach wie vor schwierig, die einzelnen Komponenten der Kondensate genau zu bestimmen, und es werden vor allem Proteine mit einem hohen Maß an struktureller Unordnung erkannt. Proteine mit strukturell ungeordneten Regionen neigen dazu, im Laufe der Evolution viele Sequenzänderungen (Mutationen) zu akkumulieren.
Wissenschaftlerinnen und Wissenschaftler in der Gruppe von Agnes Toth-Petroczy am Max-Planck-Institut für molekulare Zellbiologie und Genetik (MPI-CBG) und am Zentrum für Systembiologie Dresden (CSBD) haben jetzt einen Klassifizierer für maschinelles Lernen (eine Art Algorithmus) entwickelt, der weniger stark auf Proteine mit hohem Unordnungsgrad ausgerichtet ist. Der Klassifizierer PICNIC - Proteins Involved in CoNdensates In Cells (Proteine, die an der Bildung von Kondensaten beteiligt sind) - ermöglicht eine genaue Vorhersage von Proteinen, die Kondensate bilden, indem er die Aminosäuremuster in Proteinsequenzen und -strukturen zusammen mit den ihnen eigenen Unordnungsmerkmalen lernt. Anna Hadarovich, eine Hauptautorin der Studie in Nature Communications und Postdoktorandin in der Gruppe von Agnes, erklärt: „Wir haben den Klassifizierer mit Proteinen vom Menschen trainiert. Ich war positiv überrascht, wie gut die Vorhersagen von PICNIC bei anderen Arten funktionierten, mit denen der Klassifizierer nicht trainiert worden war. Wir haben dies im Vorfeld mit bereits veröffentlichten experimentellen Daten nachgewiesen.“ Hari Raj Singh, der zweite Hauptautor und Postdoktorand in der Gruppe von Anthony Hyman, Direktor am MPI-CBG, führte die experimentelle Überprüfung des Klassifizierers PICNIC durch. Er sagt: „Wir haben 24 Proteine getestet, die als Teil von Kondensaten in Zellen vorhergesagt wurden, und fanden heraus, dass das Tool eine Genauigkeit von etwa 82 % hat, unabhängig davon, wie viel strukturelle Unordnung die Proteine hatten.“
„Wir haben ein Tool für maschinelles Lernen entwickelt, das Kondensatproteine über ganze Proteome hinweg analysieren kann, also die gesamte Menge der von einer Zelle erzeugten Proteine in verschiedenen Organismen. PICNIC zeigt, dass es allgemeine Muster erkennen kann, indem es nur Proteinsequenzinformationen und daraus abgeleitete Strukturen über viele verschiedene Arten hinweg verwendet“, sagt Agnes Toth-Petoscy, die die Studie leitete, und fährt fort: “Diese Ergebnisse können uns helfen zu verstehen, wie sich biomolekulare Kondensate entwickelt haben, und weitere an Kondensaten beteiligte Proteine vorherzusagen. Dies könnte auch dazu beitragen, Zielproteine für die Veränderung von kranken Kondensaten zu identifizieren und die Entwicklung von Medikamenten zu unterstützen.“ Der Klassifikator PICNIC ist ein Open-Source-Python-Paket, das einfach zu bedienen ist, so dass es jeder für jedes beliebige Protein, ob synthetisch oder real, aus verschiedenen Arten verwenden kann.
Anna Hadarovich, Hari Raj Singh, Soumyadeep Ghosh, Maxim Scheremetjew, Nadia Rostam, Anthony A. Hyman & Agnes Toth-Petroczy: PICNIC accurately predicts condensate-forming proteins regardless of their structural disorder across organisms. Nat Commun 15, 10668 (2024). doi.org/10.1038/s41467-024-55089-x