Die AI-Forschung hat in den letzten Jahren massive Fortschritte gemacht. Vor allem die Technologie des "Deep Learning" ermöglichte bahnbrechende Erfolge, um Beispiel bei selbstfahrenden Autos, Strategiespielen wie Go und Schach, und ersten vielversprechende Anwendungen in der medizinischen Diagnostik. Deep Learning verwendet künstliche neuronale Netze. Das sind mathematische Modelle, die basierend auf Trainingsdaten immer weiter adaptiert werden, bis sie "gelernt" haben, für einen gegebenen Datensatz die passende Lösung zu berechnen.
In der Biologie hat sich Deep Learning als leistungsstarke Methode zur Vorhersage von biologischen Eigenschaften oder "Phänotypen" etabliert (also von beobachtbaren Merkmalen von Zellen oder eines Individuums, beispielsweise anhand von Genomdaten). Allerdings ist Deep Learning normalerweise eine "Black Box"-Methode: Mit ausreichend Trainingsdaten können diese künstlichen neuronale Netze zum Beispiel lernen, aus den aktiven Genen den Zelltyp oder aus DNA-Sequenzdaten die Struktur von Proteinen vorherzusagen. Sie können jedoch die erlernten Muster nicht auf verständliche Weise erklären. Aus diesem Grund hat Deep Learning bisher wenig dazu beigetragen, unser Verständnis der molekularen Funktionen unserer Zellen zu verbessern.
Um diesen Mangel an Interpretierbarkeit zu beheben, verfolgten die CeMM-Forscher Nikolaus Fortelny und Christoph Bock die Idee, Deep Learning direkt auf biologischen Netzwerken durchzuführen – statt auf den sonst üblichen künstlichen neuronalen Netzwerken mit ihrer schematischen und schwer interpretierbaren Struktur. Die beiden Forscher etablierten dafür sogenannte wissensbasierte neuronale Netze ("knowlege-primed neural networks", KPNNs), die auf unserem Wissen über Signalwege und genregulatorische Netzwerke aufbauen. In KPNNs entspricht jeder Knoten einem bestimmten Protein oder Gen, und jede Kante hat eine mechanistische biologische Interpretation (z. B. Protein A reguliert die Expression von Gen B). Die KPNN-Methode zur Analyse der Genregulation und der Signalprozessierung in Zellen wird in einer neuen Studie beschrieben, die in Genome Biology veröffentlicht wurde.
Indem KPNNs den Deep-Learning-Algorithmus dazu bringen, ausschließlich vom biologischen Netzwerk vorgegebenen biologische Signalwege und Regulationsprozesse zu verwenden, bilden sie eine Brücke zwischen der Vorhersagekraft von Deep Learning und unserem Verständnis biologischer Systeme. Dadurch liefert der neue Ansatz relevante Einblicke in die biologischen Abläufe in den untersuchten Systemen bei gleichzeitig hoher Vorhersageleistung. Wesentliche technische Neuerungen dieser Deep-Learning-Methode betreffen die Stabilisierung der Knotengewichte bei Redundanz im Netzwerk, quantitative Interpretierbarkeit der Knotengewichte und Anpassungen an die spezielle Struktur biologischer Netzwerke.
Die CeMM-Forscher demonstrierten ihre neue Methode anhand von großen Einzelzelldatensätzen, einschließlich eines Datensatzes mit der Gen-Aktivität von 483.084 Immunzellen, der von der weltweiten Human Cell Atlas Initiative veröffentlicht wurde. In diesem Datensatz entdeckten die Wissenschaftler eine unerwartete Vielfalt in den regulatorischen Netzwerken, insbesondere im Vergleich zwischen den Immunzellen aus dem Knochenmark und jenen aus Nabelschnurblut.
MEDICA.de; Quelle: CeMM Forschungszentrum für Molekulare Medizin der Österreichischen Akademie der Wissenschaften