Big Data: Den Fluch der Dimension brechen

Interview mit Prof. Wolfgang Marquardt, Vorstandsvorsitzender des Forschungszentrums Jülich und Big Data-Experte

Der Begriff Big Data ist komplex. Beschreibt er einmal die Datenmenge selbst, bezeichnet er im anderen Moment die Technologie, die zum Sammeln und Auswerten der Daten notwendig ist. Fakt ist: Aus der Medizin ist Big Data nicht mehr wegzudenken. Datengestützte Modelle helfen nicht nur die medizinische Forschung voran zu bringen, sondern auch Therapieentscheidungen zu erleichtern.

28.08.2015

Foto: Mann mit Brille und Tablet in der Hand

Prof. Wolfgang Marquardt; © Forschungszentrum Jülich

MEDICA.de sprach mit Prof. Wolfgang Marquardt vom Forschungszentrum Jülich über die Potenziale von Big Data in der Medizin und warum Daten nicht gleich Daten sind.

Herr Prof. Marquardt, Big Data hat sich zu einer Art Modewort etabliert. Jeder nutzt es, kaum einer weiß, was dahinter steckt. Was ist Big Data denn nun?

Prof. Wolfgang Marquardt: Big Data ist nicht nur ein Buzzword ohne Inhalt. Es ist nicht nur die Größe oder die Menge der Daten, über die man hier sprechen will, es geht auch um heterogene, unstrukturierte, vielfältige Daten. Die Geschwindigkeit der Datenerzeugung sowie neue Möglichkeiten der Datenverarbeitung und -intepretation rechtfertigen es, von neuen Potenzialen in Wissenschaft und Anwendung zu sprechen. Big Data führt zu ganz neuen Problemlösungsmethoden. Tatsächlich kann man das an der Medizin gut illustrieren.


Welches Potenzial hat Big Data hier?

Marquardt: Die Potenziale sind vielfältig. Nehmen wir die Personalisierte Medizin: Mithilfe von molekularbiologischen omics-Technologien kann erfasst werden, welche biologischen Prozesse sich im Körper eines ganz speziellen Patienten abspielen. Außerdem wird die Krankengeschichte dieser Person zunehmend lückenlos und elektronisch dokumentiert zur Verfügung stehen. Damit stehen personalisierte Daten unterschiedlichster Art und in unterschiedlichsten Quellen zur Verfügung. Diese Daten gilt es, auf einer inhaltlichen Ebene zusammenzuführen, um so ein Gesamtbild über eine Person zu erstellen. Damit ist die Basis geschaffen, um personalisierte Therapieentscheidungen zu treffen.

Kürzlich hat IBM mit Watson Health ein neues Geschäftsfeld definiert. Mit der Watson-Technologie werden unterschiedlichste Daten aus dem medizinisch-wissenschaftlichen Bereich nicht nur verfügbar gemacht, sondern im Kontext einer spezifischen medizinischen Fragestellung inhaltlich zu einer Informationsquelle neuer Art verknüpft. Der Arzt nutzt die so aufbereiteten Informationen bei Diagnose- oder Therapieentscheidungen. Natürlich muss noch weiter geforscht werden, um solche Systeme in der nötigen Breite gängig und sicher zu machen.

Man könnte Big Data auch nutzen, um Pathologien über nicht-invasive Methoden zu beschreiben. Da spielen Bildgebung und Bildanalyse eine wesentliche Rolle. Wenn man noch ein Stück weiter denkt, kann man für große Patientengruppe – Kohorten – Vorhersagen machen, welche Krankheitsbilder sich entwickeln könnten. Die Vorhersagen könnten bis hin zu Überlebensberechnungen nach schweren Erkrankungen, Pandemien und Ähnlichem reichen. Aus den Daten und fundiertem Tiefenwissen könnte die Entwicklung von Patientengruppen oder einzelnen Patienten prognostiziert werden.
Foto: großer Serverraum

Der Supercomputer Watson ist in der Lage, in knapp drei Sekunden etwa 200 Millionen Seiten an medizinischen Lehrbüchern und Zeitschriften zu verarbeiten. Somit hat er einen Wissensvorsprung gegenüber menschlichen Ärzten; © panthermedia.net/scanrail

Wie werden die gesammelten Daten analysiert und interpretiert?

Marquardt: Hier müssen wir eine Fülle von Aufgabenstellungen berücksichtigen: Ein erster Bereich betrifft das Erfassen, das Bereitstellen und das Greifbarmachen der Daten. Gerade in medizinischen Anwendungen stellen sich Fragen des Datenschutzes und damit verbunden der Zwang zur Anonymisierung oder Pseudonymisierung personenbezogener Daten. Ein zweiter Bereich betrifft die Extraktion von Informationen und Wissen aus den Daten. Beispielsweise werden mithilfe von mathematischen Methoden Muster oder Korrelationen in den Daten gesucht, aus denen sich dann Hypothesen generieren lassen.


Das Erkennen von räumlichen Strukturen in Organen ist gerade hier am Forschungszentrum Jülich ein ganz wesentlicher Bestandteil des Human Brain Project. Ziel ist die Erstellung eines "Hirn-Atlas", der nicht nur die räumlichen Strukturen des Gehirns mit hoher Auflösung umfasst, sondern auch die Zuordnung funktionaler Bereiche zu anatomischen Strukturen im Gehirn. Dafür werden zweidimensionale Bildschnitte des Gehirns im Labor mit lichtmikrosokopischen Methoden angefertigt, die zu einem räumlichen Modell zusammengesetzt werden. Da die Daten sehr umfangreich sind, müssen Höchstleistungsrechner genutzt werden, um die Aggregation und den Abgleich von Tausenden von zweidimensionalen Bildern schaffen zu können. Ein solcher Atlas ist ein wichtiger Schritt, um langfristig die Hirnfunktionen aufzuklären oder um sie möglicherweise irgendwann vorhersagen zu können.

Es gibt auch die Möglichkeit, diese Bilddaten mit den Ergebnissen aus elektrophysiologischen oder optogenetischen Experimenten oder mit genetischen Daten zu verbinden. Mit Data Mining- oder Machine Learning-Ansätzen können dann Korrelationen und Muster mit dem Ziel identifiziert werden, qualitative Ursache-Wirkungs-Beziehungen zu finden und schließlich quantitative datengetriebene Modelle zu erzeugen. Diese Auswertungstechniken sind technologisch und methodisch geprägt. Die Entwicklung dieser Methoden erfordert immer die Berücksichtigung von naturwissenschaftlichem und biomedizinischem Grundwissen.
Foto: kleine projizierte Felder

Schnittstellen zwischen den einzelnen Fachgebieten sind besonders relevant, wenn es um Datenschutzfragen geht. Das erfordert große interdisziplinäre Forschungsverbünde über Institutsgrenzen hinaus; © panthermedia.net/everythingpossible

Big Data würde man wörtlich mit "viele Daten" übersetzen. Gilt in der Medizin auch das Sprichwort "Viel hilft viel"?

Marquardt: Wenn ich mich entscheiden müsste, würde ich sagen "Viel hilft nicht viel". Wir können im Prinzip beliebig viele Daten erzeugen, ohne dass sie Informationen enthalten. Man muss die richtigen Daten haben, die einen Mehrwert liefern und qualitativ hochwertig sind. Das heißt auch, dass Messfehler in den Daten wenigstens quantifiziert oder besser beseitigt werden müssen. Wenn man ein Symptom mit den Ursachen einer Krankheit korrelieren möchte, dann ist die Zahl der Parameter, die man einbeziehen muss, und damit die Menge der erforderlichen Messdaten, schnell sehr, sehr hoch. Das nennt man den "Fluch der Dimension". Man kann diesen Fluch nur brechen, indem man Vorwissen einsetzt, um so den Datenbedarf zu reduzieren. Da reichen oft schon sehr einfache Zusammenhänge. Wenn die Daten nicht klug ausgewählt, kombiniert und interpretiert werden, hilft viel also nicht viel. Wenn man allerdings systematisch qualitativ hochwertige Daten sammelt oder im Experiment erzeugt, dann kann eine große Menge an Daten von großem Mehrwert sein.


Der Stellenwert von Big Data in der medizinischen Forschung wird weiter wachsen: Werden klinische Studien damit bald "aussterben"?

Marquardt:
Das ist unvorstellbar. Wir sind heute eher an dem Punkt, dass es viel zu wenig klinische Studien gibt. Das heißt, unser Ziel muss es eigentlich sein, die klinischen Studien nicht in ihrer Anzahl zu reduzieren, sondern die Daten und die Analysemethoden so zu nutzen, dass wir die Qualität und die Aussagekraft dieser Studien erhöhen. Wenn wir beispielsweise klinische Studien mit zusätzlichen Daten der Probanden zur Krankheitsgeschichte und den Lebensumständen komplementieren, sollte sich die Aussagekraft der klinischen Studien erhöhen.
Foto: Melanie Günther; Copyright: B. Frommann

© B. Frommann

Das Interview führte Melanie Günther
MEDICA.de