Ein internationales Team von Forschenden der TU, der University of Cambridge, des Wissenschafts- und Technologieunternehmens Merck sowie des Klinikums rechts der Isar der TU München hat in einer internationalen und interdisziplinären Kooperation untersucht, wie Softwaresysteme aufgabenspezifisch relevante Informationen sammeln, aufbereiten und auswerten und so die Arbeit von Menschen, in diesem Fall Radiologinnen und Radiologen, unterstützen. Die Studie, die nun mit dem Best Paper Award ausgezeichnet wurde, liefert empirische Daten zum Einfluss von maschinell lernenden Systemen (ML-Systemen) auf menschliches Lernen. Zudem zeigt sie, wie wichtig es für Endnutzer ist, ob die Resultate maschineller Lernverfahren nachvollziehbar und verständlich sind. Diese Erkenntnisse sind nicht nur für medizinische Diagnosen in der Radiologie relevant, sondern für alle, die durch die tägliche Nutzung von KI-Tools, wie beispielsweise ChatGPT, selbst zu Reviewern, also Bewertenden von ML-Output werden.
Das Forschungsprojekt unter Leitung der TU-Forschenden Sara Ellenrieder und Professor Peter Buxmann untersuchte die Nutzung von ML-basierten Entscheidungsunterstützungssystemen in der Radiologie, speziell bei der manuellen Segmentierung von Hirntumoren in MRT-Bildern. Im Fokus stand die Frage, wie Radiologinnen und Radiologen von diesen Systemen lernen können, um ihre Leistungen und Entscheidungssicherheit zu verbessern. Die Autorinnen und Autoren verglichen dabei unterschiedlich leistungsfähige ML-Systeme und analysierten, wie die Erklärung des ML-Outputs die Nachvollziehbarkeit der Ergebnisse für die Radiologen verbesserte. Das Forschungsziel ist es, herauszufinden, wie Radiologinnen und Radiologen langfristig von diesen Systemen profitieren und diese sicher einsetzen können
Dazu führte das Projektteam ein Experiment mit Radiologinnen und Radiologen verschiedener Kliniken durch. Die Mediziner wurden gebeten, Tumore in MRT-Bildern zu segmentieren, bevor und nachdem sie ML-basierte Entscheidungsunterstützung erhalten hatten. Dabei wurden verschiedenen Gruppen unterschiedlich leistungsfähige oder transparente ML-Systeme an die Seite gestellt. Neben der Erfassung quantitativer Leistungsdaten während des Experiments sammelten die Forschenden auch qualitative Daten mittels "Think-Aloud“-Protokollen und anschließenden Interviews.
Im Rahmen des Experiments wurden 690 manuelle Segmentierungen von Hirntumoren durch die Radiologinnen und Radiologen vorgenommen. Die Ergebnisse zeigen, dass Radiologen von den Informationen lernen können, die leistungsstarke ML-Systeme bereitstellen. Durch die Interkation verbesserten sie ihre Leistung. Allerdings zeigt die Studie auch, dass fehlende Erklärbarkeit von ML-Output bei leistungsschwachen Systemen durchaus zu einem Leistungseinbruch bei den Ärztinnen und Ärzten führen kann. Besonders interessant ist, dass die Bereitstellung von Erklärungen des ML-Outputs nicht nur die Lernerfolge der Radiologinnen und Radiologen verbesserte, sondern auch das Lernen fehlerhafter Informationen verhinderte. Tatsächlich konnten einige Mediziner sogar aus Fehlern lernen, die leistungsschwache, aber ihren Output gut erklärende Systeme machten.
"Die Zukunft der Mensch-KI-Kollaboration liegt in der Entwicklung von erklärbaren und transparenten KI-Systemen, die es insbesondere dem Endnutzer ermöglichen, von den Systemen zu lernen und langfristig bessere Entscheidungen zu treffen“, fasst Professor Peter Buxmann von der TU Darmstadt zusammen.
MEDICA.de; Quelle: Technische Universität Darmstadt