Das Sehen ist eine der wichtigsten Sinnesfähigkeiten des Menschen. Gerade das Bewegungssehen ist eine Glanzleistung des Gehirns. In Sekundenbruchteilen werden Wahrnehmungen verarbeitet und interpretiert. Dabei spielt ein Mix aus Eindrücken anderer sensorischer Systeme, beispielsweise vom Gleichgewichtsorgan oder dem Tastsinn, ebenso eine wichtige Rolle wie Erfahrung.
Als Mensch können wir komplexe Szenarien, wie Verkehrssituationen, erfassen und auch relativ sicher einschätzen - auch wenn Geschwindigkeit und Abstand von Fahrzeugen variieren, Objekte sich überlagern, nur teilweise erkannt werden können oder die Lichtverhältnisse sich ändern. Dabei kommt uns unser Wissen zugute. Denn wir haben erlernt, die Dynamik einzelner Objekte und damit solche Situationen intuitiv zu verstehen.
Computern hingegen fehlt dieses Wissen zunächst. Im Grunde genommen klassifizieren sie, was ihre optischen Sensoren erfassen, anhand einer programmierten Methode in schnellen Abfolgen. Sie wissen aber nicht, wie es sich wirklich verhält. Sie können Objekte zwar erkennen, einigermaßen einordnen und gewisse Umweltbedingungen in ihre Berechnungen einbeziehen, aber die Gesamtheit einer Situation mit zahlreichen Akteuren in all ihren Abhängigkeiten und Unwägbarkeiten nicht tatsächlich verstehen.
Klassische Methoden des Maschinellen Sehens (Computer Vision) reichen hierfür kaum aus. Schon um einen Gegenstand und dessen Bewegung stabil dreidimensional zu erfassen, sind gegenwärtige Systeme zumeist auf mindestens drei Kameras angewiesen.
Prof. Didier Stricker, Leiter des Forschungsbereichs Erweiterte Realität (Augmented Vision) am DFKI: "Mit VIDETE verfolgen wir das ambitionierte Ziel, eine robuste Erkennung dynamischer Objekte mit wenigen oder gar nur einer Kamera zu bewerkstelligen, bei möglichst niedrigem Energieverbrauch. Kleinste Sensoren mit geringer Rechenkapazität sollen verlässliche Ergebnisse liefern."
Um die erforderlichen Berechnungen in Echtzeit bewerkstelligen zu können, ist Vorwissen nötig. "Die Maschine benötigt Erfahrung, um Bewegungen und Situationen besser antizipieren zu können", so Prof. Stricker weiter. Um dieses Vorwissen zu implementieren, setzen die DFKI-Wissenschaftler auf Verfahren des Maschinellen Lernens.
Das System wird verschiedene Erkennungsmethoden bereithalten und auf Basis neuronaler Netze lernen, welche davon in einer Situation die besten Ergebnisse liefert. Damit diese schnell verfügbar sind, ist eine modulare Ordnung der Algorithmen vorgesehen.
So lassen sie sich effizient direkt in der Hardware realisieren, also auch auf Geräten, die nur über kleine Prozessoren verfügen und mit wenig Energie auskommen, wie beispielsweise einer Endoskopie-Kamera. Damit sind die Rechenvorgänge, etwa zum Erkennen einer Handgeste, ohne weitere Hardware und nahe am erzeugenden Sensor durchführbar.
Außerdem wird in VIDETE erforscht, wie sich die berechneten Ergebnisse begründen lassen. Bevor diese zur weiteren Berechnung genutzt werden, wird sozusagen eine Zweitmeinung eingeholt, indem ein anderer Algorithmus die Eignung der Resultate überprüft.
"Dadurch sollen die Entscheidungswege der Maschine nachvollziehbar werden, da wir uns in der Anwendung schließlich auf deren Korrektheit verlassen wollen. Im Bereich der Medizin wäre dies vergleichbar mit der Meinung eines Kollegen im Gegensatz zur pauschalen Antwort aktueller KI-Methoden", erläutert DFKI-Projektleiter Dr. Gerd Reis.
Die Ergebnisse werden unabhängig von den definierten Forschungsszenarien und können zum Fortschritt in vielen Anwendungsbereichen beitragen, neben Industrie und Autonome Systeme beispielsweise beim Szenenverständnis von Smart Home-Technologien oder zur Rekonstruktion endoskopischer Szenen in der Medizin.
MEDICA.de; Quelle: Deutsches Forschungszentrum für Künstliche Intelligenz