Bei Deep Learning ist es kaum nachvollziehbar, warum ein Neuronales Netz bestimmte Entscheidungen trifft. Doch welche Kriterien spielen bei der Entscheidung eine Rolle?

Der Kluge Hans, oder im Englischen Clever Hans genannt, war ein Pferd Anfang des 20. Jahrhunderts, das vermeintlich rechnen konnte und dabei das Ergebnis mit Hufklopfen wiedergab [1]. Tatsächlich hatte das Pferd jedoch gelernt, die Körpersprache seiner Aufgabensteller zu lesen, die damit die Lösung vorgaben. Der Clever-Hans-Effekt bezeichnet seitdem in der Wissenschaft die unbewusste Beeinflussung eines Verhaltens.

Deep-Learning-Lösungen können einen ähnlichen Effekt haben. Ein System, das Boote in Bildern erkennen soll, reagiert möglicherweise primär auf Wasser. Bei vielen Bildern fällt das nicht auf, da Boote in der Nähe von Wasser anzutreffen sind. Wie Wissenschaftler der TU Berlin vermuten, ist es „durchaus denkbar, dass ungefähr die Hälfte der aktuell eingesetzten KI-Systeme (Künstliche Intelligenz) implizit oder explizit solche Clever-Hans-Strategien nutzen.“ [2] Wie lässt sich erkennen und vermeiden, dass man einen Clever-Hans-Predictor baut und ist es wirklich schlimm, einen solchen Effekt im System zu haben?

Entscheidungs-Kriterien eines Neuronalen Netzes

Ein großer Nachteil des Deep Learning ist, dass es kaum nachvollziehbar ist, warum ein Neuronales Netz bestimmte Entscheidungen trifft. Unter dem Stichwort Explainable AI (Artificial Intelligence) [3] wird an Methoden geforscht, die zumindest Hinweise darauf geben, anhand welcher Kriterien ein Neuronales Netz seine Entscheidungen trifft, also die Eingabe einer Klasse zuordnet. Dabei gibt es zwei Gruppen an Verfahren: Die einen Verfahren erklären für konkrete Eingabedaten, anhand welcher Informationen eine Entscheidung getroffen wurde. Layer-wise Relevance Propagation zeigt in einer Heatmap, welche Datenbereiche für eine Entscheidung herangezogen wurden. Bei Bildern zeigt sie, ob ein Zug hauptsächlich anhand der Schienen im Bild erkannt wurde. Bei der Signalanalyse hebt sie relevante Zeitabschnitte und Kanäle hervor. Vergleichbares gibt es auch bei Neuronalen Netzen für Textanalyse. Mit sogenannten Attention-Mechanismen bewertet ein Modell abhängig vom Kontext, welche Wörter besonders wichtig sind. Auch diese Information lässt sich visualisieren.

Die andere Gruppe sind generative Verfahren, die aktuell für die Bilderkennung eingesetzt werden. Generell will man verstehen, was ein Neuronales Netz gelernt hat. Dabei wird ein Bild nach und nach so verändert, dass es möglichst gut zu einer Klasse passt. Der Deep-Dream-Algorithmus von Google gehört zu den ersten Verfahren dieser Gruppe. Google analysierte, welche Information relevant ist, dass ihr Neuronales Netz auf einem Bild eine Hantel erkennt. Das überraschende Ergebnis war, dass das Netz mit einbezieht, ob in diesem Bild ein Arm zu sehen ist, der die Hantel hält.

Es müssen genügend Trainingsdaten bereitstehen

Ein Neuronales Netz lernt ausschließlich datengetrieben. Es müssen Trainingsdaten bereitstehen, welche die komplette Bandbreite an Eingaben bestmöglich repräsentieren. Es muss zunächst der Problemraum definiert werden: Welche Szenarien müssen berücksichtigt werden und wie soll die Ausgabe des Modells sein? Die getroffenen Entscheidungen haben einen großen Einfluss auf den praktischen Nutzen im tatsächlichen Betrieb und auf die Komplexität des Modells. Es hat sich bewährt, den Problemraum am Anfang so stark wie möglich einzuschränken, sodass gerade noch ein praktischer Nutzen vorhanden ist, und den Problemraum schrittweise zu erweitern.

Bei einer komplexen Eingabe ist die Wahrscheinlichkeit höher, unbewusst Korrelationen in die Eingaben hineinzubringen. Beispielsweise indem alle Trainingsdaten einer Klasse zur selben Tageszeit aufgenommen werden. Deshalb sollten die Daten in einer Art aufgenommen werden, die dem späteren, realen Betrieb so gut wie möglich entspricht. Allerdings ist eine Clever-Hans-Strategie nicht immer problematisch. Entscheidend ist, wie der Problemraum definiert ist. Sollen nur Bilder von Schiffen und von Zügen unterschieden werden, so ist es valide, wenn Bilder von Zügen anhand der Schienen und Bilder von Schiffen anhand des Wassers erkannt werden.

Problematisch wird es nur, wenn Schiffe auch in der Nähe von Gleisanlagen erkannt werden sollen. Wie viel Einfluss eine mögliche Clever-Hans-Strategie auf die Erkennungsrate des Modells im realen Betrieb hat, zeigt die Auswertung des Testdatensatzes. Wie bei den anderen Daten sollen die Testdaten der tatsächlichen Anwendung entsprechen. Werden bei einem gut erstelltem Testdatensatz alle definierten Szenarien mit hoher Genauigkeit erkannt, ist die Genauigkeit im späteren Betrieb vermutlich ähnlich gut, auch wenn eine Clever-Hans-Strategie genutzt wird. Verursachen Fehlentscheidungen keinen großen Schaden, ist das Verhalten durchaus akzeptabel.

Deutlich anders ist das beispielsweise in der Medizin, wenn es um Menschenleben geht. Aufgrund des hohen Risikos einer Fehlentscheidung können KI-Systeme nur unter ganz bestimmten Bedingungen eingesetzt werden. Allerdings können gerade hier die Explainable-AI-Ansätze helfen, den Arzt bei einer Diagnose besser zu unterstützen, indem sie auf relevante Datenabschnitte hinweisen.

Referenzen

[1] Hans Joachim Gross: Eine vergessene Revolution. Die Geschichte vom klugen Pferd Hans. In: Biologie in unserer Zeit. Band 44, Nr. 4, 2014, S. 268-272

[2] Gemeinsame Pressemitteilung der Technischen Universität Berlin und des Fraunhofer Heinrich-Hertz-Instituts HHI vom 11. März 2019: Wie intelligent ist Künstliche Intelligenz? In: Medieninformation Nr. 40/2019: https://www.tu-berlin.de/?203846

[3] A. Holzinger. Informatik Spektrum (2018) 41:138. https://doi.org/10.1007/s00287-018-1102-5

Autor: Matthias Weidler

(c)2019
Vogel Communications Group

Bitte beachten Sie

Die Beiträge in der Rubrik "Trends und Innovationen" sind Inhalte unseres Medienpartners Vogel Communications Group GmbH & Co. KG. Sie spiegeln nicht unbedingt die Meinung von DATEV wider.

Vogel Communications Group