Detektion von Auffälligkeiten mit Hilfe von Autoencodern

Auffälligkeitsdetektion in Abrechnungsdaten

Machine Learning (ML) für Anomaly Detection – Auffälligkeitsdetektion

Ein medial großes Thema in 2018 waren die Betrugsfälle im deutschen Pflegesystem. Am 16.10.2018 schrieb der Spiegel, dass nach Expertenschätzungen »durch Betrug allein in der ambulanten Pflege rund zwei Milliarden Euro jährlich verloren gehen«⁠. Das Interesse, dem entgegenzuwirken, ist hoch. Betrugsfälle gut in Daten zu finden, erscheint daher als lohnenswertes Ziel.

Wir haben uns zur Aufgabe gemacht, ML-Algorithmen zur Auffälligkeitsdetektion zu analysieren, optimieren und einzusetzen. Insbesondere sind die Assistenzsysteme für Anwendende hierbei unser Fokus. Dieser Forschungszweig nennt sich Auffälligkeitsdetektion (engl. Anomaly Detection).

Statistische Probleme mit Machine Learning lösen

Machine Learning (ML) bietet heutzutage in verschiedenen Gebieten Lösungen und Hilfestellungen an, die unseren Alltag beeinflussen. So funktioniert Sprach- und Bilderkennung auf Smartphones beeindruckend gut und auch das autonome Fahren ist schon längst nicht mehr nur Theorie. Diese Techniken halten auch immer weiter Einzug in ursprünglich statistischen Domänen. So können mit ML-Algorithmen beispielsweise Kreditratings berechnet werden.

Die Hoffnung ist stets die Aufgaben der klassischen Statistik mit ML-Algorithmen besser oder zumindest komfortabler zu lösen. Diese Entwicklung ist auch politisch gewollt und gefördert.

Der Fokus liegt z.B. auf der Erklärbarkeit solcher Algorithmen⁠ (Siehe BMBF: Bekanntmachung zu Erklärbarkeit und Transparenz des Maschinellen Lernens und der Künstlichen Intelligenz) oder auf Anwendbarkeit im Verbraucheralltag (Siehe BMJV: Bekanntmachung zu Anwendungen künstlicher Intelligenz zur Unterstützung des Verbraucheralltags (consumer enabling technologies))⁠.  

Adversarial Autoencoder bieten die Möglichkeit große Datenvielfalt zu visualisieren

Konkret beschäftigen wir uns zurzeit damit, für große Datenmengen – mit unüberschaubar vielen Ausprägungen – eine robuste und interpretierbare Darstellung zu finden. Vor allem soll diese dem Nutzenden die Möglichkeit geben, Datenbeobachtungen miteinander zu vergleichen und in Relation zu setzen. Hierfür verwenden wir beispielsweise Adversarial Autoencoders. Diese Modelle aus der Gruppe des Unsupervised Learning (unüberwachten Lernens) bieten die Möglichkeit aktiv Einfluss auf die Datendarstellung zu nehmen.

Das Bild zeigt die Entwicklung der Datendarstellung während des Trainings einer unserer Autoencoder. Auffällige Objekte unseres Datensatzes sind dunkel markiert.

Die Eigenschaft »auffällig« ist in der Regel nicht bekannt, aber man sieht wie sich gerade diese Objekte am Rand sammeln. Weiter sind gewisse zusammenhängende Strukturen zu erkennen.

Detektion von Auffälligkeiten mit Hilfe von Autoencodern