Netzwerkbasierte Analyse und Visualisierung von Abrechnungsdaten

Wie können wir die Netzwerkanalyse und die Graphentheorie zur Betrugserkennung nutzen? Um Anomalien in den Lohn- und Gehaltsdaten zu erkennen? Um das erwartete Verhalten innerhalb der Finanzdaten zu kategorisieren?

Können wir mit Hilfe der Visualisierung einen großen Abrechnungsdatensatz zur Hand nehmen und einen überschaubaren, aufschlussreichen Überblick erstellen?

Wenn die Datensätze sehr groß sind, welche Algorithmen und Techniken können wir dann speziell für den Finanzkontext entwickeln und anpassen?

Anomalie-Erkennung von Abrechnungsdaten

Unter Berücksichtigung der Art der Daten und unter Anwendung verschiedener Ähnlichkeitsmaße passen wir ein geeignetes Maß an die Daten an und nehmen dann eine Clusterung des Datensatzes in typische Gruppen vor. Weitere Techniken der Netzwerkanalyse werden dann zur Klassifizierung ungewöhnlicher oder unerwarteter Einträge verwendet. Diese Techniken zur Erkennung von Anomalien in Abrechnungsdatensätzen kombinieren wir mit den bestehenden zeitreihenbasierten maschinellen Lernansätzen der anderen Mitarbeitenden der Abteilung. So entsteht ein wichtiges Werkzeug zur Erkennung von Anomalien im Finanzbereich.

 

Visualisierung komplexer Daten

Unsere Methoden nehmen sich einen komplexen Datensatz vor und suchen nach einem sinnvollen Weg, diesen visuell als Netzwerk darzustellen, so dass der Bearbeitende der Daten sofort die wichtigsten Informationen herausfindet. Unsere Ideen verwenden:

  • Zentralitätsmaße
  • Graphen-Clustering-Techniken
  • kombinatorische Ähnlichkeitsmaße aus der Netzwerkanalyse

Wir schaffen damit eine Netzwerkdarstellung, die sowohl Größe, Farbe, Beschriftungen als auch Entfernung in einer angemessenen und aufschlussreichen Weise berücksichtigt.

Hochkostenbereiche der eingegebenen Abrechnungsdaten
© Fraunhofer ITWM
Hochkostenbereiche der eingegebenen Abrechnungsdaten
Graph Clustering
© Fraunhofer ITWM
Das Graph-Clustering gruppierte diese Daten natürlich in die 4 Werte eines der sieben Eingabemerkmale.

Algorithmen für große Daten

Um zu vermeiden, dass wir uns ein ganzes Netzwerk mit möglicherweise Millionen von Knoten vornehmen, konzentrieren wir uns auf die Nachbarschaft eines Knotens oder einer Dateneinheit von Interesse und verwenden sie, um die Bedeutung der Einheit oder die Gruppen, zu denen diese Einheit gehören sollte, zu bestimmen. Dieser lokale Ansatz zur Datenanalyse reduziert die Laufzeitkomplexität des beteiligten Algorithmus erheblich.