FACT – Federated Aggregation and Clustering Toolkit

Federated Learning Framework

Die Qualität von Algorithmen ist überwiegend mit der verfügbaren Datenmenge verbunden. In den letzten Jahren hat die Verfügbarkeit von Daten rasant zugenommen. Insbesondere das Internet of Things (IoT) erzeugt große Datenmengen von Millionen von Geräten. Diese Fülle an Daten ermöglicht es, immer bessere Machine-Learning-Modelle zu trainieren. In der Praxis kann die Bereitstellung dieser Daten zum Trainieren eines zentralisierten Modells jedoch aufgrund gesetzlicher Beschränkungen oder technischen Hürden bei der Übertragung großer Datenmengen über geringe Bandbreiten problematisch sein. Eine Lösung für diese Herausforderungen ist Federated Learning – das föderierte Lernen.

Federated Learning

Hier werden alle Trainingsdaten ausschließlich auf lokalen Geräten oder Clients gespeichert und das Modelltraining dezentralisiert. Die Clients erhalten ein Modell und verbessern es durch Lernen aus ihren lokalen Daten. Eine Zusammenfassung des aktualisierten Modells eines Clients wird über verschlüsselte Kommunikation an einen Server gesendet. Dort wird es mit den Aktualisierungen anderer Clients zu einem gemeinsamen globalen Modell zusammengeführt.
 

Federated Learning mit FACT

Das Framework Federated Aggregation and Clustering Toolkit (FACT) bietet grundlegende Funktionen für föderiertes Lernen mit der zusätzlichen Flexibilität verschiedener Aggregations- und Clustering-Algorithmen. Es ermöglicht so eine schnelle Entwicklung von verteilten Lernsystemen. Es kommt zum Einsatz, wenn es darum geht Machine-Learning-Modelle zu trainieren – ohne dass Daten zentralisiert oder zusammengeführt werden müssen.

FACT lässt die einfache Implementierung von föderiertem Lernen zu und unterstützt gängige Machine-Learning-Frameworks wie Scikit-learn oder Keras. Zudem ist es modular aufgebaut und erweiterbar. Es kann für verschiedene Anwendungsfälle angepasst werden.

FACT nutzt Fed-DART, eine verteilte Laufzeitumgebung, die wir im Bereich »High Performance Computing« entwickelt haben, um einen einfachen Wechsel zwischen Data-Science-Experimenten oder Simulationen und einer skalierbaren Produktionsumgebung zu ermöglichen.

FACT unterscheidet sich von existierenden Frameworks, indem es verschiedene Optionen zu Aggregation und Clustering anbietet. Beides sind wichtige Bestandteile von verteilten Lernalgorithmen, die einen großen Einfluss auf die endgültige Modellleistung haben. Durch verschiedene Aggregationsmethoden kann das Ausmaß, mit dem lokale Aktualisierungen das globale Modell beeinflussen, gesteuert werden. Davon profitieren insbesondere Szenarien, in denen die Daten von Kundinnen und Kunden sehr heterogen sind. Darüber hinaus können durch eine flexible Wahl der Clustermethode lokale Modelle intelligenter kombiniert werden, was möglicherweise zu mehreren globalen Modellen führt, die individuell besser für heterogene Gruppen von Kundinnen und Kunden geeignet sind. 

FACT in der Praxis

Unsere aktuellen Anwendungen fokussieren sogenanntes »Silo-Lernen«. Das bedeutet, dass im Gegensatz zu anderen bekannten Anwendungsgebieten wie z.B. die Autovervollständigung von Suchbegriffen der Google-Suche nicht auf sehr vielen kleinen Geräten gelernt wird. Stattdessen haben wir vergleichsweise wenige Datenquellen (Clients), die allerdings jeweils über eine große Menge an Daten verfügen. Ein konkretes Beispiel kann die Auffälligkeitsdetektion zur Abrechnungsprüfungsein.

Ausgangslage sind mehrere Firmen der gleichen Branche, die Abrechnungen mit Hilfe von Machine-Learning-Methoden prüfen wollen, wie wir es in unserem Geschäftsfeld Abrechnungsprüfung häufig implementieren. Eine Zusammenarbeit der Firmen kann Vorteile für alle bringen, da z.B. Betrugsmuster erst durch Zusammenarbeit sichtbar werden. Allerdings möchte auch jedes Unternehmen die eigene Datenhoheit behalten und ein Zusammenlegen der Abrechnungen zu einem Datenpool ist ausgeschlossen.

Durch Federated Learning ist beides möglich. Zuerst werden Modelle zur Auffälligkeitsdetektion lokal bei jeder einzelnen Firma trainiert. Im Anschluss werden die gelernten Modelle zentral aggregiert. Die Erkenntnis, die aus der Zusammenführung der einzelnen Modelle gewonnen wird, wird dann wieder lokal zurückgespielt.

Schema des Föderalen Lernsystems
Schema des Föderalen Lernsystems

Beispielprojekt »Bauhaus Mobility Lab«

Im Rahmen des Bauhaus Mobility Lab (BML) kommt FACT zum Einsatz. Hier wurde das Framework bereits unter realistischen Rahmenbedingungen in die Projektumgebung integriert und angewendet.