Fed-DART – Distributed Analytics Runtime for Federated Learning

Dezentrales Machine Learning, das Datenschutz gewährleistet

Unsere »Distributed Analytics Runtime for Federated Learning« (Fed-DART) ermöglich die einfache Umsetzung von föderierten Maschinellen Lernmethoden (ML), um lokale Daten verteilter Umgebungen zu nutzen. Damit ist es möglich ein KI-Modell zu trainieren, ohne dass die Daten zusammengeführt werden müssen. 

Für das Training von KI werden immer größere Datenmengen benötigt. Je mehr Daten für das Training verfügbar sind, desto besser die Ergebnisse. In der praktischen Umsetzung von vielen KI-Projekten stellt die Beschaffung bzw. Bereitstellung dieser Daten eine erhebliche Hürde da. Die Ursachen hierfür können vielfältig sein:

  1. Einzelne Unternehmen bzw. Abteilungen können nur wenige Daten akquirieren oder diese nicht zentral zusammenführen.
  2. Regulatorische Restriktionen aufgrund von Datenhoheit und Datenschutz
  3. Die Daten werden auf mobilen Endgeräten generiert und können aufgrund geringer Kommunikationsbandbreite nicht zu einer großen Datenbank zusammengefasst werden. Ein Training auf allen Daten gleichzeitig ist damit nicht möglich.

Föderiertes Lernen: Eine Antwort für Unternehmen in punkto KI

Die genannten Punkte stellen Unternehmen vor große Herausforderungen, KI produktiv einzusetzen. Die mögliche Lösung hierfür nennt sich föderiertes Lernen.

Beim föderierten Lernen bleiben die Daten dort wo sie erzeugt oder in erster Instanz gesammelt werden. Auf diesen lokalen vorliegenden Daten wird ein KI-Modell trainiert. Um die Genauigkeit der lokalen Modelle zu erhöhen, werden in einem weiteren Schritt die gelernten Modelle global geteilt und in geeigneter Weise zu einem globalen Modell aggregiert. Modernste Algorithmen helfen dabei Aggregationsprobleme aufgrund der Diversität der lokalen Daten zu lösen. Das globale Modell wiederum wird mit allen Nutzer:innen geteilt. Somit wird die Genauigkeit der lokalen Modelle verbessert, ohne Informationen über die Daten zu teilen.

Fed-DART Diagramm
© Fraunhofer ITWM
Föderiertes Lernen gewährleistet als dezentrale Lösung private und sichere KI: Die Daten bleiben lokal dort wo sie erzeugt wurden; lediglich das KI-Modell wird global geteilt und verbessert.

Föderiertes Lernen mit Fed-DART

Mit unserem Framework Fed-DART möchten wir dem/der Nutzerin eine einfache Umsetzung von föderiertem Lernen ermöglichen. Anwendende können sich vollumfänglich auf die Entwicklung geeigneter KI-Methoden konzentrieren, ohne sich mit dem Aspekt des verteilten Rechnens beschäftigen zu müssen. Man profitiert hierbei von unserer langjährigen Erfahrung und Expertise im Bereich des verteilten Rechnens durch drei wesentliche Punkte:

  1. Flexibilität:
    Fed-DART ist geräteunabhängig und unterstützt daher eine Vielzahl von Anwendungsmöglichkeiten. Dies ermöglicht föderiertes Lernen sowohl auf wenigen, rechenstarken Datenzentren als auch auf vielen Edge-Plattformen. Darüber hinaus ist die Einbindung von Fed-DART unabhängig vom verwendeten Machine Learning Framework.
  2. Skalierbarkeit und Zuverlässigkeit:
    Fed-DART basiert auf unserer, in der Industrie erprobten, verteilten Plattform für Hochleistungssysteme. Es ermöglicht eine hohe Skalierbarkeit auf einer Vielzahl von teilnehmenden Geräten und bietet eine fehlertolerante und dynamische Laufzeitumgebung.
  3. Einfache Nutzung:
    Der/Die Endnutzer:in kann Fed-DART einfach und bequem in den eigenen Python-Code einbinden. Dies wird durch die Trennung zwischen Algorithmen und technischer Infrastruktur erreicht.
Fed-DART Diagramm
© Fraunhofer ITWM
Fed-DART ermöglicht die flexible Einbindung von verschiedenen Machine Learning Frameworks für den/die Endnutzer:in. Die Verwaltung der teilnehmenden Parteien erfolgt vollautomatisch mit unserer industrieerprobten Laufzeitumgebung.

Beispielprojekt »Bauhaus Mobility Lab«

Im Rahmen des Bauhaus Mobility Labs (BML) als SmartCity Cloud Platform wird Fed-DART zur Realisierung von föderiertem Lernen im urbanen Umfeld verwendet. Dafür werden mehrere Feinstaub-Messstationen zu einem Netzwerk verbunden um eine bessere Vorhersage zu ermöglichen. Jede Messstation trainiert dabei auf seinen lokalen Luftverschmutzungsdaten und teilt danach seine gewonnenen Erkenntnisse mit einer zentralen Instanz. Dieses gesammelte Wissen wird durch geeignete Algorithmen aggregiert und verbessert dadurch wiederum die Vorhersagen jeder einzelnen Messstation. Dieser Informationsgewinn kann genutzt werden, um die Luftqualität in Städten zu verbessern.