Eingebettete künstliche Intelligenz
Optimierung von Neuronalen Netzwerken
In unserer Forschung fokussieren wir uns auf die Optimierung von KI-Modellen, insbesondere Deep Learning (DL)-Architekturen, für den Einsatz auf ressourcenbeschränkten IoT-Geräten, wie eingebetteten FPGAs. Hier liegt der Fokus besonders auf der Quantisierung neuronaler Netzwerke, also der Reduzierung der numerischen Präzision von Modellparametern, um Speicherbedarf und Rechenintensität zu verringern und auf der Nutzung von Transformer-Modellen.

Dabei untersuchen wir allgemein Optimierungen beim Training der Netzwerke und streben möglichst schnelle wie effiziente Berechnungen an, beispielweise durch den Einsatz separierbarer Faltungen.
Zudem erlaubt es bei quantisierten neuronalen Netzwerken (QNN) eine geringe Bittiefe von zwei oder weniger Bit im Zusammenspiel mit der Beschaffenheit von FPGAs, Operationen innerhalb des Netzwerkes vorauszuberechnen und die entsprechenden Ergebnisse für schnellstmöglichen Zugriff in den LUTs der konfigurierbaren Logikblöcke zu hinterlegen.
Ansprechpartner: Lukas Einhaus, M.Sc.
Unsere Forschung konzentriert sich auf energieeffiziente Zeitreihenanalysen auf eingebetteten FPGAs mit begrenzten Ressourcen. Wir arbeiten an der Quantisierung und hardwarebewussten Bereitstellung tiefer neuronaler Netze (insbesondere Transformatoren) auf eingebetteten FPGAs. Unsere Arbeit umfasst Prognosen, Klassifizierungen und Anomalieerkennung mit Vergleichsstudien zu LSTM-Modellen, 1D-CNN-Modellen und anderen hybriden Architekturen. Zu den wichtigsten Methoden gehören die multikriterielle Optimierung und die Quantisierung mit gemischter Genauigkeit, um Genauigkeit, Latenz und Energieverbrauch in Einklang zu bringen, unterstützt durch ein automatisiertes Bereitstellungsframework für verschiedene FPGA-Plattformen.
Unsere automatisierte Toolchain ElasticAI.creator wird für die Modellentwicklung und -bereitstellung verwendet. Das Ziel der Forschung ist es, ein Gleichgewicht zwischen Modellgenauigkeit und hardwarebezogenem Verbrauch (wie Latenz, Energie) herzustellen. Diese Erkenntnisse werden in unserem Forschungsprojekt RIWWER angewendet.
Ansprechpartnerin: Tianheng Ling, M.Sc.
Spikesortierung und Online-Training für Quantisierte Neuronale Netzwerke

Eine weitere spannende Anwendung von Quantisierten Neuronalen Netzwerken, die aktuell im Forschungsprojekt Sp:Ai:Ke erforscht wird, ist die Zeitreihenanalyse von (echten biologischen) neuronalen Signalen.
Die Aufzeichnungen solcher Signale umfassen immer ganze Signalbündel sowie eine gewisse Hintergrundaktivität. Um ein differenziertes Bild einzelner neuronaler Aktivitäten zu bekommen, bedarf es daher geschickter Verarbeitung der Signale, die noch dazu adaptive Qualitäten besitzen muss.
Genauer gesagt werden zur Laufzeit (also online) aufgrund des neuronalen Drifts Anpassungen der Signalklassifizierung nötig, das eingesetzte Netzwerk muss mit wenigen exemplarischen Daten kontinuierlich nachjustiert bzw. -trainiert werden.
Ansprechpartner: Leo Buron, M.Sc.
Hardwaresensitive Neuronale Architektursuche
Die ideale neuronale Architektur für den jeweiligen Anwendungsfall zu finden, kann viel Zeit und Ausprobieren erfordern.

Die Neuronale Architektursuche (auch NAS) automatisiert diesen Gestaltungsschritt und findet teilweise Architekturen, die manuell erstellte übertreffen. Ferner lässt sich sogar die nötige Ressourcenabschätzung durch ein Tiefes Neuronales Netzwerk automatisieren. Auf diese Weise wird der bedarfsangepasste Einsatz von Neuronalen Netzwerken wesentlich vereinfacht.
Das Verfahren, auf dem zur Zeit unser Hauptaugenmerk liegt, beruht auf der Kombination von evolutionären Algorithmen und Reinforcement Learning und findet optimale Architekturen durch zielgerichtetes Mutieren, Rekombinieren und Aussortieren von Kandidaten. Unsere Anforderungen beinhalten typischerweise den effizienten Betrieb auf ressourcenbeschränkter Hardware, darum fließen Hardwarekosten wie Latenz oder Energieverbrauch als Optimierungskriterien in die Architektursuche mit ein.
Unsere Forschung fokussiert sich hierbei abermals auf Anwendungsfälle aus den Bereichen Signalverarbeitung und Zeitreihenanalyse, beispielsweise um latenzoptimierte Architekturen für die Simulation von zeitvarianten, nicht-linearen Audioeffekten zu finden.
Ansprechpartner: Christopher Ringhofer, M.Sc.

Aufbauend auf diesen Arbeiten zeigt sich zunehmend, dass die Leistungsfähigkeit neuronaler Architekturen stark von nachgelagerten Komprimierungsverfahren abhängt. Meist werden die NAS und Komprimierungsverfahren wie Quantisierung in komplett voneinander unabhängigen Schritten betrachtet, um den Suchraum überschaulicher zu gestalten. Dieses Vorgehen hat aber den Nachteil, dass Abhängigkeiten zwischen den gewählten Architekturparametern und dem Einfluss des gew
ählten Quantisierungsschemas in der NAS nicht mit betrachtet werden, was zu suboptimalen Modellen führen kann. Unsere Forschung untersucht aktuell Möglichkeiten beide Verfahren sinnvoll zu kombinieren, mit einem Hauptaugenmerk auf die Suchraumerweiterung und die Evaluationsstrategie der gesampleten Modelle.
Ansprechpartnerin: Natalie Maman, M.Sc.
Eine zentrale Rolle bei der praktischen Umsetzung dieser Forschung spielt das Projekt TransfAIr, in dessen Rahmen die Entwicklung der Toolbox ElasticAI.Explorer vorangetrieben wird. Diese soll Werkzeuge bereitstellen, um KI-Modelle auf unterschiedlichen eingebetteten System ausführen zu können und automatisiert über HW-NAS dafür zu optimieren. Ziel ist es, den „TransfAIr“ von KI-Modellen auf diverse Hardwareumgebungen zu erleichtern und zu optimieren. Der Fokus liegt dabei insbesondere auf dem Deployment auf unterschiedlichen Hardware-Plattformen sowie auf der Erweiterung und Verbesserung des Software-Stacks.
Ansprechpartner: Robin Feldmann, M.Sc.
Embedded Kolmogorov-Arnold Networks

Ein Teil unserer Forschung beschäftigt sich mit neuartigen neuronalen Netzwerkarchitekturen, die auf dem Kolmogorov-Arnold-Repräsentationstheorem basieren. Dabei liegt der Fokus auf Kolmogorov-Arnold Networks (KANs), einem vielversprechenden Ansatz, bei dem die Gewichte eines neuronalen Netzes durch lernbare nichtlineare Funktionen ersetzt werden. Diese Struktur ermöglicht Modelle, die gleichzeitig interpretierbarer, flexibler und ausdrucksstärker sind als klassische Multi-Layer-Perceptrons (MLPs).
Im Rahmen der Forschung evaluieren wir in welchen Anwendungsgebieten die KANs Architektur einen praktischen Vorteil bietet und wie sich der Ressourcenbedarf der KAN-Modelle reduzieren lässt, z.B. durch Anwendung von Quantisierung oder durch Ersetzen von gelernten nicht-linearen Funktionen. Aufgrund der Erklärbarkeit der KAN-Modelle, kann diese Methode besondere Vorteile in sicherheitskritischen Bereichen, wie der Medizin oder im Automotive Sektor bieten.
Im Rahmen der Forschung wird das KANLib-Framework entwickelt. Dabei handelt es sich um eine modulare und einfach erweiterbare KAN-Implementierung für PyTorch. Ziel ist es, die praktische Einsetzbarkeit von KANs in eingebetteten Systemen zu evaluieren und zu verbessern.
Ansprechpartner: Julian Hoever, M.Sc.
Delta-Kompression
Die zunehmende Größe moderner neuronaler Netze stellt eingebettete Systeme vor erhebliche Herausforderungen. Insbesondere im Kontext energieeffizienter Hardware wie FPGAs oder Mikrocontrollern besteht ein wachsender Bedarf an Verfahren, die Speicherbedarf und Rechenaufwand reduzieren, ohne dabei die Modellqualität wesentlich zu beeinträchtigen.
Ein Ansatz, mit dem sich unsere Forschung beschäftigt, ist die Delta-Kompression. Bei diesem Verfahren werden anstelle vollständiger Modelparameter, lediglich Deltas gespeichert. Da diese mit einem geringeren Informationsverlust komprimiert werden können, entstehen deutliche Einsparungen an Speicherplatz, was den Einsatz größerer Modelle auf kleinen Systemen ermöglicht. Die Delta-Kompression eröffnet neue Möglichkeiten für den Einsatz von KI-Modellen in eingebetteten Anwendungen. Sie bietet eine Alternative zu stark quantisierten oder strukturell reduzierten Netzarchitekturen und erlaubt es, Modelle mit höherer Komplexität in ressourcenarmen Umgebungen auszuführen. Gleichzeitig führt die Kompression fast zwangsläufig zu Informationsverlusten, die sich auf die Modellperformance auswirken können. Die Entwicklung geeigneter Methoden zur Fehlerbegrenzung und adaptiven Kompressionsstrategien ist daher ein zentraler Bestandteil aktueller Forschung.
Langfristig soll die Methode mit weiteren Optimierungstechniken wie strukturellem Pruning oder quantisierungsbewusstem Training kombiniert werden, um robuste und zugleich ressourceneffiziente KI-Modelle bereitzustellen.
Ansprechpartner: David Peter Federl, M.Sc.