Industrielle Datenprozesse für KI-Technologien - Handlungsempfehlungen am Beispiel von Robotik-Applikationen

Christian Brecher, Manuel Belke, Minh Trinh, Lukas Gründel und Oliver Petrovic

Daten spielen in unserer Welt – und u. a. auch in der Produktionstechnik – eine immer größere Rolle. Unternehmen sind steigenden Kundenanforderungen und einem erhöhten Wettbewerbsdruck ausgesetzt. Weiterhin erfordert der Trend zu kleineren Losgrößen und zunehmender Variantenvielfalt eine schnelle Reaktionsfähigkeit und Agilität der Unternehmen. Um unter diesen Voraussetzungen die richtigen Entscheidungen treffen zu können, müssen Daten erzeugt und analysiert werden, um daraus Erkenntnisse abzuleiten. Oftmals sind bereits Unmengen an ungenutzten Daten im Unternehmen vorhanden, sodass eine Verarbeitung notwendig ist, um z. B. mithilfe von KI-Algorithmen Mehrwert daraus zu generieren.

KI-Technologien finden in Zukunft eine immer breitere Anwendung, um der steigenden Unsicherheit und Komplexität zu begegnen. Im Folgenden werden Methoden beschrieben, die notwendig sind, um Datenprozesse als Grundlage hochwertiger KI-Technologien zu beherrschen.

Um die Nutzung von Daten und den damit verbundenen Erkenntnisgewinn effizienter zu gestalten, ist die Standardisierung des Ablaufs datenzentrierter Projekte notwendig. Gleichzeitig soll ein Standardprozess einen Rahmen anbieten, der das Projektmanagement unterstützt und die Interaktionen zwischen Mitarbeiter*innen und Datenanalyse-Software entlang des Prozesses vereinfacht. Indem ein gemeinsames Projektverständnis erzeugt wird, werden die Kommunikation und die Dokumentation der Ergebnisse erleichtert [1].

Industrielle Datenprozesse

Bild 1 stellt das CRISP-DM (Cross Industry Standard Process for Data Mining) Referenzmodell dar, das einen Überblick über den Lebenszyklus eines datenzentrierten Projekts bietet. Der Gesamtprozess besteht aus insgesamt sechs Phasen, die flexibel miteinander kombiniert werden können. Die Pfeile in beide Richtungen sowie der umgebende kreisförmige Pfeil symbolisieren, dass das Modell einen flexiblen Rahmen für Projekte geben soll. Iterationen über den gesamten Prozess aber auch die Wiederholung einzelner Prozessschritte sind Bestandteile vieler Projekte. In diesem Beitrag liegt der Fokus auf den Schritten Datenverständnis, in dem eine Analyse der vorhandenen Daten stattfindet, und Datenaufbereitung, für die weitere Anwendung auf KI-Algorithmen (Modeling) [1].

Ausgehend von diesem allgemeinen Modell entwickeln Huber u. a. eine Methodik für Ingenieursanwendungen. Die Ziele bei der Verbesserung der Produktion sind die Maximierung der Verfügbarkeit und Produktivität der Maschinen. Es wird der Schritt Technisches Verständnis ergänzt, um ein physikalisches Verständnis des Prozesses zu erlangen und daraus ein Konzept für Messungen sowie einen Versuchsplan zu entwickeln. An diesen Schritt anschließend erfolgt die Technische Realisierung, die die erstellten Konzepte und Pläne physikalisch realisiert [2].


Bild 1: CRISP-DM-Referenzmodell mit Erweiterung um Prozesse für Ingenieursanwendungen.
Quelle: In Anlehnung an [2].

Herausforderungen

Eine besondere Herausforderung von industriellen Datenprozessen ist die Gewährleistung einer ausreichenden Datenqualität sowie -quantität. Diese Eigenschaften bestimmen maßgeblich den Erfolg von datengetriebenen Technologien. Eine mangelnde Qualität kann zu Fehlerkenntnissen führen, wohingegen unzureichende Datenmengen eine geringere Generalisierbarkeit (Extrapolation auf unbekannte Datenbereiche) der KI-Algorithmen bewirken können [3].

Der Begriff Datenqualität wird in der Literatur nicht eindeutig definiert. Dieser Beitrag orientiert sich an der ISO-Norm 8000 Data Quality, die Anforderungen an Datenqualität sowie Maßnahmen zu deren Umsetzung formuliert. Andere Quellen wie [4] oder [5] beschreiben ähnliche Ansätze. Datenqualität wird in der ISO 8000 definiert als der “Grad, in dem ein Satz inhärenter Merkmale von Daten Anforderungen erfüllt”. Sie wird anhand folgender Anforderungskategorien bewertet: syntaktische, semantische sowie pragmatische Qualität [6].

Die syntaktische Qualität ist der Grad, in dem Daten mit ihrer vorgeschriebenen Syntax übereinstimmen [7]. Sie stellt u. a. sicher, dass Datenwerte in der korrekten Einheit gegeben sind oder verhindert Duplikate in Datensätzen. Letzteres kann zu einer Verzerrung des Datensatzes führen (Data Bias). Ein KI-Algorithmus, der mit einem solchem Datensatz trainiert wird, sieht bestimmte Datenpunkte öfter als andere, wodurch das Trainingsergebnis verzerrt wird [8]. Die semantische Qualität beschreibt die Übereinstimmung von Daten mit einem repräsentierten System [7]. Die Verletzung der semantischen Qualität führt zu einer unvollständigen oder fehlerhaften Abbildung des betrachteten Systems, wodurch keine akkurate Vorhersage durch KI möglich ist (Garbage in, Garbage out). Schließlich bestimmt die pragmatische Qualität anwendungsspezifische Anforderungen. Daten sollen z. B. für den Nutzer verständlich und aktuell sein, da sich aufgrund variabler Randbedingungen die Anforderungen der Anwendungsfälle ändern können. Weitere Beispiele sind die Sicherheit gegenüber Datenverlusten und unberechtigte Zugriffe [7]. In [9] werden zudem Metriken für eine quantitative Messung der Qualität vorgestellt.

Im Gegensatz zur Qualität beschreibt die Datenquantität zum einen die Anzahl der betrachteten Attribute als auch die Menge der Daten. Nach dem Curse of Dimensionality wächst die Schwierigkeit eines Problems mit der Anzahl der Inputvariablen [10]. Eine Analyse der notwendigen Attribute für den KI-Algorithmus muss durchgeführt werden, um den Rechenaufwand zu verringern und damit den Nutzen des Algorithmus zu steigern.

Hinsichtlich der Datenmenge sind zwei Extrema vertreten. Zum einen stellt Big Data einen umfangreichen Bestand von Daten im Tera- bis Zettabytebereich dar, mit dem unbekannte Muster aufgedeckt werden können [11]. Allerdings steigt für eine große Datenmenge der Aufwand des Labelns, d. h. das meist manuelle Versehen der Daten mit zusätzlicher Information für das Training von überwachten KI-Algorithmen. Der Aufwand kann durch automatisiertes Labeln durch Semi-Supervised Learning nur bedingt reduziert werden [12]. Zum anderen können mit Zero-shot Learning Vorhersagen über ein System getroffen werden ohne die Notwendigkeit von Trainingsdaten [13]. Dieser KI-Algorithmus ist bisher aber nur auf eine begrenzte Anzahl von Problemen anwendbar.

Zum Weiterlesen hier klicken