Datenexperten heben verborgene Schätze aus Daten 

Daten sind das neue Öl und die Data-Scientisten – Datenwissenschaftler oder ab jetzt: Datenexperten – sind diejenigen, die in den Daten verborgene Informationen für sich oder andere zugänglich machen. Somit sind sie zur gleichen Zeit die Umsetzer künstlicher Intelligenz.

Die künstliche Intelligenz und ihre drei Säulen

In der Einladung zur ersten KI-Konferenz im Jahr 1956 am Dartmouth College in Hanover, New Hampshire/ USA, schreibt John McCarthy über die Hypothese, dass „jeder Aspekt des Lernens oder irgendeines anderen Merkmals der Intelligenz im Prinzip so genau beschrieben werden kann, dass eine Maschine gemacht werden kann, um sie zu simulieren“. Seitdem gibt es viele weitere Definitionen von KI, die KI-Welt hat sich aber bis dato nicht auf eine einigen können.

Für den Alltagsgebrauch könnte man sagen: KI ist, wenn ein Algorithmus als Werkzeug in den Händen eines Menschen Muster in Daten erkennt und ihn scheinbar intelligent unterstützt.

KI kommt in vielen Ausprägungen daher, die heute meist angewendete ist das maschinelle Lernen. Dabei geht es darum, dass Computerprogramme ohne explizite Programmierung lernen. Die dazu eingesetzten Algorithmen sind oft sogenannte künstliche neuronale Netze, welche dem menschlichen Gehirn lose nachempfunden sind. Eine besondere Methode dieses maschinellen Lernens ist das Deep Learning oder tiefes Lernen, bei dem künstliche neuronale Netze mit einer großen Anzahl an Zwischenschichten eingesetzt werden.

Schon früher hat auch die Statistik oder das Data Mining Muster in Daten erkannt. Während aber die Statistik zurückblickt, sich damit befasst, was geschehen ist, und das Data Mining versucht, einen Einblick in das, was war oder ist, zu verschaffen, gibt das maschinelle Lernen meist einen Ausblick: Was wird geschehen? Und was ist zu tun, damit nicht gewollte Situationen (Anlagenstillstand / Klimaänderung) nicht eintreten.

Die wichtigsten Zutaten oder besser: Säulen des modernen maschinellen Lernens sind Daten, Algorithmen und Prozessoren.

Daten übernehmen die Rolle des weltweiten Wirtschaftstreibers vom Öl – wobei seit einiger Zeit Öl wieder verstärkt von sich hören lässt! So wie aus Rohöl Benzin destilliert werden muss, so müssen verborgene Informationen von den Datenexperten aus den Daten gehoben werden. Daten stellen den neuen Produktionsfaktor  – zusätzlich zu Boden, Kapital und Arbeitskraft – dar, sie sind die neue Währung.

Ein Algorithmus ist eine Handlungsanweisung zur Lösung eines Problems, die selbst auch wieder Handlungsanweisungen beinhalten kann. Es gibt Basisalgorithmen zum Sortieren, Suchen, Indexieren, Selektieren, Umdrehen, Zusammenführen oder Drucken. Algorithmen werden in Programmiersprachen wie C, C++, Java oder Python – dem aus den Niederlanden stammenden, mittlerweile weltweiten Standard für Data Science und anderen Anwendungen implementiert. Heute sind die wichtigsten Basisalgorithmen für das maschinelle Lernen auf Open-Source-Plattformen wie Github frei verfügbar oder eingebettet in KI-Dienstleistungsplattformen.

Das Moore’sche Gesetz bezeichnet die Prophezeiung des Intel-Mitgründers Gordon Moore vor über fünfzig Jahren, die Anzahl der Prozessor-Transistoren würde sich in Zukunft jedes Jahr bei etwa gleichbleibendem Preis verdoppeln. Besaß der erste Prozessor von 1971 (Intel 4004) etwa 2.400 Transistoren, sind es bei den heutigen, modernen Prozessoren im etwa 10 Milliarden. Dies ist eine tatsächliche Verdoppelung alle etwa zweieinviertel Jahre.

Während in den ersten fünfzig Prozessor-Jahren eine Anwendung programmiert, getestet und dann in der Praxis mit Daten gefüttert wurde und eine Lösung berechnete, dreht sich diese Reihenfolge bei KI immer öfter um. Statt der Reihenfolge Daten -> Algorithmus -> Entscheidung, kommen in den modernen KI-basierten Anwendungen immer häufiger zuerst die Daten. Und der KI-Algorithmus findet in den Daten Muster, als Basis für Entscheidungen.

Was machen Datenexperten?

Während in kleineren und mittelgroßen Firmen Datenexperten anfallende Arbeiten meist allein, eventuell mit Unterstützung aus der IT-Abteilung verantworten, findet man in größeren und Großfirmen oft ein Team mehrerer Datenexperten, Dateningenieure und Projektmanager.

Ob allein oder im Team arbeiten Datenexperten bewusst oder unbewusst oft entlang des sogenannten CRISP-DM – Cross -Industry Standard Process for Data Mining, einem seit 1996 aus einem EU-Förderprojekt hervorgekommen – Prozess-Modell für damals Data Mining, heute Data Science bzw. KI-Projekte. CRISP-DM besteht aus sechs Abschnitten, vom Geschäftsverständnis über Datenverständnis und Datenvorbereitung, Modellierung und Evaluierung bis zur Bereitstellung eines KI-Systems. Dabei geht es nach jedem Abschnitt zurück in den ersten Abschnitt, um zu sehen, ob man nach wie vor auf dem richtigen Weg ist.

Im ersten CRISP-DM-Schritt (Geschäftsverständnis) werden Ziele und Anforderungen des KI-Systems festgelegt und daraus die Aufgabenstellung und die grobe Vorgehensweise abgeleitet. Das Format kann variieren von einem Ein-Tages-Workshop, bei dem potenzielle Anwendungsfälle besprochen und auf Basis ausgewählter Kriterien priorisiert werden sowie erste Gedanken zur Umsetzung (Make or Buy? Cloud oder Edge?) erörtert werden, bis hin zu einem 5-Tages-Sprint inklusive Entwicklung eines Prototyps. So oder so, wichtig ist, dass in einem kleinen und mittelgroßen Betrieb die Geschäftsführung und in einem großen Betrieb die Abteilungsleitung mit am Tisch sitzt. Wenn relevant, wird anschließend in einem ähnlichen Format eine Datenstrategie erarbeitet.

Im Abschnitt 2 (Datenverständnis) werden die für das KI-System potenziell relevanten Daten gesammelt, gesichtet und mögliche Probleme der Datenqualität ermittelt. Im Team ist das die Arbeit der Dateningenieure – data engineers –, die häufig erst mal die in verschiedenen Silos über die Firma verteilten Daten finden müssen, bevor sie diese im Schritt 3 (Datenvorbereitung) aufbereiten und anreichern und den Datenexperten den finalen Datensatz für die Modellierung zur Verfügung stellen. Egal ob von den Datenexperten oder von den Dateningenieuren erstellt, die Datenvorbereitung nimmt einen sehr großen Teil – es heißt oft etwa 80 Prozent – der insgesamt verfügbaren Projektzeit – ein. Sollte der Anwendungsfall in einer industriellen Umgebung auf Basis von OPC-UA laufen, können die Schritte Datenverständnis und Datenvorbereitung größtenteils entfallen, da in diesem Fall die Daten in einem vorher definierten Informationsmodell inklusive Metadaten festgelegt sind.

Im CRISP-DM-Abschnitt 4 (Modellierung) modellieren Datenexperten die Daten – das heißt, sie finden eine Modell, dass die Daten hätte generieren können – und destillieren die verborgenen Schätze – z. B. eine Kombination mehrerer Einstellungen, die in einem größeren Durchfluss resultieren oder die auf einen potenziellen Stillstand hinweisen – aus diesen heraus. Sie wenden dazu geeignete Data-Science-Verfahren an und optimieren, abhängig von der gewählten Entwicklungsumgebung, die Modell-Parameter selbst oder überlassen die Ermittlung mehrerer Modelle dem semi- oder vollautomatischen Modellierungstool.

Im Abschnitt 5 (Evaluierung) wird das Modell, das die Aufgabenstellung am besten erfüllt, sorgfältig mit dieser Aufgabenstellung abgeglichen und im Abschnitt 6 (Bereitstellung) in den Entscheidungsprozess integriert. Alternativ wird eine Engineering-Änderung vorgenommen, um die vom Modell aufgedeckten Probleme zu lösen oder möglicher Verbesserungen umzusetzen. 

In Großfirmen führen Projektmanager durch den Prozess. Sie verantworten in Abstimmung mit dem Vertrieb die Kundenbeziehung, setzen Verträge und Termine auf, stimmen sich mit den Dateningenieuren und eventuell mit Datenanalysten – die im Fachbereich außerhalb der Datenprojekte Geschäftserfolge analysieren – ab, steuern das Projekt nach CRISP und präsentieren die Resultate.

Haben die ersten Datenexperten noch viele Parameter eingestellt – weshalb sie auch mal Daten-Alchimisten genannt wurden –, so gibt es heute immer mehr Plattformen mit integrierten Frameworks, die den Domänenexperten – egal ob Produktionsleiter oder Hausarzt oder Vertriebler – ermöglichen, die verborgenen Schätze – „Steht die Anlage bald?”, „Ist das eine bösartiger oder gutartiger Hautkrebs?“, „Welche Kunden werden bald bestellen?” – aus den „eigenen“ Daten zu heben, während die Datenexpereten sich mit komplexeren Datenaufgaben beschäftigen.

Über den Autor

Peter Seeberg hat in Delft Computer Aided Design studiert. Nach 25 Jahren in der IT-Branche, und fast 10 Jahren in der industriellen Automatisierung, ist er seit 2019 als selbstständiger KI-Berater für asimovero.AI tätig. Peter Seeberg war aktiv beteiligt an der Einführung von Industrie 4.0 bei Bitkom, VDMA, OPC Foundation und Smart Factory und war Initiator und Mitbegründer des internen Start-ups Industrial Data Intelligence. Er hält Vorträge, leitet Schulungen, moderiert Diskussionen und berät Firmen zur Einführung von KI. Er koproduziert einen wöchentlichen Podcast zum Thema „KI in der Industrie“ und ist Co-Autor des Buches „KI in der Industrie“ (Hanser, 2020) sowie Autor des Buches „Wie KI unser Leben verändert“ (Hanser, 2020).

 

Unser Weiterbildungstipp:

Lernen Sie unseren
Zertifikatslehrgang kennen
und qualifizieren Sie sich zum
Fachingenieur Data Science VDI!