Exploratory Data Science
on Raw Data

Ausgangssituation

Problematik und Motivation zur Durchführung des F&E-Projekts

Anwendungen des maschinellen Lernens (ML) auf Basis großer Datenmengen werden zunehmend auch im Unternehmenskontext eingesetzt um Wertschöpfungsprozesse zu verbessern und Wettbewerbsvorteile zu erwirken. Im Gegensatz zu klassischen ML Problemen sind diese Fragestellungen oft unterspezifiziert, erlauben unterschiedliche Analyseverfahren und können eine Vielzahl heterogener, verteilter, oder beschränkt zugänglicher, Datenquellen verwenden. Entsprechend ist der typische Data Science Prozess in Unternehmen explorativ, d.h. Data Scientists stellen Hypothesen auf, integrieren die notwendigen Daten, führen unterschiedliche Analysen durch und suchen damit nach interessanten Mustern und Modellen. Da der Mehrwert im Vorfeld der Analyse unbekannt ist werden kaum Investitionen in die systematische Akquise, Integration und Vorbereitung der Daten getätigt. Dies führt zu Redundanzen manueller Arbeitsschritte sowie ineffizienter Verarbeitung. Weiterhin ist die zentrale Konsolidierung technisch und ökonomisch nicht immer sinnvoll oder unterliegt Zugangsbeschränkungen (z.B. sensible Daten). Diese Szenarien verbindet die Notwendigkeit der föderierten Ausführung und der gezielten Redundanzeliminierung.

Ziele

Innovationsgehalt gegenüber dem Stand der Technik / Stand des Wissens

Die Idee des exdra Projekts ist es geeignete Systemunterstützung für diesen explorativen Data Science Prozess über heterogene und verteilte Rohdatenquellen zu untersuchen und im Rahmen eines Demonstrators für praktische Anwendungen bereitzustellen. Im Detail umfasst der Ansatz die Forschungsschwerpunkte (1) ad-hoc und föderierte Datenintegration über Rohdaten, (2) Datenorganisation und Wiederverwendung von Zwischenergebnissen, (3) horizontale Optimierungen über den gesamten Data Science Lebenszyklus, und (4) Anfrageplanung für beschränkt zugängliche Datenbestände. Als Anwendungsfall dient die Prozessindustrie (z.B. Chemie, Pharma, Wasser, Öl und Gas) bei der Siemens AG. In diesem Kontext existieren große Datenmengen, welche über Standorte und Anlagen verteilt sind, und deren Konsolidierung technisch, ökonomisch, und rechtlich eingeschränkt ist.

Ergebnisse

Angestrebte Ergebnisse und Erkenntnisse

ExDRa Software Demonstration

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von Vimeo.
Mehr erfahren

Video laden

Vimeo immer entsperren

» NebulaStream – Data Management for the Internet of Things

Aus dem Gesamtziel resultieren vier Arbeitsziele.

ist die Datenintegration, Datenvorbereitung, und Analyse von Rohdaten, mittels einer geeigneten deklarativen Beschreibung von Datenquellen und Vorverarbeitungsschritten sowie effizienter Primitive der lokalen und föderierten Ausführung, zu ermöglichen. Im Kontext explorativer Data Science erfordert dies geeignete Stichprobenverfahren und Techniken der inkrementellen Wartung.
sind unnötige Redundanzen und Ineffizienzen wiederholter Verarbeitungsschritte durch Methoden der Datenorganisation und Wiederverwendung zu beheben. Der hohe Kommunikationsaufwand föderierter Analysen erfordert weiterhin eine Untersuchung von Kompressionstechniken und des Performance-Genauigkeits-Tradeoffs.
soll mit Hilfe einer systematischen Modellverwaltung und Optimierung von Experimenten die Nachvollziehbarkeit von explorativen Analyseergebnissen verbessert und zukünftige Analysen erleichtert werden.
ist die föderierte Verarbeitung ein integraler Bestandteil der explorativen Analyse von beschränkt-zugänglichen Rohdaten. Hier sollen geeignete Systemarchitekturen und Methoden der Anfrageplanung und -ausführung untersucht werden. Um die praktische Anwendbarkeit nachzuweisen, werden die Ergebnisse in eine Demonstrator-Software integriert und erprobt.

Exploratory Data Scienceon Raw Data