Harald Erb

11.12.2018

14:30 - 15:15

Satellit

Session

Aufgrund vielfältiger potenzieller Geschäftschancen, die Machine Learning bietet, starten viele Unternehmen Initiativen für datengetriebene Innovationen. Dabei gründen sie Data-(Analytics)-Teams, werben Data Scientists an, bauen intern Know-how auf und fordern von der IT-Organisation eine Infrastruktur für "heavy" Data Engineering & Processing samt Bereitstellung einer Analytics-Toolbox ein. Für IT und Data Architects warten hier viele (spannende) Herausforderungen, u. a. bei der Zusammenarbeit mit interdisziplinären Teams, deren Mitglieder unterschiedlich ausgeprägte Machine Learning Skills und Bedarfe bei der Tool-Unterstützung haben. Einige Überlegungen sind dabei z. B.: Sollen Data Scientists mit Machine Learning Toolkits arbeiten und eigene maßgeschneiderte Algorithmen nur im Ausnahmefall entwickeln, damit später Herausforderungen durch (unkonventionelle) Integrationen vermieden werden? Macht Machine Learning-Funktionalität im bewährten Datenintegrations-(ETL-)Tool Sinn? Dürfen ambitionierte Business User künftig selbst Rohdaten aufbereiten und verknüpfen, um das eigene Dataset von einem oder mehreren populäre Algorithmen rechnen zu lassen (bis hin zu Deep Learning am Schreibtisch)? Für die genannten und andere Fragestellungen warten junge und etablierte Software-Hersteller sowie die Open Source-Community mit "All-in-one"-Lösungen oder Machine Learning-Erweiterungen auf.

Vor dem Hintergrund des eigentlichen Data Science-Prozesses, der u. a. den Weg eines ML-Modells von der experimentellen Phase bis zur Operationalisierung beschreibt, vergleicht dieser Talk mit kurzen Live-Demos ausgewählte Ansätze (Analyse Notebooks, Pluggable Machine Learning in ETL und Data Visualization Tools vs. einer Speziallösung) und betrachtet dabei inbesondere den Integrationsaspekt, Wiederverwendbarkeit von Code und Möglichkeiten der Automatisierung bei der Produktivsetzung eines neuen Machine Learning-Modells. Mittels einer End-to-End-Architektur für Machine Learning und Analytics werden die gewonnenen Erkenntnisse zusammengefasst und eingeordnet.