Einstieg in Hadoop und NoSQL mit Praxisbeispielen - Schulung im Rahmen der IT-Tage 2017
Data Science ist die Wissenschaft, Wissen aus Daten zu extrahieren. Dabei werden unter anderem vorhandene, bisher eventuell ungenutzte Daten in einem Unternehmen verwendet, neu verknüpft und ausgewertet, um beispielsweise neue Geschäftsfelder zu erschließen bzw. vorhandene Geschäftsfelder effizienter zu bearbeiten.
Unter Einsatz der Programmiersprache Python wird in das Thema Data Science eingeführt. Anhand konkreter Beispiele werden Daten klassifiziert, Regressionsmodelle erstellt und Vorhersagen getroffen. Schließlich wird mithilfe eines neuronalen Netzes eine Bilderkennung durchgeführt. Begleitet werden die praxisnahen Beispiele durch eine Einführung in Clusteranalyse, Ausreißeranalyse, Deep Learning sowie die Theorie der statistischen Grundlagen.
In einem zweiten Teil wird der Bogen zur Verwendung der Methoden des Bereiches Data Science im Big Data Umfeld gespannt. Mit Hadoop und Spark werden zwei Werkzeuge vorgestellt, mit denen in einem Cluster verteilt Daten gespeichert und Modelle berechnet werden können.
Als Datenhaltungsschicht wird eine NoSQL Datenbank eingeführt. In einem Beispiel werden Daten mithilfe von Python und Spark in die Datenbank geschrieben und gelesen. Es werden weitere Alternativen der Datenhaltung im Cluster vorgestellt und entsprechend typischer Use Cases gegeneinander abgewogen.
Abschließend wird ein in der Praxis bewährtes Architekturmodell für den Einsatz im Cluster vorgestellt.