Neben relationalen Daten in traditionellen Datenbanken hat man häufig auch strukturierte und unstrukturtierte Daten in Hadoop-Systemen vorliegen. Gleichzeitig tritt häufig der Wunsch auf, die Daten im Hadoop-System mit SQL analysieren zu können.
In diesem Lab wird gezeigt, wie dies mit Big SQL möglich ist, so dass Abfragen nicht nur sehr schnell ausgeführt werden, sondern auch in einem sprachlich sehr umfassenden SQL formuliert werden können. Zusätzlich möchte man aber sowohl auf die Daten in der relationalen Datenbank als auch auf die im Hadoop-System komplexe Analysen und Verfahren wie Machine Learning anwenden. Dafür eignet sich ein Framework wie Spark besonders gut, da es relativ einfach die parallele Ausführung von Algorithmen erlaubt und auch viele Bibliotheken für Aufgabenstellungen wie Machine Learning schon existieren. In diesem Workshop wird gezeigt, wie die Verarbeitung in Spark mit dem Zugriff auf Daten in DB2 oder dashDB und HDFS auf einfache und performante Weise integriert werden kann.