Neben relationalen Daten in traditionellen Datenbanken hat man häufig auch strukturierte und unstrukturtierte Daten in Hadoop Systemen vorliegen. Gleichzeitig tritt häufig der Wunsch auf, die Daten im Hadoop System mit SQL analysieren zu können. In diesem Vortrag wird gezeigt, wie dies mit Big SQL möglich ist, so dass Abfragen nicht nur sehr schnell ausgeführt werden, sondern auch in einem sprachlich sehr umfassenden SQL formuliert werden können. Ausserdem wird das Thema von Abfragen übergreifend über relationale Datenbanken und Daten in HDFS gezeigt.

Zusätzlich möchte man aber sowohl auf die Daten in der relationalen Datenbank als auch auf die im Hadoop System komplexe Analysen und Verfahren wie Machine Learning anwenden. Dafür eignet sich ein Framework wie Spark besonders gut, da es relativ einfach die parallele Ausführung von Algorithmen erlaubt und auch viele Bibliotheken für
Aufgabenstellungen wie Machine Learning schon existieren.

Deshalb wird in diesem Vortrag gezeigt, wie die Verarbeitung in Spark mit den Zugriff auf Daten in DB2, dashDB (ein als managed Service in der Cloud verfügbares Datenbanksystem) und HDFS auf einfache und performante Weise integriert werden kann.