In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Tools Hive und Sqoop vorgestellt. Im Anschluss werden in einer Live-Demo zunächst Daten aus einer Oracle-Datenbank mit Sqoop in Hive-Tabellen importiert. Anschließend werden einige Statements in der Hive Query Language abgesetzt.

Im Anschluss erfolgt ein kurzer Ausblick auf die Verwendbarkeit von SQL in Apache Spark. Apache Hadoop ist ein Big Data Framework für skalierbare, verteilte Software. Es besteht aus den beiden Komponenten Hadoop Distributed File System (HDFS) für eine verteilte Datenspeicherung und MapReduce für eine verteilte Datenverarbeitung. Apache Spark ist ein neuerer Ansatz, um die Verarbeitungen von Big Data zu beschleunigen, flexibler zu gestalten und individueller auf das jeweilige Problem anpassen zu können. Es besteht aus einem zentralen Kern und mehreren, voneinander unabhängigen Komponenten wie z. B. Spark SQL. Apache Hive wurde geschaffen, um Analysten mit guten SQL-Kenntnissen die Möglichkeit zu geben, die Daten zu untersuchen ohne sich zuvor die zur Erstellung eines MapReduce- oder Spark-Jobs erforderlichen Fähigkeiten und Kenntnisse aneignen zu müssen. Hive ist heute ein von vielen Unternehmen eingesetztes, erfolgreiches Apache-Projekt zur Verarbeitung unterschiedlicher Daten mit SQL.