Mit Apache Kudu existiert im Umfeld von Hadoop produktiv seit Herbst 2016 eine NoSQL-Datenbank, die sowohl einen schnellen wahlfreien Zugriff auf einzelne Datensätze als auch einen performanten Zugriff auf Massendaten für Batchverarbeitung ermöglicht. Kudu vereint somit die Vorteile von Formaten wie Parquet im HDFS, die für Batchverarbeitung optimiert sind – mit den Vorteilen einer NoSQL-Datenbank wie HBase, die einen hochperformanten Zugriff auf einzelne Datensätze ermöglicht.
Mit Kudu lassen sich in vielen Fällen komplexe Architekturen mit Einsatz mehrerer Speichertechniken ablösen und durch den Einsatz einer einzigen, allgemein einsetzbaren Datenbank wie Kudu ersetzen.
Im Vortrag werden die Eigenschaften von Kudu vorgestellt. Eingegangen wird auf das verwendete Datenmodell und Möglichkeiten der Partitionierung. Neben der Integration, unter anderem mit Spark, werden Themen wie Security und Architektur diskutiert.