Aktuell findet der Autor im Rahmen seiner Arbeit mit Unternehmen eine zunehmend ungeliebte Koexistenz von bestehendem Data Warehouse – mit umfassender Datenmodellierung und recht starrer Governance – und neueren, dateibasierten und weniger kontrollierbaren Data Lakes vor. Ungeliebt deshalb, weil neue “analytische Silos” mit inkonsistenten Datenbeständen drohen, kostspielige Datenbewegungen stattfinden und die zugehörige Infrastruktur sich als zu komplex, wartungsintensiv und fehleranfällig erweist.

Apache Iceberg kann in diesem Kontext als vielversprechende Open-Source-Innovation behilflich sein. Es handelt sich hierbei um ein Table Format zur performanten Analyse großer Tabellen, z. B. im Data Lake. Bei Netflix ursprünglich erdacht und dann an die Apache Software Foundation gespendet, setzen Unternehmen wie Airbnb, Apple, LinkedIn, Adobe u.v.m. auf den neuen offenen Standard.

Mit Iceberg kommen langersehnte Datenbankfunktionen (ACID Compliance, effizientes DML) in die Welt dateibasierter Data Lakes. Time Travel, zuverlässige Schema-Evolution, machen das Data-Management insgesamt robuster und ein bemerkenswertes Ecosystem, u. a. mit Spark, Flink, Hive, Trino, Presto, Impala, Snowflake, Dremio, erlaubt flexibel den lesenden und schreibenden Einsatz mehrerer Engines auf demselben Datenbestand.

Wie es funktioniert, illustriert ein praktisches Szenario: Ein Datenprodukt wird auf Basis von extern im Data Lake gespeicherten “Iceberg-Tabellen” in Snowflake aufgebaut und per Marktplatz-Listing für interessierte Konsumenten publiziert. Aktualisierungen am Datenbestand erfolgen wahlweise in Snowflake und/oder mit einer anderen Iceberg-kompatiblen Processing Engine. Inwieweit mit Iceberg so ein hybrider Ansatz für eine offene Datenplattform tragfähig ist, wird abschließend mit Blick auf einheitliche Security/Governance, Ease of Use für Anwender und Betreiber, mögliche Vendor-/Partner-Lock-ins betrachtet.