sqllite als embedded Datenbank kennt jeder. Unkompliziert einzubinden in jede Art von Anwendung ist sie heute die meistverbreitete Datenbank der Welt. Ebenfalls eine embedded Datenbank ist duckdb. Der wesentliche Unterschied zu sqllite: der Fokus auf Datenanalyse und damit typischerweise etwas anderen Abfragen. Dabei kann es auch größere Datenmengen verarbeiten, ohne schwergewichtig zu sein, wie viele der "Big-Data"-Tools. 

Inzwischen ist duckdb aber weit mehr: eine unfassbar schnelle Query Engine, die fast überall läuft. Und vielfältig einsetzbar ist:

  • Daten, gespeichert auf der eigenen Festplatte, im Browser mit SQL analysieren? Kein Problem 
  • Schnell mal die ganzen JSON-Dateien in S3 per SQL checken? Nichts leichter als das!
  • Eine riesige parquet-Datei, größer als mein Arbeitsspeicher. Und ich muss sie jetzt lokal analysieren. Easy! 
  • In meiner Serverless Function brauche ich eine einfache Datenbank für analytische Zwecke. Auch das geht mit duckdb.
  • csv vom Blob Storage lesen, verarbeiten und in einer Postgres-Datenbank speichern. Nur ein Kommando...

duckdb entwickelt sich immer mehr zum Universalwerkzeug für den Zugriff auf und die Analyse von Daten.

In diesem Talk zeige ich mit wenigen Slides und viel Live-Demo warum es so populär ist und es auch in den Werkzeugkoffers eines jeden Entwicklers gehört. Egal ob Java, Node oder Python.