Daten werden immer häufiger als Produkte bereitgestellt – korrekt, integriert und hoch verfügbar. Solche Data-Products müssen stets aktuelle Daten liefern, um beim Nutzer erfolgreich zu sein. Die Entwicklung dieser Live-Data-Products ist komplex: Datenströme aus unterschiedlichsten Quellen müssen in Echtzeit integriert, konsolidiert, kombiniert, angereichert (...) und anfragbar gemacht werden. Zusätzlich muss die Operationalisierung der Daten-Pipelines gemeistert werden.

In diesem Vortrag stellen wir mit Kubernetes, Apache Kafka, Kubeflow sowie weiteren Open-Source-Projekten einen erprobten Software-Stack vor. Wir präsentieren Lösungsansätze, Tipps und Erfahrungen, wie diese Technologien eine erfolgreiche Entwicklung von Live-Data-Products in der Praxis ermöglichen.

Dabei zeigen wir, wie Datenströmen mit Apache Kafka unter Berücksichtigung der Datenqualität integriert und fehlerhafte Daten in Echtzeit behandelt und erneut prozessiert werden können. Wir erläutern, wie ML-Modelle auf Datenströme angewendet und Nutzern ein einfacher Zugriff über Drittsysteme in Echtzeit ermöglicht wird.