Datenintensive Systeme lassen sich nur dann "endlos" horizontal skalieren, wenn sowohl Verarbeitungskomplexität als auch Speicherbedarf maximal linear (also in O(n)) mit der Menge an Eingabedaten wachsen. Ein noch langsameres Wachstum ist natürlich besser und spart teure Ressourcen und Energie. Sogenannte probabilistische Datenstrukturen mit wohlklingenden Namen wie HyperLogLog oder Bloom-Filter sind eine Möglichkeit, dieses Ziel zu erreichen und werden daher bereits heute in vielen datenintensiven Systemen eingesetzt, oft ohne dass uns das und die Konsequenzen davon bewusst werden würden.

Dieser Vortrag möchte das ändern und erläutert anschaulich und leicht verständlich, wie probabilistische Datenstrukturen funktionieren und welcher Preis für die verbesserte Effizienz zu zahlen ist.