1.2 Milliarden Trips automatisch normalisiert (NF6) mit der selbstlernenden Multi Model NoSQL CortexDB – LIVE DEMO!

Die öffentliche Datenquelle umfasst über 1.2 Milliarden Taxifahrten der letzten sieben Jahre in New York und steht zum freien Download öffentlich zur Verfügung. Die Datenquelle liefert verschiedene Metadaten für jede Taxifahrt wie u.a. Datum/Uhrzeit, Geokoordinaten, gefahrenen Strecke, Fahrzeit, Anzahl Fahrgäste, Informationen zu Fahrpreisen und Art der Bezahlung.

Die CortexPlattform ist ein selbstlernendes System, importierte Daten werden automatisch in die höchste Normalform (NF6) transformiert, keine anwendungsabhängigen Indexierungen sind vorhanden oder notwendig. Über eine vollständig implementierte Programmiersprache (JS Google V8 Engine) innerhalb der Plattform werden komplexe Algorithmen direkt auf den Daten ausgeführt und ermöglichen auch AI, obwohl der hier dargestellte Anwendungsfall eher im Bereich Big Data liegt und Anwendern zeigen soll, wie einfach solche "Proof of Concepts" umgesetzt werden können.

Vorteile sind: Selbstlernende agile Softwareentwicklung, analytische- und Transaktionsdaten in einer einzigen Datenbank, Change Requests "on the Fly", Self-Service in den Fachabteilungen, geringe Hardware-Anforderungen und sehr schnelle Projektumsetzung.

Die U.S. Bureau of Transportation Statistics der New York Taxi Trip-Transaktionen wurden in die CortexPlattform importiert und automatisch in die 6. Normalform transformiert.

Folgende Parameter haben sich daraus ergeben:

  • Zeitraum: 01.01.2009 - 31.06.2016
  • Anzahl Datensätze / Objekte (Taxi Fahrten / Transaktionen): 1.249.145.560
  • Anzahl Datensatzfelder (Entitäten) mit Inhalt: 20.551.667.499
  • Anzahl unterschiedliche redundanzfreie (NF6) normalisierte Entitäten (Content) über alle Datensatzfelder: 
11.588.507

Aus diesen Information können aus dem Stand folgende Fragen beantworten werden:

  • Zu welchem Zeitpunkt sind die meisten Taxis gestartet?

  • Welcher Preis wurde am häufigsten berechnet?
  • Welche Distanz wurde am häufigsten gefahren?

  • Wie viele Fahrten wurden mit 1, 2, 3 Personen gefahren?
  • Von welchen Geokoordinaten sind die meisten Taxifahrten gestartet?
  • etc.

Im Dialog mit dem Publikum und dynamisch abgefragt werden soll die Anwendung als Live-Demo auf einem handelsüblichen Laptop mit 8GB RAM – ohne "In Memory"-Technologie – auf einem standard externen 1 TB SSD-Laufwerk.

Fazit: Die selbstlernende CortexPlattform ermöglicht auf einem "Low Footprint" eine nie dagewesene Sicht auf die transaktionalen Daten und bietet innovative Vorgehensweisen zu den Themen: DataDiscovery, DataScientist, Analytik und operativen Applikationen – Die Plattform ist generisch.

Die Cortex AG ist Spezialist innovativer IT-Technologien zum Verarbeiten sehr großer und komplexer Datenmengen für beliebige Enterprise-Applikationen. Die CortexPlattform bietet eine Multi-Modell NoSQL-Datenbank mit selbstlernender Datennormalisierung (NF6), hoch-performante Datenbankabfragen über beliebige Attribute, deren Kombinationen und Beziehungen im zeitlichen Kontext untereinander.