Das Problem
Ein führender deutscher Automobilhersteller verarbeitete täglich Millionen von Fahrzeugtestdatensätzen über eine veraltete Airflow-Infrastruktur. Das System war zu langsam, nicht skalierbar auf Petabyte-Niveau und lieferte inkonsistente Datenqualität durch fehlende ACID-Transaktionen. Testdaten kamen zu spät bei den Analyse-Teams an – Entscheidungen wurden auf veralteter Datenbasis getroffen.
Die Lösung
Wir ersetzten das Legacy-Airflow-System durch einen maßgeschneiderten Kubernetes-nativen Scheduler (AKS), der PySpark-Jobs direkt auf dem Cluster orchestriert – ohne externen Scheduler-Overhead.
Die Datenschicht wurde auf Delta Lake mit Data Vault 2.0-Architektur migriert: ACID-Transaktionen, Time-Travel für Audit-Trails und inkrementelle Verarbeitung statt vollständiger Neuladezyklen.
Das Ergebnis: Eine Pipeline, die Millionen von Fahrzeugtestdatensätzen auf Petabyte-Skala verarbeitet und dabei eine konsistente, auditierbare Datenqualität nach Data Vault 2.0-Standard garantiert.
Das Ergebnis
Relevante Leistung
Daten Engineering für KMU →