Spark und Hadoop sind bekannte Softwarepakete, die die Datenverarbeitung und Business Intelligence in Unternehmen in den letzten Jahre geprägt haben. Container und Orchestrierungsframeworks hingegen sind jünger, haben sich aber in Cloud- und Virtualisierungsumgebungen mit rasantem Tempo durchgesetzt.
Wir zeigen, wie Docker und Kubernetes die kontinuierliche Weiterentwicklung von Spark Workloads optimieren können und somit auch Big Data vom Container-Trend profitieren kann. Dadurch wird den Data-Science-Teams das Verwalten von Abhängigkeiten und Deployment von Big-Data-Pipelines erleichtert. Hier schließt sich dann auch der Kreis zu Continuous Integration bzw. Continuous Deployment.
Skills
Es sind keine besonderen Vorkenntnisse erforderlich.
Lernziele
Im Vortrag möchten wir das Verständnis über die Auswirkungen von Containern und
containerisierten CI/CD-Pipelines auf Spark Workloads vermitteln.
// Referenten
Kerstin Fuchs
ist Specialist bei Zoi GmbH. Die promovierte Biologin hat sich viel mit der Auswertung von technischen Bilddaten bei der Positronen Emissions Tomography beschäftigt und unterstützt das Data-Science-Team in Big-Data- und ML-Projekten im Rahmen des Requirements Engineering und bei der Erarbeitung intelligenter Lösungskonzepte.
Maren Übelhör
arbeitet als Analyst bei Zoi GmbH. Die Mathematikerin ist Expertin für Zeitreihenanalysen und begeistert sich für Data Science und Machine Learning im Big-Data-Umfeld.