Big Data - Data Engineering Grundlagen (54010)

 

Kursüberblick

Das Thema Big Data ist aktueller denn je, pro Tag werde viele Petabyte an Daten generiert und warten darauf analysiert und verarbeitet zu werden.

Mit dem Apache Hadoop Ökosystem wurde eine Möglichkeit geschaffen, große Datenmengen in einem verteilten System zu persistieren und Analysen und Vorhersagen auszuführen.

Die damit verbundenen Begriffe rund um Data Science und Data Engineering sind allgegenwärtig. Nur was verbirgt sich hinter all den Trendbegriffen?

Die Schulung gibt einen ersten Ein- und Überblick über die Komponenten, Methoden und Begrifflichkeiten zu diesen Themen. Dieser beschränkt sich nicht auf reine Theorie, sondern ermöglicht Ihnen erste praktische Erfahrungen anhand eines fiktiven Projekts zu sammeln.

Nach einer Einführung in die Paradigmen von Big Data lernen Sie anhand eines realen Twitter Datensets, wie einfach Sie Daten in den Hadoop Cluster streamen können. Danach nehmen Sie eigenhändig Daten-Transformationen vor und orientieren sich dabei immer am besprochenen Data Lake Konzept. Am Ende des Data Engineering Parts haben Sie die Daten soweit verdichtet und aufbereitet, dass Sie im nächsten Schritt mit Data Science Methoden Analysen darauf ausführen.

Zielgruppe

Das Seminar richtet sich an Datenbank Experten, BigData Experten, Sicherheitsexperten, Systemadministratoren, Netzwerkadministratoren, Data Science Mitarbeiter, Entwickler sowie alle Interessierten, die dem Thema BigData tiefer unter die Haube schauen möchten.

Voraussetzungen

Neben generellen IT Kenntnissen in SQL und Programmierung sind keine besonderen Vorkenntnisse erforderlich. Der vorherige Besuch unseres Grundlagenseminars Big Data – Definitionen, Technologien und Produkte im Überblick erleichtert das Verständnis.

Kursinhalt

Data Engineering
Einführung Big Data:
  • Was ist Big Data?
  • Die drei Vs
  • Abgrenzung zu relationalen Datenbanken
  • Data Lake und hybride Architektur Konzept
IT Grundlagen:
  • Basiswissen Netzwerke
  • Basiswissen verteilte Systeme
Ökosystem Hadoop:
  • Hadoop Cluster Architektur
  • Überblick über die Hadoop Distributionen
  • HBase
  • HDFS
  • Hive
  • Kafka
  • NiFi
  • Pig
  • Spark / Spark Streaming
  • Sqoop
  • Ambari
  • Zookeeper
  • Überblick weiterer Komponenten
Security in Hadoop:
  • Ranger
  • Kerberos
Hands on Hadoop – Praxisteil:
  • HDFS Puzzle
  • Administration Grundlagen
  • Ambari Monitoring M/R
  • HDFS Strukturen anlegen
  • Zookeeper Nodes
  • HBase
  • HDFS
  • Hive
  • Kafka
  • NiFi
  • Pig
  • Spark / Spark Streaming
  • Sqoop
Vertiefung der Hadoop Komponenten - Praxisteil:
  • Streaming
  • Buffering
  • Archivierung
  • Transformation
  • Analyse
Classroom Training

Dauer 3 Tage

Preis (exkl. MwSt.)
  • Deutschland: 1.950,- €

Kurstermine

Dies ist ein FLEX™-Kurs. Alle FLEX™-Kurse sind auch Instructor-Led Online Trainings (ILO). Sie können an einem FLEX™-Training sowohl bei uns vor Ort im Klassenraum als auch über das Internet (ILO) von Ihrem Arbeitsplatz oder von zu Hause aus teilnehmen.
Deutsch
Zeitzone MESZ
31.08. ― 02.09.2020 Online Training Zeitzone: MESZ
23.09. ― 25.09.2020 Online Training Zeitzone: MESZ
12.10. ― 14.10.2020 Online Training Zeitzone: MESZ
23.11. ― 25.11.2020 Online Training Zeitzone: MEZ
Dies ist ein FLEX™-Kurs. Alle FLEX™-Kurse sind auch Instructor-Led Online Trainings (ILO). Sie können an einem FLEX™-Training sowohl bei uns vor Ort im Klassenraum als auch über das Internet (ILO) von Ihrem Arbeitsplatz oder von zu Hause aus teilnehmen.
Deutschland
31.08. ― 02.09.2020 München
23.09. ― 25.09.2020 Berlin
12.10. ― 14.10.2020 Frankfurt
04.11. ― 06.11.2020 Hamburg
23.11. ― 25.11.2020 Stuttgart
16.12. ― 18.12.2020 Düsseldorf