What awaits you in this course?
Unstrukturierte Datenmassen liefern häufig bessere Antworten als
kleine, aufwändig erhobene Datenmengen: Zum Beispiel wird vermutet, dass
Grippewellen heute schneller durch die Analyse von Social-Media-Posts
aufgespürt werden als durch (staatlich) erhobene Daten.
Allerdings
haben diese Datenmassen auch Kehrseiten: Sie sind komplex zu
verarbeiten. Klassische (relationale) Datenbanken gelten als ungeeignet
und unwirtschaftlich. Hierbei scheinen die Basistechnologien Hadoop,
HBase, Spark oder MongoDB Abhilfe zu schaffen: Sie versprechen die
Verarbeitung und Vorhaltung riesiger Datenmengen effizient und
kostengünstig.
Outline
Kapitel 1: Big-Data: Was ist das?
1.1 Big-Data als Vorgehensweise
1.2 Big-Data definiert durch 3 Vs
Kapitel 2: Big-Data und Infrastruktur
2.1 Besondere Wichtigkeit von Infrastruktur im Big-Data-Kontext
2.2 Überblick über Big-Data-Technologien
Kapitel 3: Deep-Dive Technologie: Hadoop
3.1 HDFS
3.2 Technische Implementierung des HDFS
3.3 Map-Reduce
3.4 Hadoops Kernvorteil: "Programm zu den Daten" vs. "Daten zum Programm"
Kapitel 4: Deep-Dive Technologie: Spark und R on Spark
4.1 Architektur von Spark
4.2 R und Spark auf Hadoop
Kapitel 5: Einsatzszenarien für Big-Data-Technologien
5.1 Typische Datenquellen für Big-Data
5.2 Vor- und Nachteile von Big-Data-Technologien
Kapitel 6: Abschluss/ Zertifikat