In de training "Data Engineering with Azure Databricks" gaan we twee dagen lang aan de slag met Databricks om een Data Lakehouse te bouwen. Het hele spectrum komt hierin voorbij: architectuur en ontwerp, inrichting van Databricks, Implementatie van transformaties, orchestratie van je taken, versiebeheer en alles wat er meer nodig is voor je Data Lakehouse. Aan het eind van de training ben je in staat om zelfstandig een Data Lakehouse op te zetten binnen Databricks.
Deze training is primair gericht op Data Engineers en Data Warehouse-ontwikkelaars of -beheerders die ervaring hebben met Data Warehousing of andere vormen van (batch) data processing. Deelnemers weten dat zij zich meer willen verdiepen in Databricks en het bouwen van een Data Lakehouse. De meeste deelnemers hebben al wel enige ervaring met cloudomgevingen, maar het is niet verplicht: ook wanneer je bijvoorbeeld van een on-premises Data Warehouse de stap aan het maken bent naar een Data Lakehouse sluit deze training goed aan.
Na afloop van deze training:
Weet je hoe de architectuur van een Data Lakehouse eruit ziet en werkt
Snap je de principes van Databricks, Data Lakehouses en Delta Lake
Kun je Databricks zelfstandig inrichten t.b.v. een Data Lakehouse
Begrijp je hoe Delta Lake Storage werkt en hoe het een Data Lakehouse mogelijk maakt
Kun je bestanden in je Data Lake beheren met behulp van Databricks
Kun je orchestratie binnen Databricks doen met behulp van jobs
Weet je welke lagen er in een Data Lakehouse bestaan en hoe je data uit jouw praktijk hier kunt laten landen
Kun je transformatie en integratie op de data doen in Databricks met behulp van PySpark en SparkSQL
Weet je hoe om te gaan met schema's en schema evolutie
Voorkennis om de training Azure DevOps voor Data Engineers te volgen
Om deel te nemen aan deze training is het belangrijk dat je voorkennis hebt over de volgende onderwerpen:
Basiskennis van SQL:
Query-concepten (SELECT, WHERE, GROUP BY, ORDER BY, LIMIT en JOIN)
DDL (CREATE, ALTER, DROP van tabellen en databases)
DML (DELETE, INSERT, UPDATE, MERGE)
Kennis van Data Engineering in de cloud (VM's, storage accounts, AD-accounts, etc.)
Basiskennis van Python (modules, data inlezen, eenvoudige bewerkingen)
Incrementele dataverwerking met Structured Streaming en Auto Loader
Data Lakehouse architectuur: de "medallions" (gold, silver, bronze)
Delta Live Tables
Orchestratie met Jobs
Databricks SQL
Rechtenbeheer
Dashboards en queries in productie brengen
Dbfs: het DataBricks File System
Beheren van je Data Lake vanuit Databricks
Data transformeren in een Data Lakehouse met behulp van PySpark
Databricks tables: managed en unmanaged
Hive Metastore
Versiebeheer in Databricks
Time travel
Schema enforcement
Schema evolution
Studiemateriaal
In de training "Data Engineering with Azure Databricks" werken we met officieel Databricks materiaal. Wij zorgen ervoor dat je al het benodigde materiaal op tijd ontvangt.