Leer PySpark & Spark DataFrames

PySpark - Data manipulation met Spark dataframes

Omschrijving

Bij het implementeren van steeds meer dataplatformen speelt de programmeertaal Python gerund op een Spark cluster (PySpark) een hoofdrol. Zowel Databricks als ook Microsoft Synapse Spark pools en Microsoft Fabric Spark pools maken hier gebruik van. Het stelt Data engineers en Data analisten in staat om makkelijk en desgewenst op grote schaal data klaar te stomen voor gebruik. In deze cursus leert u Spark dataframes te maken gebaseerd op databestanden die lokaal staan of in een Data Lake. U leert de ingelezen data naar wens aan te passen door transformaties toe te passen. Ook leert u de getransformeerde data weer weg te schrijven naar de gewenste locatie.

Inhoud

De volgende onderwerpen komen aan bod:

Introduction Spark

Read data
- Create dataframes
- Csv, json, SQL table
- Schema

Transform data
- Select columns
  - Add computed column

Filter rows

Join

Grouping
- - Ranking and windowing

Using SQL

Write to files / tables

Partition by

Work with delta tables

Optimize

Duur en vorm

Dit is een twee-daagse klassikale training met veel hands-on exercises.

Doelgroep en voorkennis

Iedereen die in Spark data manipulaties wil kunnen uitvoeren. Dat kunnen Microsoft Fabric gebruikers zijn, data analisten, data engineers, data scientists en mensen met vergelijkbare functies.

Enige kennis van de programmeertalen Python en SQL is handig maar niet vereist.

Geleerde skills

Na de cursus kan je:

Dataframes maken gebaseerd op verschillende bronnen
Data joinen, filteren, aggregeren en op andere wijze transformeren
Werken met delta tables
Data in Data Lakes partitioneren

Data

Business

Security

Omscholing en bijscholing in het
Data, Business of Security vakgebied

PySpark - Data manipulation met Spark dataframes

Omschrijving

Inhoud

Duur en vorm

Doelgroep en voorkennis

Geleerde skills

Neem direct contact op
voor meer informatie
over onze trainingen

Justin Janssen

Jorn Janssen

Data

Business

Security

Omscholing en bijscholing in het Data, Business of Security vakgebied

PySpark - Data manipulation met Spark dataframes

Omschrijving

Inhoud

Duur en vorm

Doelgroep en voorkennis

Geleerde skills

Neem direct contact opvoor meer informatie over onze trainingen

Justin Janssen

Jorn Janssen

Omscholing en bijscholing in het
Data, Business of Security vakgebied

Neem direct contact op
voor meer informatie
over onze trainingen