PySpark - Data manipulation met Spark dataframes


Omschrijving

Bij het implementeren van steeds meer dataplatformen speelt de programmeertaal Python gerund op een Spark cluster (PySpark) een hoofdrol. Zowel Databricks als ook Microsoft Synapse Spark pools en Microsoft Fabric Spark pools maken hier gebruik van. Het stelt Data engineers en Data analisten in staat om makkelijk en desgewenst op grote schaal data klaar te stomen voor gebruik. In deze cursus leert u Spark dataframes te maken gebaseerd op databestanden die lokaal staan of in een Data Lake. U leert de ingelezen data naar wens aan te passen door transformaties toe te passen. Ook leert u de getransformeerde data weer weg te schrijven naar de gewenste locatie.


Inhoud

De volgende onderwerpen komen aan bod:

  • Introduction Spark
  • Read data
    • Create dataframes
    • Csv, json, SQL table
    • Schema
  • Transform data
    • Select columns
      • Add computed column
  • Filter rows
  • Join
  •  Grouping
      • Ranking and windowing
  • Using SQL
  • Write to files / tables
  • Partition by
  • Work with delta tables
  • Optimize


Duur en vorm

Dit is een twee-daagse klassikale training met veel hands-on exercises.


Doelgroep en voorkennis

Iedereen die in Spark data manipulaties wil kunnen uitvoeren. Dat kunnen Microsoft Fabric gebruikers zijn, data analisten, data engineers, data scientists en mensen met vergelijkbare functies.

Enige kennis van de programmeertalen Python en SQL is handig maar niet vereist.


Geleerde skills

Na de cursus kan je:

  • Dataframes maken gebaseerd op verschillende bronnen
  • Data joinen, filteren, aggregeren en op andere wijze transformeren
  • Werken met delta tables
  • Data in Data Lakes partitioneren

Neem direct contact op
voor meer informatie
over onze trainingen