Apache Spark-rammeverk for utviklere: avansert nivå - kurs 41 500 gni. fra IBS Training Center, trening 24 timer, dato 26. november 2023.
Miscellanea / / December 05, 2023
Opplæringen gir en detaljert forståelse av den interne strukturen og funksjonen til Apache Spark-rammeverket – både Spark Core (RDD), Spark SQL, Spark Streaming og Spark Structured Streaming. Mekanismene for å lansere Spark-klyngekomponenter under kontroll av forskjellige klyngeledere, administrere allokering av ressurser (primært minne), og arbeidsmekanismene til planleggere vurderes. Fordelene med det interne representasjonsformatet Tungsten og driften av Catalyst Optimizer utforskes i detalj.
Emner som dekkes:
Spark Internal Architecture, Spark Runtime Environment
Sette opp Spark Context, SparkConf
RDD Internals, logisk layout
Beste praksis for programmering med RDD
Fysisk plan: arbeid, stadier, oppgaver
Planleggere og fysisk planutførelse
Minneinnstilling, serialisering, caching, søppelinnsamling
Datakilde API, Tungsten intern datarepresentasjon, filformater
Catalyst Optimizer
Microbatch Spark Streaming: mottak og utdata
Strukturert strømming: mottak og distribusjon av data