Apache Spark -kehys kehittäjille: edistynyt taso - kurssi 41 500 hieroa. IBS Training Centeristä, koulutus 24 tuntia, päivämäärä 26.11.2023.
Miscellanea / / December 05, 2023
Koulutus antaa yksityiskohtaisen ymmärryksen Apache Spark -kehyksen sisäisestä rakenteesta ja toiminnasta - sekä Spark Core (RDD), Spark SQL, Spark Streaming että Spark Structured Streaming. Tarkastellaan mekanismeja Spark-klusterikomponenttien käynnistämiseksi eri klusteripäälliköiden ohjauksessa, resurssien (ensisijaisesti muistin) allokoinnin hallinnassa sekä aikatauluttajien työmekanismeja. Tungsten sisäisen esitysmuodon etuja ja Catalyst optimoijan toimintaa tarkastellaan yksityiskohtaisesti.
Käsitellyt aiheet:
Spark Internal Architecture, Spark Runtime Environment
Spark Contextin asettaminen, SparkConf
RDD-sisäosat, looginen asettelu
RDD-ohjelmoinnin parhaat käytännöt
Fyysinen suunnitelma: työ, vaiheet, tehtävät
Suunnittelijat ja fyysisen suunnitelman toteuttaminen
Muistin viritys, sarjointi, välimuisti, roskien kerääminen
Datasource API, Tungstenin sisäinen dataesitys, tiedostomuodot
Katalysaattorin optimoija
Microbatch Spark Streaming: tiedon vastaanottaminen ja tulostaminen
Strukturoitu suoratoisto: tiedon vastaanottaminen ja jakelu