Kurs "Data Engineer" - kurs 95 000 rub. fra Yandex Workshop, opplæring 6,5 måneder, Dato: 11. desember 2023.
Miscellanea / / November 30, 2023
For praktiserende utviklere
Lær å bygge en infrastruktur for arbeid med data og systematiser kunnskapen din for å bruke den i din nåværende rolle eller endre retning til en dataingeniør.
For ambisiøse dataingeniører
Strukturere kunnskap: i tillegg til klar teori blir det mye praksis. Du vil få erfaring med å jobbe med prosjekter - dette vil hjelpe deg med å bygge en portefølje, skille deg ut fra andre kandidater og ikke gå deg vill i ekte arbeid.
Datavitenskapsspesialister og analytikere
Mestre ferdigheter som vil hjelpe deg med å takle oppgaver mer effektivt: bygg datapipelines, design butikkfronter, bygg ETL og samle inn rådata i store volumer.
Oppdatering av datamodellen
1 modul 2 uker
Selskapet fortsetter å fordype deg i sine prosesser. Dataene du jobbet med har blitt oppdatert, så du må endre datamodellen.
På dette kurset:
- forstå hvordan selskapet bygger en database;
- oppdatere strukturen til den nåværende databasen i samsvar med nye forretningskrav;
- forberede nye utstillingsvinduer og beregninger for analytikere og ledere.
Teknologier og verktøy:
- PostgreSQL
+1 prosjekt i portefølje
Bygg et datamarked med inkrementell lasting for nettbutikkpublikumsanalyse.
DWH: revisjon av datamodeller
Modul 2 3 uker
Selskapet vokser, dataarkitekturen blir mer kompleks. Du får en oppgave - å optimalisere prosesser med data.
På dette kurset:
- tenk gjennom prosessen med å gå over fra den gamle databaseordningen til den nye samtidig som du minimerer forretningstap (null nedetid distribusjon);
- forberede datamigrering;
- ta hensyn til mulige problemer og utforme et alternativ for å rulle tilbake endringer;
- implementere ny databasestruktur og tilpasse den til eksisterende prosesser rundt data.
Teknologier og verktøy:
- PosgreSQL
- Python
+1 prosjekt i portefølje
Du vil sette datamodellen i orden og migrere data innenfor gjeldende lagring i nettbutikken.
ETL: automatisering av dataforberedelse
Modul 3 3 uker
Du vet nå nesten alt om selskapets datavarehus. Det er på tide å revurdere ETL-prosesser.
På dette kurset:
- automatisere datapipeline;
- konfigurere automatisk nedlasting av data fra kilder;
- lære å regelmessig og trinnvis laste data inn i databasen.
Teknologier og verktøy:
- Python
- Luftstrøm
- PostgreSQL
+1 prosjekt i portefølje
Bygg en pipeline for automatisert mottak, behandling og lasting av data fra kilder til butikkfronten for et e-handelsprosjekt.
Datakvalitetssjekk
Modul 4 1 uke
Du vil være sikker på at de første rørledningene dine fungerer bra. Datakvaliteten må kontrolleres, og sammenbrudd må spores i tide.
På dette kurset:
- forstå hvordan du bruker metainformasjon og dokumentasjon;
- vurdere kvaliteten på dataene.
DWH for flere kilder
Modul 5 2 uker
Du fortsetter å forske på DWH fordi selskapets utvikling og dermed økningen i datavolumet ikke kan stoppes.
På dette kurset:
- bygge DWH fra bunnen av på en relasjonell DBMS;
- bli kjent med MongoDB som datakilde.
Teknologier og verktøy:
- PostgreSQL
- MongoDB
+1 prosjekt i portefølje
Du vil designe og implementere DWH for en intern oppstart.
Analytiske databaser
Modul 6 2 uker
Det er mer og mer spesifikke ustrukturerte data som også må lagres og behandles. Derfor vil vi introdusere deg til konseptet med analytiske databaser ved å bruke Vertica DBMS som eksempel.
På dette kurset:
- studielagringsorganisasjon i Vertica;
- lære hvordan du gjør grunnleggende operasjoner med data i Vertica;
- bygge et enkelt datavarehus i Vertica.
Teknologier og verktøy:
- Vertica
- PostgreSQL
- Luftstrøm
- S3
+1 prosjekt i portefølje
Bygg en DWH for et høylastet lavstrukturert messenger-datasystem ved å bruke Vertica.
Data Lake Organization
Modul 7 4 uker
Klassiske løsninger hjelper ikke med å takle datamengden. For å takle nye forretningsutfordringer vil du bygge og fylle en Data Lake.
På dette kurset:
- vurder Data Lake-arkitekturen (trans. "data lake");
- lære å behandle data i MPP-systemet;
- fylle Data Lake med data fra kilder;
- øv på databehandling ved å bruke PySpark og Airflow.
Teknologier og verktøy:
- Hadoop
- Kart reduksjon
- HDFS
- Apache Spark (PySpark)
+1 prosjekt i portefølje
Bygg en Data Lake og automatiser lasting og behandling av data i den.
Strømbehandling
Modul 8 3 uker
Du har overvunnet vanskelighetene med en stor mengde data, men en ny oppgave har dukket opp - du må hjelpe virksomheten med å ta beslutninger raskere. Her trenger du kunnskap om behandling av strømdata. streaming).
På dette kurset:
- vurdere funksjonene til behandling av strømdata;
- bygg ditt eget strømmesystem;
- bygg en butikkfront ved å bruke sanntidsdata.
Teknologier og verktøy:
- Kafka
- Spark Streaming
+1 prosjekt i portefølje
Du vil utvikle et databehandlingssystem i sanntid.
Skyteknologier
Modul 9 3 uker
Nå kan du jobbe med både store mengder data og strømmer. Alt som gjenstår er å automatisere skalering av systemer ved hjelp av skytjenester.
På dette kurset lærer du hvordan du implementerer allerede studerte løsninger, men i skyen (med Yandex Cloud som eksempel).
Teknologier og verktøy:
- Yandex. Sky
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 prosjekt i portefølje
Du vil utvikle infrastruktur for lagring og behandling av data i skyen.
Avgangsprosjekt
Modul 10 3 uker
Bekreft at du har lært nye ferdigheter.
Her må du selvstendig velge og implementere løsninger på et forretningsproblem. Dette vil hjelpe deg igjen å forsterke bruken av verktøyene du har lært, samt din uavhengighet.