MLOps - rate 80 000 gni. fra Otus, trening 5 måneder, dato 30. november 2023.
Miscellanea / / November 30, 2023
Du vil mestre alle nødvendige maskinlæringsferdigheter for strømming av data og distribuerte miljøer. Programmet inkluderer nødvendig kunnskap fra feltene Data Science og Data Engineering, som vil tillate deg å behandle big data og skrive distribuerte algoritmer i Spark.
Du vil øve på hver modul ved å fullføre lekser. På slutten av opplæringen vil du ha et sluttprosjekt som lar deg oppsummere all kunnskapen du har tilegnet deg og legge til porteføljen din. Det kan gjøres som en del av arbeidsoppgaver på datasettet ditt eller være et læringsprosjekt basert på data levert av OTUS.
Hvem er dette kurset for?
For maskinlæringsspesialister eller programvareingeniører som ønsker å lære å jobbe med big data. Vanligvis finnes slike oppgaver i store IT-selskaper med et digitalt produkt i stor skala.
For dataforskere som ønsker å styrke ferdighetene sine med ingeniørkompetanse. Takket være kurset vil du kunne behandle data og selvstendig vise resultatene av ML-løsninger i produksjon.
For å lære trenger du grunnleggende datavitenskapelige ferdigheter. Vi foreslår at du ser på kart over datavitenskap-kursene på OTUS for å finne ut det nødvendige opplæringsnivået.
Du vil lære:
- Bruk standard ML pipeline-verktøy i et distribuert miljø;
- Utvikle dine egne blokker for ML-rørledninger;
- Tilpasse ML-algoritmer til distribuerte miljøer og store dataverktøy;
- Bruk Spark, SparkML, Spark Streaming;
- Utvikle algoritmer for å forberede datastrømming for maskinlæring;
- Sikre kvalitetskontroll på alle stadier av flytting av ML-løsninger til industriell drift.
Etterspørsel etter spesialister
Ferdighetene du vil mestre er så anvendt og lovende som mulig. Stadig flere digitale produkter dukker opp på markedet, og utviklingen av disse krever arbeid med big data og strømbehandling. Allerede nå kan spesialister med en slik pool av ferdigheter og noe arbeidserfaring kvalifisere for en lønn på 270 tusen. rubler En annen trend - automatisering av opplærings- og valideringsprosesser, tvert imot, devaluerer på en eller annen måte arbeidet til en klassisk dataforsker. Alt beveger seg mot et punkt der selv en ikke-spesialist kan forutsi en passform. Derfor er de som har minst overfladiske ingeniørkunnskaper allerede på en premie.
Kursfunksjoner
Mye trening på å jobbe med data
Bredt spekter av ferdigheter fra distribuert ML og strømdatabehandling til produksjonsutgang
Nåværende verktøy og teknologier: Scala, Spark, Python, Docker
Live kommunikasjon med eksperter via webinarer og Slack chat
4
kursEngasjert i utviklingen av et Data Science-team som tilbyr funksjonalitet basert på maskinlæring for selskapets produkter og tjenester. Som dataforsker deltok han i utviklingen av Kaspersky MLAD og MDR AI Analyst. I...
Engasjert i utviklingen av et Data Science-team som tilbyr funksjonalitet basert på maskinlæring for selskapets produkter og tjenester. Som dataforsker deltok han i utviklingen av Kaspersky MLAD og MDR AI Analyst. Som C++-utvikler deltok han i etableringen av MaxPatrol SIEM. Han har undervist i datamaskiner i mange år. vitenskapsdisipliner ved MSTU GA. Forfatter av en serie rapporter om ML, C++, DS prosjektledelse og utvikling lag. Medlem av PC-konferansen C++ Russland. Programleder
8
kurs20+ års erfaring med skreddersydde utviklingsprosjekter innen IT. Dusinvis av vellykkede prosjekter, inkludert de under statlige kontrakter. Erfaring med utvikling og implementering av ERP-systemer, åpen kildekode-løsninger, støtte for høybelastningsapplikasjoner. Lærer på kurs i...
20+ års erfaring med skreddersydde utviklingsprosjekter innen IT. Dusinvis av vellykkede prosjekter, inkludert de under statlige kontrakter. Erfaring med utvikling og implementering av ERP-systemer, åpen kildekode-løsninger, støtte for høybelastningsapplikasjoner. Lærer i kurs på Linux, Kuber, MLOps, DataOps, SolutionArchitect, IaC, SRE, samt mentor for HighLoad-kurset
1
vi vilSpesialist i arbeid med big data og maskinlæring. I 8 år jobbet han hos Odnoklassniki.ru. Ledet OK Data Lab-teamet (et laboratorium for forskere innen big data og maskin...
Spesialist i arbeid med big data og maskinlæring. I 8 år jobbet han hos Odnoklassniki.ru. Ledet OK Data Lab-teamet (et laboratorium for forskere innen big data og maskinlæring). Big data-analyse i Odnoklassniki har blitt en unik sjanse til å kombinere teoretisk opplæring og vitenskapelig grunnlag med utvikling av ekte, etterspurte produkter. Siden 2019 har han jobbet i Sberbank som administrerende direktør. Fungerer som leder av klyngen for å utvikle en plattform for anbefalingssystemer i massepersonaliseringsdivisjonen. Han ble uteksaminert fra St. Petersburg State University i 2004, hvor han forsvarte sin doktorgrad i formelle logiske metoder i 2007. Jeg jobbet med outsourcing i nesten 9 år uten å miste kontakten med universitetet og det vitenskapelige miljøet.
Grunnleggende innføring i kursstart
-Tema 1. Gradient nedstigning og lineære modeller
-Tema 2.Oversikt over grunnleggende maskinlæringsmetoder og beregninger
-Tema 3.Evolusjon av tilnærminger til arbeid med data
-Tema 4.Grunnleggende programmering i Scala
Teknologisk grunnlag for distribuert databehandling
-Tema 5. Distribuerte filsystemer
-Tema 6. Ressursforvaltere i distribuerte systemer
-Tema 7. Evolusjon av massivt parallelle og distribuerte databehandlingsrammer
-Emne 8. Grunnleggende om Apache Spark 1
-Emne 9. Grunnleggende om Apache Spark 2
Distribuert ML Grunnleggende
-Tema 10. Overføring av ML-algoritmer til et distribuert miljø
-Tema 11.ML i Apache Spark
-Tema 12. Utvikle dine egne blokker for SparkML
-Tema 13.Optimalisering av hyperparametre og AutoML
Strømbehandling
-Tema 14. Stream databehandling
-Tema 15. Tredjepartsbiblioteker for bruk med Spark
-Tema 16.Spark Streaming
-Tema 17. Strukturert og kontinuerlig streaming i Spark
-Tema 18.Alternative streaming-rammer
Målsetting og resultatanalyse
-Tema 19. Fastsettelse av mål for ML-prosjektet og foranalyse
-Tema 20. Langsiktige ML-mål ved å bruke eksemplet med oppgaven med å redusere churn
-Tema 21.A/B-testing
-Tema 22.Tilleggsemner
Sender ut ML-resultater til produksjon
-Tema 23. Tilnærminger for å bringe ML-løsninger i produksjon
-Tema 24.Versjon, reproduserbarhet og overvåking
-Tema 25.Nettservering av modeller
-Tema 26. Mønstre for asynkron streaming ML og ETL
-Emne 27. Hvis du trenger Python
ML i Python i produksjon
-Emne 28.Produksjonskode i Python. Kode for organisering og pakking
-Tema 29.REST-arkitektur: Flask API
-Tema 30.Docker: Struktur, applikasjon, distribusjon
-Tema 31.Kubernetes, containerorkestrering
-Theme 32.MLOPS-verktøy for Kubernetes: KubeFlow, Seldon Core. Funksjoner ved driften av heterogene systemer i industrien.
-Tema 33.Amazon Sagemaker
-Emne 34.AWS ML-tjeneste
Avanserte emner
-Tema 35. Nevrale nettverk
-Tema 36. Distribuert læring og inferens av nevrale nettverk
-Tema 37.Gradient boosting på trær
-Tema 38. Forsterkende læring
Prosjekt arbeid
-Tema 39. Valg av tema og organisering av prosjektarbeid
-Tema 40. Høring om prosjekter og lekser
-Tema 41.Beskyttelse av prosjekteringsarbeid