Kurs "Data Analyst" - kurs 96 000 rub. fra Yandex Workshop, opplæring 7 måneder, dato 7. desember 2023.
Miscellanea / / December 02, 2023
En dataanalytiker trekker ut mening fra tall og verdier: han ser trender, forutsier hendelser og hjelper et selskap med å forstå kunder, optimalisere prosesser og vokse.
Markedet trenger spesialister som kan bruke data nyttig. En studie utført av personalselskapet Ancor for september 2022 viste at 45 % av russiske selskaper leter etter analytikere for å bli med i teamet deres.
Ferdigheter du vil lære på kurset
Jobbtittel
Analytiker, dataanalytiker, dataanalytiker
Utviklingsmuligheter: Produktanalytiker, markedsanalytiker, BI-analytiker, datavitenskapsspesialist
Her er teknologiene og verktøyene du skal bruke:
Python
Jupyter notatbok
SQL
PostgreSQL
Tablå
A/B-tester
Begynn å tjene penger ved å analysere
Du vil starte fra en juniorstilling, og deretter bare gå videre. Du vil klatre på karrierestigen og vokse i verdi. Og en dag vil det ikke være noen pris for deg.
Fullfør kursprogrammet for dataanalyse
Vi oppdaterer den regelmessig for å sikre at den oppfyller bransjens og arbeidsgivers behov.
Du lærer med andre ord bare det som definitivt vil være nyttig i arbeidet ditt.
Gratis del - 1 uke
Gratis introduksjon: Grunnleggende om Python og dataanalyse
Lær de grunnleggende konseptene for dataanalyse og forstå hva dataanalytikere og dataforskere gjør.
• Moscow Catnamycs. Viser data på skjermen. CSV-filer. Arbeid med tabeller. Varmekart. Multiplisere en kolonne med et heltall.
• Feil i koden. Syntaksfeil. Navnefeil. Feil ved deling på null. Feil ved import av en modul.
• Variabler og datatyper. Variabler. Datatyper. Aritmetiske operasjoner med tall og strenger.
• Hvordan lage hypoteser. Hypoteser. HADI sykluser. Analytisk tenkning. Lese grafer.
• Hva dataforskere gjør. Analytikeroppgaver. Avklaring av oppgaver. Dekomponering. Prosjektstadier.
• Kontrollere konverteringer. Omdannelse. Datautforskning. Dannelse av konklusjoner.
• Tilbakebetaling av annonsekampanjer. Kolonnediagram. Forskjell på elementer. Indeksering i kolonner.
• Maskinlæring og datavitenskap. Opplæring i maskinlæring. Finne unike verdier i kolonner. Logisk indeksering. Gruppering av verdier i en tabell. Prediksjonsfeil.
• Siste prosjekt. Brukersegmentering.
PythonPandasFeilSjøfødte hypoteserKonverteringsvariablerDatatyper Varmekart
1 sprint 3 uker
Grunnleggende Python
Dykk dypere inn i Python-programmeringsspråket og Pandas-biblioteket.
• Variabler og datatyper. Python språk. Variabler. Viser data på skjermen. Vise objekter på skjermen. Feilhåndtering, prøv...unntatt operatør. Datatyper. Datatypekonverteringer.
• Linjer. Indekser i rader. Linjekutt. Operasjoner på strenger. Strengemetoder. Formateringsstrenger, format()-metoden, f-strenger.
• Lister. Indekser i lister. Liste skiver. Legge til elementer i en liste. Fjerner listeelementer. Addisjon og multiplikasjon av lister. • Sortere lister. Søk etter elementer i en liste. Splitte en streng i en liste med strenger, sette sammen en liste med strenger til en streng.
• For loop. Sykluser. Oppregning av elementer. Iterering over elementindekser. Behandling av listeelementer ved hjelp av løkker: finne summen og produktet av elementer.
• Nestede lister. Sløyfer gjennom nestede lister med telleverdier. Legge til elementer i nestede lister. Sortering av nestede lister.
• Betinget operatør. Mens loop. Boolsk datatype. boolske verdier. Logiske uttrykk. Sammensatte logiske uttrykk. Betinget uttalelse hvis... elif... annet. Forgrening. Filtrering av lister ved hjelp av en betinget operator. Mens loop.
• Funksjoner. Tildeling av funksjoner. Parametre og argumenter. Parametere med standardverdier. Posisjonelle og navngitte argumenter. Returnerer et resultat fra en funksjon.
• Ordbøker. Nøkler og verdier. Søker etter en verdi etter nøkkel. Legge til elementer i ordboken. Liste over ordbøker. Vakker utgang av ordbøker.
• Pandas bibliotek. Leser csv-filer. Dataramme. Datarammekonstruktør. Skrive ut første og siste rad i en dataramme. Indeksering i datarammer. Indeksering på seriekolonner.
• Dataforbehandling. GIGO-prinsippet. Gi nytt navn til datarammekolonner. Håndtering av manglende verdier. Håndtering av eksplisitte og implisitte duplikater.
• Dataanalyse og presentasjon av resultater. Gruppering av data. Sortering av data. Grunnleggende om beskrivende statistikk.
• Jupyter Notebook - en notatbok i en celle. Jupyter Notebook-grensesnitt. Jupyter Notebook-snarveier.
LoopsPythonPandasStringsListsFunctionsDictionariesDataFrameVariablesDataTypesConditional Statement
Prosjekt
Sammenlign Yandex Music-brukerdata etter by og ukedag.
2 sprint 2 uker
Dataforbehandling
Lær å rense data fra uteliggere, utelatelser og duplikater, samt konvertere forskjellige dataformater.
• Arbeid med pasninger. Omdannelse. Informasjonskapsler. Kategoriske og kvantitative variabler. Håndtering av hull i kategoriske variabler. Håndtering av gap i kvantitative variabler. Håndtering av gap i kvantitative variabler etter kategori.
• Endre datatyper. Leser Excel-filer. Konverter serier til numerisk type. Tallmodul, abs() metode. Jobber med dato og klokkeslett. Feilhåndtering, prøv...unntatt operatør. Slå sammen datarammer, merge() metode. Pivottabeller.
• Søk etter duplikater. Søk etter duplikater, skiller mellom store og små bokstaver.
• Datakategorisering. Dekomponering av tabeller. Kategorisering etter numeriske områder. Kategoriser basert på flere verdier per rad.
• Systematisk og kritisk tenkning i arbeidet til en analytiker. Systemtenkning. Årsaker til datafeil. Kritisk tenking.
PythonPandasGaphåndteringDatabehandlingDuplikatbehandlingDatakategorisering
Prosjekt
Analyser data om bankkunder og bestem andelen kredittverdige.
3 sprint 2 uker
Utforskende dataanalyse
Lær det grunnleggende om sannsynlighet og statistikk. Bruk dem til å utforske de grunnleggende egenskapene til data, se etter mønstre, distribusjoner og anomalier. Bli kjent med Matplotlib-biblioteket. Tegn diagrammer og øv på å analysere grafer.
• Første grafer og konklusjoner. Bruke pivottabeller. Stolpediagram. Distribusjoner. Rekkeviddediagram.
• Studie av dataskiver. query()-metoden. Jobber med dato og klokkeslett. Plotte grafer ved hjelp av plot()-metoden. Occams barberhøvel.
• Arbeide med flere datakilder. Datasnitt basert på eksterne objekter. Legge til nye kolonner i en dataramme. Legge til data fra andre datarammer. Gi nytt navn til kolonner. Kombinere tabeller ved å bruke merge() og join() metodene.
• Datarelasjoner. Scatterplot. Korrelasjon av variabler. Scatterplotmatrise.
• Validering av resultater. Konsolidering av grupper. Dele inn data i grupper.
PythonPandasMatplotlibHistogrammerData SlicesDataanalyseSpredningsplottSpredningsplottDatavisualiseringBeskrivende statistikk
Prosjekt
Utforsk arkivet med annonser for salg av eiendom i St. Petersburg og Leningrad-regionen.
4 sprint 3 uker
Statistisk dataanalyse
Lær å analysere sammenhenger i data ved hjelp av statistiske metoder. Lær hva statistisk signifikans og hypoteser er.
• Kombinatorikk. Kombinasjoner. Multiplikasjonsregel. Omorganiseringer. Antall permutasjoner. Plasseringer. Antall plasseringer. Kombinasjoner. Antall kombinasjoner.
• Sannsynlighetsteori. Eksperiment. Sannsynlighetsrom. Arrangementer. Sannsynlighet. Kryssende og gjensidig utelukkende hendelser. Euler-Venn diagram. Loven om store tall.
• Beskrivende statistikk. Kategoriske og kvantitative variabler. Modus og median. Gjennomsnittlig verdi. Spredning. Standardavvik. Kvartiler og persentiler. Rekkeviddediagram. Kolonnediagram. Frekvenstetthet. Stolpediagram.
• Tilfeldige variabler. Diskret tilfeldig variabel. Sannsynlighetsfordeling for en diskret tilfeldig variabel. Kumulativ funksjon (fordelingsfunksjon) av en diskret tilfeldig variabel. Matematisk forventning til en diskret tilfeldig variabel. Spredning av en diskret tilfeldig variabel.
• Distribusjoner. Bernoullis eksperiment. Binomialt eksperiment. Binomial fordeling. Kontinuerlig jevn fordeling. Normal distribusjon. Standard normalfordeling. CDF og PPF for normalfordeling. Giftfordeling. Tilnærming av en fordeling etter en annen.
• Testing av hypoteser. Generell befolkning. Prøve. Prøvefordeling. Sentral grensesetning. Ensidige og tosidige hypoteser. P-verdi. Testing av ensidige og tosidige hypoteser for en prøve. Tester hypotesen om likheten av midlene til to generelle populasjoner. Testing av hypotesen om likhet mellom midler for avhengige utvalg.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistribusjoner Hypotesetesting Sannsynlighetsteori
Prosjekt
Test hypoteser for leie av scootere for å hjelpe til med å utvide virksomheten din.
Ekstra sprint
Sannsynlighetsteori
Husk eller gjenkjenne de grunnleggende begrepene i sannsynlighetsteori: uavhengige, motsatte, uforenlige hendelser, etc. Ved å bruke enkle eksempler og morsomme oppgaver vil du øve på å jobbe med tall og bygge løsningslogikken.
Dette er en valgfri sprint. Dette betyr at hver elev selv velger ett av alternativene:
• Mestre en ekstra sprint på 10 korte leksjoner, friske opp teori og løse problemer.
• Åpne kun blokken med intervjuoppgaver, husk praksis uten teori.
• Hopp over kurset helt eller gå tilbake til det når det er tid og behov.
PythonHendelserSannsynlighetBayes' TeoremTilfeldige variablerSannsynlighetsteoriStatistisk dataanalyse
5 sprint 1 uke
Avsluttende prosjekt av første modul
Lær hvordan du utfører foreløpige dataundersøkelser og formulerer og tester hypoteser.
ScipyNumpyPythonPandasMatplotlibDataanalyseHypotesetestingDatabehandling
Prosjekt
Finn mønstre i spillsalgsdata.
6 sprint 2 uker
Grunnleggende SQL
Lær det grunnleggende om strukturert spørringsspråk SQL og relasjonsalgebra for arbeid med databaser. Bli kjent med funksjonene ved å jobbe i PostgreSQL, et populært databasestyringssystem (DBMS). Lær å skrive spørringer med varierende kompleksitetsnivå og oversette forretningsproblemer til SQL. Du vil jobbe med en database til en nettbutikk som spesialiserer seg på film og musikk.
• Introduksjon til databaser. Databasestyringssystemer (DBMS). SQL-språk. SQL-spørringer. Formatering av SQL-spørringer.
• Datasnitt i SQL. Datatyper i PostgreSQL. Datatypekonvertering. WHERE-klausul. Logiske operatører. Dataskiver. Operatører I, LIKE, MELLOM. Jobber med dato og klokkeslett. Håndtering av manglende verdier. Betinget CASE-konstruksjon.
• Aggregasjonsfunksjoner. Gruppering og sortering av data. Matematiske operasjoner. Aggregasjonsfunksjoner. Gruppering av data. Sortering av data. Filtrering etter aggregerte data, HAVING-operatør.
• Forhold mellom tabeller. Typer bordsammenføyninger. ER-diagrammer. Gi nytt navn til felt og tabeller. Aliaser. Slå sammen tabeller. Sammenføyningstyper: INDRE SKJØT, VENSTRE SKJØT, HØYRE SKJØT, FULL YTRE SKJØT. Alternative typer fagforeninger UNION og UNION ALLE.
• Underspørringer og vanlige tabelluttrykk. Undersøk. Undersøk i FROM. Undersøk i WHERE. En kombinasjon av sammenføyninger og underspørringer. Vanlige tabelluttrykk (CTE). Variasjon av forespørsler.
SQLDBMSPostgreSQLSundespørringDatabaserSQL-spørringerFiltrering av dataSortering av dataGruppere dataSlå sammen tabellerVanlige tabelluttrykk
Prosjekt
Du vil skrive en serie spørringer av varierende kompleksitet til en database som lagrer data om ventureinvestorer, startups og investeringer i dem.
7 sprint 3 uker
Analyse av forretningsindikatorer
Finn ut hvilke beregninger som er i virksomheten. Lær å bruke verktøy for dataanalyse i næringslivet: kohortanalyse, salgstrakt og enhetsøkonomi.
• Beregninger og trakter. Omdannelse. Trakter. Markedsføringstrakt. Inntrykk. Klikk. CTR. Produkttrakt.
• Kohortanalyse. Brukerprofil. oppbevaringsgrad. Churn rate. Analysehorisont. Visualisering av kohortanalyse. Retensjonsanalyse av tilfeldige kohorter. Konvertering i kohortanalyse. Beregning av beregninger i Python.
• Enhetsøkonomi. Beregninger LTV, CAC, ROI. ARPU, ARPPU. Beregning av beregninger i Python. Avansert visualisering av beregninger. Sharey-parameter. Glidende gjennomsnitt.
• Egendefinerte beregninger. Brukeraktivitetsvurdering. Brukerøkt. Avviksundersøkelse.
Beregninger TrakterKonvertering EnhetsøkonomiKohortanalyseProduktberegningerMarkedsføringsberegninger
Prosjekt
Basert på dataene, forstå brukeratferd, samt analyser kundelønnsomhet og annonserings-ROI for å komme med anbefalinger til markedsavdelingen.
8 sprint 2 uker
Avansert SQL
Du vil ta et tilleggskurs i arbeid med databaser og bli enda nærmere virksomheten. Ved å bruke SQL-språket vil du analysere beregningen av de viktigste forretningsberegningene du ble kjent med i sprinten "Business Indicators Analysis". Vurder å jobbe med et komplekst verktøy som vindusfunksjoner. Lær å endre innholdet i databaser lokalt, uten simulator, ved å bruke spesielle klientprogrammer og biblioteker for Python.
• Beregning av forretningsindikatorer. Dataskjema. Omdannelse. LTV. ARPU. ARPPU. ROI. Beregning ved hjelp av SQL.
• Aggregerende vindusfunksjoner. OVER uttrykk. PARTITION BY window parameter.
• Vindusrangeringsfunksjoner. Rangeringsfunksjoner. Vindu BESTILL AV operatør. ROW_NUMBER(). RANG(). DENSE_RANK(). NTILE(). Vindusoperatorer sammen med rangeringsfunksjoner.
• Vindusforskyvningsfunksjoner. Kumulative verdier. Offset funksjoner. LEDE(). LAG(). Vindusfunksjoner og aliaser.
• Kohortanalyse. Retention Rate, Churn Rate. LTV.
• Installasjon og konfigurering av databasen og databaseklienten. Database klient. Installerer PostgreSQL. Installerer DBeaver. DBeaver-grensesnitt. Database opprettelse. Distribuerer en databasedump. Laster opp søkeresultater. Presentasjon av søkeresultater.
SQLDBMSMetricsPostgreSQLDatabaserSQL-spørringerVindufunksjonerKohortanalyse
Prosjekt
Bruk Python og SQL, koble til en database, kalkuler og visualiser nøkkelberegninger i et programmerings- og spørsmålstjenestesystem.
9 sprint 2 uker
Beslutningstaking i næringslivet
Du vil lære hva A/B-testing er og forstå i hvilke tilfeller den brukes. Lær å designe A/B-testing og evaluer resultatene.
• Grunnleggende om hypotesetesting i næringslivet. Ledende beregninger. Grunnlag for eksperimenter. Generering av hypoteser. Prioritering av beregninger. Velge en metode for å gjennomføre et eksperiment. Kvalitative metoder for testing av hypoteser. Kvantitative metoder for testing av hypoteser. Fordeler og ulemper med A/B-tester.
• Prioritering av hypoteser. RICE rammeverk. Rekkevidde-parameter. Påvirkningsparameter. Konfidensparameter. Innsatsparameter.
• Forbereder for å gjennomføre en A/B-test. A/A-test. Type I og II feil. Kraften til statistisk test. Betydningen av statistisk test. Flere sammenligninger, metoder for å redusere sannsynligheten for feil. Beregning av prøvestørrelse og varighet av en A/B-test. Grafisk analyse av metrikk.
• Analyse av A/B-testresultater. Tester hypotesen om aksjelikhet. Shapiro-Wilk-test for å teste datanormalitet. Ikke-parametriske statistiske tester. Mann-Whitney test. Stabilitet av kumulative beregninger. Analyse av uteliggere og utbrudd.
• Atferdsalgoritmer. Fakta, følelser, vurderinger. Forklar ditt synspunkt.
A/B-testing Prioritering av hypoteser Forberedelse til A/B-testing Analyse av A/B-testresultater Analyse av A/B-testresultater
Prosjekt
Analyser resultatene av A/B-testing i en stor nettbutikk.
10 sprint 1 uke
Avsluttende prosjekt av andre modul
Lær å teste statistiske hypoteser ved hjelp av A/B-testing og utarbeide konklusjoner og anbefalinger i analytisk rapportformat.
SalgstraktA/B-testingDatabehandlingForskningsdataanalyse
Prosjekt
Utforsk salgstrakten og analyser resultatene av A/B-testing i mobilapplikasjonen.
11 sprint 2 uker
Hvordan fortelle en historie med data
Du vil lære hvordan du korrekt presenterer resultatene av forskningen din ved hjelp av grafer, de viktigste tallene og deres korrekte tolkning. Bli kjent med bibliotekene Seaborn og Plotly.
• Til hvem, hvordan, hva og hvorfor å fortelle. Presentasjon av forskningsresultatet. Fortellerens målgruppe. Hva og hvorfor å fortelle en dataanalytiker.
• Seaborn Library. Seaborn-biblioteket som en forlengelse av Matplotlib-biblioteket. jointplot() metode. Fargespekter. Diagramstiler. Visualisering av distribusjoner.
• Plottbibliotek. Interaktive grafer. Linjediagram. Kolonnediagram. Kake diagram. Traktdiagram.
• Datavisualisering i geoanalytikk. Geoanalyse. Bibliotek Folium. Kartvisning. Sette markører med spesifiserte koordinater. Opprette punktklynger. Egendefinerte ikoner for markører. Horoplet.
• Utarbeide en presentasjon. Konklusjoner basert på studien. Sesongvariasjoner og eksterne faktorer. Absolutte og relative verdier. Simpsons paradoks. Prinsipper for å lage presentasjoner. Rapporter i Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalyticsDatavisualisering
Prosjekt
Forbered en markedsstudie basert på åpne data om offentlige serveringssteder i Moskva, visualiser dataene som er oppnådd.
12 sprint 2 uker
Bygge dashbord i Tableau
I denne sprinten skal du jobbe med Tableau BI-systemet. Lær å koble til data og modifisere dem, bygge ulike typer grafer, sette sammen dashbord og presentasjoner.
• Grunnleggende om arbeid med Tableau. BI-systemer. Tablå. Opprette et dokument. Lagrer dokumentet. Publisering av dokumentet.
• Arbeide med datakilder. Datakilder. Datasammenslåing. Relasjonsmetode. Bli med metode. Blandingsmetode. Unionsmetode. Endre tabellformatet.
• Datatyper. Grunnleggende datatyper. Målinger. Målinger. Jobber med dato og klokkeslett. Settene. Grupper. Alternativer. Endre formatet på variabler. Variabler Målenavn, Måleverdier, Antall.
• Tabeller og beregninger. Grensesnitt for arkredigering. Pivottabeller. Beregnede felt. LOD uttrykk.
• Filtre og sortering. Sorteringstiltak. Sorteringsdimensjoner. Nestede sorterer. Sortering ved hjelp av en parameter. Filtre.
• Visualiseringer. Visualiseringskontroller. Varmekart. Kakediagrammer. Kolonnediagrammer. Histogrammer. Rekkeviddediagrammer. Punktdiagram. Linjegrafer. Kombinerte grafer. Områdekart.
• Spesielle visualiseringer og verktøytips. Kort. Karakterkart. Boblediagram. Tre kart. Sirkelvisninger diagrammer. Kulediagrammer. Gantt-diagrammer. Mål navn og mål verdier i visualiseringer. Omvendt engineering. Verktøytips. Verktøytips med visualiseringer. Terskelverdier på grafer. Analytiske verktøy i Custom.
• Presentasjoner. Ekstra alternativer. Studie av typiske parametere. Opprette en presentasjon.
• Dashboards. Laster og klargjør data. Utarbeide visualiseringer. Dashboard montering. Handlinger. Dashboard demonstrasjon. Publisering av et dashbord.
TableauDashboardsBI-verktøyBI-verktøyDatavisualisering
Prosjekt
Undersøk historien til TED-konferanser og lag et dashbord i Tableau basert på dataene som er innhentet.
Ekstra sprint
Grunnleggende maskinlæring
Bli kjent med det grunnleggende innen maskinlæring og lær om hovedoppgavene til maskinlæring i næringslivet.
PythonPandasSklearnMaskinlæringMaskinlæringsoppgaverMaskinlæringsalgoritmer
Ekstra sprint
Øv på Python
Du vil ta flere laboratorieklasser med tilleggsoppgaver i programmeringsspråket Python. Du vil også lære hvordan du trekker ut data fra nettressurser.
Du vil:
• i strukturen til HTML-sider og driften av GET-forespørsler,
• lære å skrive enkle regulære uttrykk,
• bli kjent med API og JSON,
• stille flere forespørsler til nettsteder og samle inn data.
JSONPythonREST APIWeb-skraping
13 sprint 3 uker
Avgangsprosjekt
I det siste prosjektet bekrefter du at du har mestret et nytt yrke. Tydeliggjør kundens oppgave og gå gjennom alle stadier av dataanalyse. Nå er det ingen lekser eller lekser - alt er som på en ekte jobb.
Sluttspurten inkluderer prosjektarbeid, A/B-testing og SQL-oppgaver, og en tilleggsoppgave. Prosjektet inneholder en problemstilling, forventet resultat, et sett med data og deres beskrivelse.
Oppgaven er knyttet til ett av fem forretningsområder:
• banker,
• detaljhandel,
• spill,
• mobilapplikasjoner,
• e-handel.
Det vil ikke være noen vanlig beskrivelse av trinn i prosjektet. Du vil jobbe gjennom dem selv.
SQ LPython PandasTableau Dashboards Postgre SQL-dekomponering A/B-testing