Certified data scientist
Telefon: 01 4677 548
Email: info@hif.hr
Opis
Predavači: Krešimir Futivić
Početak: 18.11.2024. godine
Sat: 08:30 - 16:00 h
Kotizacija 1.459 € + PDV
Popusti: saznaj više
Pratite: uživo, online
Teme
MODUL 1. – 18. i 19.11.2024. godine
- Uvod u rad s bazama podataka
- Obrada podataka
MODUL 2. – 02. i 03.12.2024. godine
- Osnove statistike
- Temelji poslovne statistike
MODUL 3. – 20. i 21.01.2025. godine
- Data Mining korištenjem R-a
- Data Analytics – Prediktivne analize u R-u
MODUL 4. – 03. i 04.02.2025. godine
- Power Pivot i Power BI
- Tableau, vodeći alat za vizualizaciju podataka
Data science je pojam koji se značajno počinje upotrebljavati unazad nekoliko godina. Područje rada data scientist-a je veoma široko te se proteže od znanosti, osiguravajućih kuća, banaka, telekoma pa sve do sporta i politike.
Program uvod u data science osmišljen je kako bi upoznao polaznike s najvažnijim znanjima potrebnim za rad sa podacima u ulozi data scientist-a. Ova uloga (radno mjesto) zahtijeva ljude koji poznaju statističke modele i znaju kako ih upotrijebiti u poslovnom okruženju i adekvatno potrebama, također osposobljeni su za rad sa velikim skupovima podataka. Osim toga tipično je dobro poznavanje SQL-a kao i poznavanje barem jednog programskog jezika za prediktivnu analitiku (na primjer R ili Python). Analizirane podatke potrebno je također adekvatno i predstaviti što podrazumijeva alate za vizualnu reprezentaciju podataka i izvještavanje.
Program se sastoji od četiri glavne cjeline:
- Priprema podataka za analizu – Uvod u rad s bazama podataka (2 dana)
- Osnove statistike za ne matematičare (2 dana)
- Poslovna statistička analiza korištenjem programa „R“ (2 dana)
- Prikaz rezultata analize i vizualizacija podataka (2 dana)
Prva cjelina ima za cilj osposobiti polaznike za dohvat i pripremu podataka za analizu korištenjem SQL jezika i pruža osnovna znanja o manipulaciji podacima u bazama podataka.
Druga cjelina predstavlja osnove i temelj za razumijevanje statističke analize podataka i namijenjena je osobama koje matematiku i statistiku poznaju samo na osnovnoj razini. Ovaj modul namijenjen je da budući data scientisti razumije počela na kojima su temeljeni alati za obradu podataka i prediktivnu analitiku.
Treća cjelina daje pregled programskog jezika R. Od učitavanja podataka i obradom (manipulacijama), preko analize (data mining), pa sve do prediktivne analitike, korak po korak dolazimo do potpune slike (razumijevanja) o podacima. Znanjem pokrivenim ovim modulom, polaznici će biti spremni analizirati podataka korištenjem R-a, primjenu prediktivnih modela te interpretaciju rezultata izračuna.
Na posljetku zadnja, četvrta cjelina, bavi se prikazom podataka, bilo grafički, bilo u okviru standardnog izvještavanja s akcentom na pretvaranje rezultata u vizualno dojmljivu priču kao zadnji korak analize.
Ciljevi
Cilj ovog programa je osposobiti polaznike za ulogu data scientist-a, osobe koja se fokusira na pitanje kako razumijevanje podataka može utjecati na tvrtku i kako takvo znanje pretvoriti u profit.
Metode rada i programski alati korišteni za rad
Polaznici će navedene sadržaje i vještine usvojiti kroz teorijsko predavanje i niz praktičnih vježbi na računalima. U svakom od modula koriste se prikladni alati za samostalne vježbe polaznika.
Prva cjelina temeljena je na radu sa Oracle bazom podataka.
Druga cjelina temeljena je na vježbama sa programskim alatom SPSS Statistics.
U trećoj cjelini se za izvođenje vježbi koristi programski alat „R“.
U četvrtoj cjelini, za vizualne analize i prezentacije korišten će biti Tableau i Power Pivot.
Syllabus
MODUL 1. – Uvod u rad s bazama podataka
Cilj i opis modula
Cilj modula 1 je osposobljavanje polaznika za pripremu potrebnih podataka za analizu. To znači da će na kraju modula polaznici moći kreirati tablice kakve su im potrebne kao ulazne informacije za danju analizu. Osim osnovnog upoznavanja sa select, insert i ostalim SQL naredbama niz vježbi fokusiran je na preradu i transformaciju podataka. Podaci kakvi se nalaze u bazama podataka nisu bez te dodatne obrade pogodni za analizu već ih je potrebno pripremiti. Vježbe se rade na ORACLE XE bazi podataka.
1. DAN – Uvod u baze podataka i osnove dohvata podataka
- Upoznavanje s osnovnim pojmovima
- ER modeliranje
- Spajanje i klijenti za bazu podataka
- Kreiranje tablica
- Dohvat podataka (select naredba)
- Upoznavanje sa uvjetima u select naredbama (WHERE)
- Sortiranje podataka
- Agregiranje podataka (SUM, COUNT, …)
- Pojam transakcije
VJEŽBE:
Kreiranje modela i pisanje različitih SELECT upita. Upoznavanje sa osnovama i konceptima upita nad bazama podataka. Razumijevanje alata za pisanje upita. Snalaženje sa tablicama, kolonama, pisanje WHERE uvjeta u dohvatu.
2. DAN – Obrada podataka
- Vrste objekata u bazama (view, job, procedure)
- Povezivanje tablica (JOIN)
- Masovno učitavanje podataka
- Korištenje funkcija u upitima
- Prerada i prilagodba podataka (UPDATE)
- Kreiranje novih tablica na osnovi upita (INSERT, CREATE AS SELECT…)
VJEŽBE:
Obrada postojećih podataka i kreiranje podataka (update, delete, insert). Kopiranje dijela podataka u nove tablice, danje razrade select upita (kompliciraniji primjeri), upotreba subselect upita, korištenje najvažnijih baznih funkcija (poput onih za obrade teksta i datuma) , upoznavanje sa ostalim baznim objektima (view, …).
Koncept drugog dana je proširenje znanja od dohvata podataka do njihove obrade i početka pripreme za alate koji će podatke na kraju i koristiti.
MODUL 2 – Osnove statistike za ne matematičare
Cilj i opis modula
Modul „Osnove statistike za ne matematičare“ već u svom nazivu definira komu je namijenjen. Cilj je osobama koje matematiku i statistiku poznaju samo na osnovnoj razini pružile uvod u statističku analizu podataka. Ovdje se misli na one koji matematiku i statistiku poznaju na razini srednjoškolskog obrazovanja te kraćeg (jedan ili eventualno nekoliko kolegija) statistike i/ili matematike tijekom fakultetskog studija ekonomije ili drugih studija.
Cilj ovog dvodnevnog modula je polaznicima objasniti svrhu, namjenu i upotrebljivost statistike u ekonomiji i drugim znanostima postupnim uvođenjem u statistiku i način statističkog razmišljanja, kroz niz primjera iz svakodnevne poslovne i znanstvene prakse. Program provedbe modula je kako slijedi:
1. DAN – Osnove statistike
S obzirom na ranije definirani cilj modula, od polaznika se ne očekuje određena razina predznanja osim osnovnog poznavanja matematičkih pojmova. Tijekom prvog dana, obradit će se slijedeće teme:
- Osnovno o statistici kao znanosti,
- Vrste podataka, načini mjerenja i zapisa,
- Organiziranje podataka za statističku analizu,
- Deskriptivne (opisne) metode i mjere varijabilnosti podataka,
- Normalnost razdiobe,
- Grafički prikaz,
- Vjerojatnost i distribucije vjerojatnosti,
- Inferencijalna statistika,
- Uzorak i uzorkovanje (sampling),
- Zavisni i nezavisni uzorci,
- Usporedba dvaju uzoraka.
VJEŽBE:
Uvod u temu predavanja predstavljat će opis statistike kao znanosti o raspršenju te kratka povijest statističkih metoda (o čemu će više riječi biti i uz svaku od metoda analize podataka predstavljenih kasnije). Razjasnit će se svrha statistike te na nekoliko primjera iz nedavne povijesti prikazati neposredna upotrebljivost statistike u svakodnevnom poslovnom procesu. Kroz primjere različitih vrsta varijabli koje se rutinski koriste u svakoj obradi podataka kao što su dob, spol, stupanje obrazovanja, ekonomski status ili primanja prikazat će se različite vrste podataka – kvalitativni i kvantitativni te različiti načini mjerenja određenih osobina ili vrijednosti reflektirani u kvalitativnim, ordinalnim i intervalnim ljestvicama. Polaznici će potom identificirati tipove varijabli u probnoj datoteci (Excel), te postupcima sortiranja, kodiranja i filtriranja podataka na druge načine pripremiti podatke za obradu u dediciranom statističkom softverskom paketu. Po unosu (importu) podataka u statistički softver definirat će se različiti načini na koje je moguće deskriptivno (opisno) prikazati podatke. Definirat će se pojmovi poput aritmetičke sredine, medijana, moda, te općenito mjere centralne tendencije. Na primjeru spomenutih opisnih parametara objasnit će se pojam normalne razdiobe, njen značaj u statistici te općeniti načini testiranja normalnosti distribucije. S obzirom na normalnost razdiobe određenih varijabli u promatranoj datoteci (datasetu), prikazat će se različiti modeli dvodimenzionalnog prikaza vrijednosti promatranih varijabli, te njihova ispravna primjena u analizi podataka. Po usvajanju koncepta distribucije i normalne distribucije (vrijednosti), analizirat će se koncept vjerojatnosti, p-vrijednosti u statistici, te teoretske distribucije vjerojatnosti. Objasnit će se pojam inferencijalne statistike kao bitan pristup u analizi podataka i kasnijem zaključivanju. Na primjeru nekoliko testnih datasetova iz različitih područja znanosti i prakse (ekonomija, medicina, agronomija) definirat će se pojam uzorka, slučajnog i prigodnog uzorka te drugih pristupa u izboru (sampling, uzorkovanje) podataka odnosno ispitanika. Opisat će se razlike između zavisnih i nezavisnih uzoraka, te osnove komparacije dvaju uzoraka s obzirom na tip promatrane varijable odnosno vrijednosti.
2. DAN – Temelji poslovne statistike
- Rekapitulacija i ponavljanje gradiva iz prvog dana
- Pristup u analizi kvalitativnih, semikvantitativnih i kvantitativnih podataka
- Parametrijski i neparametrijski testovi
- Omjer šansi
- Osjetljivost i specifičnost
- Usporedba više skupina
- Korelacija i regresija – osnovni koncepti
- Jednostavna linearna regresija
- Multipla regresija
- Ordinalna i logistička regresija
- Analiza preživljenja i njena primjena u ekonomiji
- Vremenske serije
- Dizajn ispitivanja
- Izračun uzorka
- Zamke u statističkoj obradi
- Programska podrška analizi i prikazu podataka
VJEŽBE:
Početkom drugog dana modula ponovit će se gradivo koje je prikazano prvi dan, s posebnim naglaskom na posljednje sadržaje koji su opisani krajem prvog dana – analizi razlika između dvije skupine podataka. Pomoću novog dataseta objasnit će se razlika između dvaju skupina ispitanika te dvaju mjerenja neke vrijednosti u istih ispitanika. Koncept analize razlika između dvije skupine ispitanika prikazat će se kroz različite testove poput t-testa, hi-kvadrat testa ili Mann Whitney-evog U testa, s obzirom na tip i/ili distribuciju podataka. Uvest će se i objasniti pojam parametrijskih i neparametrijskih metoda. Na primjerima kliničkih testova u medicini i analize vjerojatnosti prijelaza korisnika drugom dobavljaču ili drugom pružatelju usluga analizirat će se omjer šansi (odds ratio) i osjetljivost i specifičnost u analizi binarnih ishoda. U nastavku predavanja predstavit će se nešto naprednije metode analize podataka u kontekstu analize više skupina, te će se usporediti s prije prikazanim metodama analize razlika među dvama skupinama ispitanika. Na primjerima iz ranije korištenih datasetova analizirat će se više skupina podataka, s odgovarajućom metodom post-hoc analize rezultata. Potom će se objasniti osnove korelacije i regresije te značenja kauzaliteta u ovim metodama. Nakon osnovnih korelacijskih metoda prikazat će se regresija kroz četiri metode – jednostavna i multipla linearna regresija, te ordinalna i logistička regresija. Polaznici će usvojiti osnovne pristupe te analizu rezultata ovih metoda kroz koeficijente (estimates), p-vrijednosti i mjere provjere modela (goodness of fit). Na primjerima iz praćenja pacijenata s kroničnim bolestima objasnit će se analiza preživljenja kroz nekoliko osnovnih metoda poput Kaplan Meierove i Coxove regresije te primjena ovih metoda u drugim djelatnostima gdje se analiziraju binarni ishodi poput preživljenja, a koji su ovisni o vremenu praćenja. U ovom kontekstu prikazat će se vremenske serije, od srednjih vrijednosti i pokretnih srednjih vrijednosti (moving average) do kompleksnijih pristupa poput analize sezonalnosti. Konačno, kao zaključak drugog dana predavanja, polaznicima će se prikazati ispravan pristup dizajnu istraživanja ili marketinškog ispitivanja, pojam i osnove izračuna uzorka, te potencijalne zamke u statističkoj obradi podataka koje polaznici mogu tumačiti u kontekstu znanja usvojenog u prethodna dva dana. Analizirat će se i različita softverska rješenja za statističku obradu podataka.
MODUL 3 – Poslovna statistička analiza korištenjem R-a
Cilj i opis modula
Cilj modula 3 je upoznavanje polaznika s programskim jezikom R – trenutno jednim od vodećih za statistiku i data science. Pregršt gotovih paketa i funkcija pojednostavljuje rad U R-u pa će se tijekom modula polaznici upoznati s njih nekoliko. Prediktivne i statističke analize prezentirane su kroz „case study“ prilikom kojih će polaznici steći razumijevanje promatranog poslovnog procesa te načine predikcije primjenom više tehnika (Primjerice ponašanja klijenta – „Churn“ u telekom industriji, „Default“ u poslovanju banaka). Znanjem pokrivenim ovim modulom, polaznici će biti spremni za analizu podataka korištenjem R-a, primjenu prediktivnih modela te interpretaciju rezultata izračuna.
1. DAN – Data Mining korištenjem R-a
- Uvod u programski jezik R
- Razvoj i primjene u Big Data-i
- Instalacija konzole i razvojna okolina
- Osnovni objekti i tipovi podataka
- Funkcije
- Obrada podataka (transformacije)
- Export podataka
- Vizualizacija podataka (ggplot)
VJEŽBE:
Upoznavanje s razvojnom okolinom i osnovnim tipovima podataka potrebnim za rad u programskom jeziku.. Prvi dan modula polaznicima daje pregled tehnika koja je moguće istraživati podatke – pridruživanja, jednostavne naredbe i transformacije nad podacima. Rad počinje učitavanjem podataka iz raznih izvora i pregledom podataka (osnovne kontrole i obrade). Kraj cjeline čini osnove vizualizacije podataka korištenjem R-a (paket ggplot).
2. DAN – Data Analytics – Prediktivne analize u R-u
- Uvod u statističke model
- Korelacije
- Case Study: Povrati od ulaganja i Value-at-Risk (Quantitative Risk Management)
- Uvod u regresijski model
- Linearna i logistička regresija
- Case Study: Primjena logističke regresije za Probability of Default
VJEŽBE:
Nakon uvoda u R i pripreme podataka za analizu, drugi dan modula daje pregled osnovnih prediktivnih tehnika. Uz prethodni teoretski uvod u pojedini Case-Study, korištenjem paketa i funkcija u R-u polaznici samostalno izvršavaju prediktivne tehnike te interpretiraju rezultate predikcija.
MODUL 4 – Vizualizacija podataka
Cilj i opis modula
Cilj modula 4 je osposobljavanje polaznika za vizualnu reprezentaciju podataka te vizualno istraživanje podataka. Vježbe se rade na Microsoftovoj platformi koja je dio MS Excela te kao takva ima značajnu bazu potencijalnih korisnika i na Tableau-u alatu koji se smatra vodećim alatom u vizualizaciji podataka i vizualnom istraživanju nad podacima. Osim ovladavanja alatima u teorijskom dijelu biti će objašnjene osnove vizualne reprezentacije podataka i pravilnog odabira grafova adekvatnih za prijenos željene poruke auditoriju.
1. DAN – Power Pivot i Power BI
- Upoznavanje s osnovnim pojmovima
- Uvoz podataka iz baze podataka
- Dodavanje kolona i formule nad tabelama
- Power query alat – osnove dohvata
- Izrada tipičnih izvještaja
- Osnove DAX formula
- Time series i time intelligence formule
- Power BI – izrada dashboarda
VJEŽBE:
Vježbe se rade u alatima Power BI i MS Excelu. Cilj vježbi je ovladati izradom izvještaja i kreiranja modela na Microsoft Power pivot platformi (skupu alata). Ovaj dio predstavlja dio uobičajenog tabelarnog izvještavanja koje upotrebom Excela kao sučelja za izvještavanje koje je sveprisutno u poduzećima a u spoju sa Power pivot mogućnostima odgovara na tipične probleme poput sporosti u kalkulaciji velikih Excel datoteka ali i drugim izazovima u izvještavanju nad velikim količinama podataka u Excelu.
2. DAN – Tableau, vodeći alat za vizualizaciju podataka
- Uvod i opis Tableau platforme (vrste alata itd.)
- Povezivanje sa bazama podataka
- Izrada izvještaja, njihova parametrizacija
- Izrada dashboarda
- Vizualno istraživanje u podacima
- Pravila vizualne komunikacije
VJEŽBE:
Vježbe se rade u alatu Tableau Public, besplatnoj verziji Tableau alata. Niz vježbi ima za cilj upoznati polaznike sa Tableau-om vodećim alatom za vizualizaciju podataka. Polaznici će samostalno izraditi niz grafova, izvještaja i dashboarda kao rezultat vježbi te se kroz rad upoznati s pojmom vizualnog istraživanja podataka. Tableau je kao alat namijenjen / zamišljen da korisnik „vidi podatke“ pa će fokus vježbi biti upravo u tom, vizualnom, konceptu. Tableau potiče kreativnost u izvještavanju i iskorak prema stvarnom razumijevanju podataka, u odnosu na uobičajeno tablično izvještavanje te će se vježbe fokusirati da polaznici razumiju kako kreativno pripremiti i prenijeti poruku proizašlu iz podataka.
Napomene
- Za polaznike seminara osiguran je ručak i osvježenja tijekom pauze
- Polaznici će dobiti i materijale sa seminara kao i CERTIFIKAT