Ako na dátovú analytiku?

Dátová analytika. Top téma tejto doby. Predstaví nám ju žena – lektorka – matfyzáčka – a účtovne romanticky povedané, “Mamina na ceste” – Alenka Kucharíkova. Alenka pôsobí ako dátový guru v Pelikáne a na dáta ma nielen viaceré akademické tituly, ale najmä rokmi odmakanú prax.

Pojem data science pochádza z roku 1997. Ide o extrémne mladučkú disciplínu, na ktorej však vidieť priam až neuveriteľný progres a rast. Za 22 rokov sa vyprofilovala na jednu z TOP IT disciplín vôbec. V roku 2012 ju Jim Gray identifikoval ako najsexi prácu 21. storočia. A veruže, mal aj pravdu. 

Čo je najdôležitejšie pri práci s dátami? Jednak si jasne zadefinovať biznis problém (t.j. vhodne položiť otázky) a taktiež mať k dispozícii čisté, jasné a správne dáta (t.j. vykonať poctivú prípravu dát). V dnešnej dobe IoT sa dá totižto zbierať úplne všetko, analyzovať nonstop dáta, ktoré sú všade okolo (napr. aj cez kamery vyhodnocovať pohyby či správanie), a tvoriť z toho analýzy, modely a všakovaké fešácke vizualizácie.

S dátami by sa malo pracovať z rôznych uhľov pohľadu. Prístup, ktorý je aj mne, marketérovi, veľmi blízky:

◼ Neanalyzujme len úspešné prípady (konverzie) ALE!

◼ Analyzujme najmä tie momenty, ktoré boli neúspešné (nedošlo k žiadanej konverzii)

◼ A pýtajme sa prečo?

O čom je vlastne celý ten humbuk okolo „BIG DATA“?

No alt text provided for this image

Veľa dát má jeden zásadný problém. A to ten, že je ich už toľko veľa, že sa tradičným spôsobom nedajú spracovať. Tradičná analýza dát sa pohybuje do maximálne 1000GB (tera) a ide viac menej o pravidelné analýzy a reporty. Avšak Big Data pracuje so štyrmi V: VOLUME (desiatky terabajtov až petabajty), VARIETY (tabuľky, články, statusy, obrázky, videá, zvuky, čísla, VELOCITY (rýchlosť, akou dáta vznikajú) a VERACITY (vierohodnosť- časté problémy s chýbajúcimi, zašumenými či otáznymi a nepresnými dátami).

Dáta nám v bežnom živote môžu pomôcť aj pri detekcii spamu a fraudov (aj v prípade kreditných kariet) alebo pri detekcii v medicíne (napr. rozoznávanie znamienok). Detekcia obrazu je vo všeobecnosti veľmi ďaleko. Napríklad bez problémov sa dá na diaľku otestovať pravosť diamantov či iné „bežné“ každodenné potreby a taktiež do tejto kategórie spadá aj veľmi rozvinutá disciplína budúcnosti: rozpoznávanie reči.

Múdrosti z lekcie:

💡 Základné algoritmy na tvorbu modelov sú (1) Klasifikácia (2) Regresia (3) Zhlukovanie

💡 DNA má 3 GIGA (množstvo dát ako na 3 filmy)

💡 IT ženy majú lepší time-management ako IT muži 😊 😊 😊 

💡 Backpacker je batôžkár. Opäť konštatujem, že zbožňujem výrazy IT ľudí

💡 Prečo sa štatistika vola štatistika? Pôvodne išlo o vedu o štáte – vtedy sa zapisoval počet obyvateľov, kto má koľko pôdy, zvierat – z toho sa vytvárali jednoduché súčty

💡 Outliers – malé drobnosti, ktoré sa líšia od ostatných a môžu spôsobiť rozruchy (výnimočné hodnoty, môžu spôsobiť skreslenie)

💡 Po kvalitnom data miningu treba kvalitnú vizualizáciu (farbičky, farbičky)

💡 Databáza sa tvorí buď z nuly alebo naopak, z existujúceho veľkého množstva dát, ktoré sa následne upravujú

Hodina bola plná praktických cvičení a príkladov. Vytvorili sme si napríklad model, kam ísť lyžovať na základe skúseností, podmienok a pravidiel, či ktorú letenku si kúpiť. Vizualizovali sme si na základe Survivorship bias, ako rozmýšľať nad vecami (dátami), ktoré vidíme a ako neisť prvou jasnou cestou, ktorú vidíme a prečo je dobré pozerať sa na veci z iného uhla pohľadu. Ďakujem Alenka, bola to veľmi inšpiratívna lekcia.

PS:

💡 Pamätáte si, aký je rozdiel medzi mediánom a modusom? Negúglite hneď, chvíľku porozmýšľajte.

🔎 Za jednu sekundu Google vyhľadáva odpovede na viac ako 70 000 dopytov globálne.

👀 Koľkokrát si dnes už googlil ?

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *