Data science – czego ja się tu uczę?

Tak jak już wcześniej wspomniałam uczę się korzystając z programu Microsoft Professional Program Certificate in Data Science

Pierwszy kurs

Pierwszy kurs pt Data Science Orientation zawiera trochę informacji i wprowadzenia na temat tego co się będzie działo w programie oraz jak sobie zaplanować cały kurs by jak najwięcej z niego skorzystać i móc zrobić certyfikat na jego zakończenie. Jest to o tyle ważne, że mamy dokładnie miesiąc na skończenie kursu jeśli już go zaczęliśmy. Jeśli nie zdążymy właściwie nic wielkiego się nie skończy, ale jeśli będziemy chcieli uzyskać certyfikat będziemy musieli przejść wszystkie testy, które pojawiają się na zakończenie poszczególnych modułów oraz test końcowy.

Data Scientists

W tym pierwszym kursie bardzo podobała mi się część w której są wywiady z ludźmi pracującymi jako Data Scientist, gdzie opowiadają trochę o swoje pracy, tym czego od nich wymaga i co w niej lubią. Jedna z osób powiedziała coś takiego, że fascynuje ją iż nigdy nie wie czego dowie się analizując jakieś dane. Jest to zawsze niespodzianka i wielka zagadka. Myślę, że podzielam ten pogląd. Zawsze, gdy patrzę na jakieś analizy, dema i widzę jak różne informacje pojawiają się na koniec jest jest to dla mnie zawsze zaskakujące.

Excel Power

Poznałam również Excela od innej strony. Do tej pory kojarzył mi się z nudnym narzędziem. Tymczasem w trakcie tego pierwszego kursu miałam okazję nauczyć się analizować dane za jego pomocą korzystając z takich funkcji jak:

  • Formatowanie warunkowe (Conditional Formatting), które pozwala na formatowanie komórek odpowiednio do zbioru danych w danej kolumnie. W ten sposób można na przykład pokolorować te komórki, gdzie znajdują się dane z Top 10 lub Top 10%, podobnie – Bottom 10 lub Bottom 10% aby móc jednym spojrzeniem zauważyć które komórki zawierają dane wartości. Można również automatycznie wyróżnić wartość największą lub najmniejszą.
  • Slicer – jest to pewne rozszerzenie filtrów, które możemy mieć na poszczególnych kolumnach. Jednak różni się tym, iż w jednym możemy mieć dane tylko do jednej kolumny z wartościami filtru dla niej właśnie. Dzięki temu możemy filtrować dużo szybciej.
  • Oprócz tego dużo różnych wykresów. W szczególności ważny jest histogram oraz wykres punktowy.
    Histogram pozwala nam na zilustrowanie jak dane w zbiorze się rozkładają. Przykład z mojej nauki:
    HistogramWidać na nim, że danych z zakresu 68 – 86 jest w moim zbiorze równo 2, danych z zakresu 86 – 104 jest 12, 102 – 122 jest 9 itd.
    Histogramy są tutaj o tyle ważne, że pozwalają wykryć nieprawidłowości w danych – jeśli na przykład któregoś „prostokąta” brakuje. Te zakresy oraz ilość prostokątów ustalamy sobie dowolnie zależnie od naszych potrzeb.
    Z kolei wykres punktowy może nam pomóc w poszukiwaniu korelacji między dwoma wartościami. W ćwiczeniach z kursu szukałam korelacji pomiędzy sprzedażą napojów a ilością rozdanych ulotek i tak wyglądał mój wykres:
    Wykres punktowyAkurat ten wykres potwierdza korelację pomiędzy tymi dwoma rzeczami, ponieważ punkty układają się dość blisko siebie a przy tym idą od lewego dolnego punktu do górnego prawego. Mówi się również, że w tym przypadku korelacja jest pozytywna – wzrostowa. Gdyby dane układały się od lewej górnej części do prawej dolnej – byłaby to korelacja negatywna.
  • Ciekawym typem wykresy jest też taki, którego nigdy wcześniej nie widziałam – czyli: wykres pudełkowy (Box and Whisker). Jest to wykres, który wygląda na przykład tak:
    Co tutaj widzimy?
    Ilość sprzedanych napojów cytrynowych mieści się w zakresie od pomiędzy 60 a 80 i między 160 a 180 – bliżej 180. Podobnie w przypadku pomarańczowych – zaczyna się nieco ponad 40 i kończy pomiędzy 120 a 140. Zatem wartości maksymalne i minimalne zaznaczone są poprzez poziome kreski zwane również wąsami.
    A co z prostokątami? Jakbyśmy spojrzeli na to pod kątem 90 stopni to można zauważyć, że zajmują one pewien zakres wartości – lewy bok znajduje się około 100 i wyznaczony jest przez pierwszy kwartyl a prawy bok wyznaczany jest przez trzeci kwartyl. Pierwszy kwartyl to zbiór danych, które położone są poniżej 25%. Natomiast trzeci to dane znajdujące się powyżej 75%. Przykładowe dane na temat sprzedaży jakie miałam do dyspozycji na temat napojów cytrynowych to: 97, 98, 110, 134, 159, 103, 143, 123, 134, 140, 162, 130, 109, 122, 98, 81, 115, 131, 122, 71, 83, 112, 120, 121, 156, 176, 104, 96, 100, 88, 76. Jeśli ktoś chciałby sobie to jakoś bardziej poanalizować, to może się przydać:)
  • Używane są również wykresy słupkowe, liniowe i dużo rzadziej – kołowe.

Statystyka

Pojawiły się też pojęcia ze statystyki – zarówno te, które pamiętam ze studiów jak i takie o których słyszałam pierwszy raz albo o nich zapomniałam;)

  • Średnia – termin, którego chyba nie trzeba wyjaśniać:)
  • Mediana – wartość środkowa poniżej i powyżej której znajduje się dokładnie taka sama liczba danych.
  • Dominanta – wartość najczęściej występująca w danym zbiorze
  • Rozstęp/zakres – różnica między największą i najmniejszą wartością w zbiorze
  • Wariancja – informacja na temat zróżnicowania danych w zbiorze
  • Odchylenie standardowe – informacja na temat jak bardzo dane są różne od średniej w danym zbiorze
  • Błąd standardowy – odchylenie standardowe średnich z prób
  • Kurtoza – informacja na temat tego na ile dane są zbliżone do średniej
  • Współczynnik skośności – pomaga określić czy dane są równo rozłożone po obu stronach średniej czy może któreś dane leżą dalej od średniej
  • T-Test – pozwala nam porównać ze sobą dwa zbiory danych

Uff, trochę tego jest – wszystkie trudniejsze pojęcia podlinkowałam do Wikipedii. Notka urosła długa, więc Python zostanie na następną okazję. Natomiast jeszcze muszę wspomnieć, że oczywiście danych do ćwiczeń z kursu nie musiałam preparować sama – więc nie rozdawałam ulotek, nie sprzedawałam napojów ani nic takiego:) Dane były do ściągnięcia w ramach kursu:) Czy pochodzą z życia? Kto to wie. Ale na potrzeby kursu sprawdziły się całkiem nieźle.

Data science – początek przygody

Kiedy postanowiłam wystartować z tematem data science w konkursie nie bardzo wiedziałam od czego zacząć. Na pewno temat siedział mi w głowie od dawna, ale brakowało czasu, żeby się z tym na szerszą skalę zapoznać. Gdzieś na konferencjach zdarzyło mi się obejrzeć rożne ciekawe prezentacje z tym tematem związane, ale na tym sprawa się kończyła do tej pory. Wiedziałam też, że chciałabym zapoznać się też z Pythonem jeśli chodzi o programowanie kwestii z data science związanych.

Zaczęłam więc najprościej jak się dało czyli od wpisania w Google „data science python” :) I tak trafiłam na całkiem fajną stronę www.edx.org i program Microsoftu, na który składa się szereg kursów związanych z data science: Microsoft Professional Program Certificate in Data Science. Jest wśród nich oczywiście właśnie szukany przeze mnie Python: Introduction to Python for Data Science oraz Programming with Python for Data Science.

Postanowiłam zacząć od początku i przerobić cały ten program aby dowiedzieć się jak najwięcej o całości tematu. Póki co podoba mi się to, że używane są narzędzia Microsoftu takie jak Excel czy BI. Fajne jest też to, że kursy są darmowe chyba, że chcemy uzyskać certyfikat na zakończenie – wówczas musimy zapłacić. Są one podzielone na części po których należy wykonać labolatorium – offline a także test – offline. Na koniec każdego kursu jest egzamin.

Druga strona na jaką trafiłam właśnie na początku poszukiwań to z kolei związana głównie z programowaniem – w R oraz w Pythonie to Datacamp. Tam z kolei mamy krótkie filmiki na temat kolejnych zagadnień języka a po nich kilka interaktywnych ćwiczeń. Bardzo mi się ta forma podoba, ponieważ nie jest nudno. Tutaj również wiele kursów jest darmowych a certyfikacja płatna.

Trzeba było też znaleźć jakiś pomysł do zakodowania by zrealizować go w ramach konkursu. I tutaj również z pomocą przyszło Google, które wręcz zalało mnie pomysłami oraz źródłami danych, które można wykorzystać. To o czym chciałabym tutaj wspomnieć to Kaggle. Tutaj możemy znaleźć całą masę rzeczy przydatnych w przygodzie z data science – zbiory danych do przetwarzania, zawody gdzie możemy podzielić się prognozami jakie udało nam się stworzyć a nawet znaleźć pracę jako Data Scientist:)

Na początek czuję się miło przytłoczona ogromem tematu, ponieważ jest cała masa fajnych źródeł do zdobycia wiedzy a to jest dokładnie to co lubię. Jeśli znacie jakie stronki warte uwagi w tym temacie dajcie znać w komentarzach.

Daj się poznać 2017 – a jednak się zgłosiłam

Jest 1 marca i tak samo jak dokładnie rok temu rozpoczął się konkurs „Daj się poznać” :) I tak jak rok temu zgłosiłam się w ostatniej chwili… Jednak tym razem z całkiem innych przyczyn. Generalnie nie miałam zamiaru się zgłaszać, ponieważ dobrze wiem jak wiele czasu i energii pochłania uczestnictwo i w tym roku postanowiłam zająć się różnymi rzeczami, które w zeszłym roku zaniedbałam.

Takim tematem jest na przykład data science i Python, które to mam w głowie od dawna i bardzo chciałabym się przyjrzeć jak się z tym tematem pracuje oraz nauczyć Pythona. I tak w niedzielny poranek (po sobotniej konferencji Boiling Frogs – relacja już wkrótce!) po różnych rozmowach z osobami poznanymi między innymi dzięki zeszłorocznej edycji konkursu DSP podjęłam decyzję – zgłaszam się do tegorocznej edycji!

Przypomniałam sobie jak wiele motywacji mogę zyskać i pomyślałam, że jeśli i tak chcę się czegoś nowego nauczyć, to jest to absolutnie najlepsza okazja!!! Pomysłu szukałam na szybko, ponieważ jak tylko wpisałam data science w Google poczułam przyjemne przytłoczenie ilością materiałów, kursów, zbiorów danych, pomysłów – super! Zatem na konkurs zgłosiłam pomysł stworzenia aplikacji, która wyciąga dane na temat pogody z tweetów. Jednak nie wykluczam a nawet zakładam zmianę tematu w trakcie. Ponieważ jeśli już nauczę się trochę co i jak zapewne przyjdzie mi do głowy coś fajniejszego. Nie wiem czy uda mi się pisać bardzo technicznie i czy w początkowej fazie powstanie jakoś dużo kodu, ale najważniejsze jest dla mnie zdobywanie wiedzy, którą troszkę chcę się tutaj dzielić. Póki co natomiast w jednym z kursów, które przerabiam uczę się wizualizacji danych w Excel:D Kto by pomyślał, że będę coś takiego robić z własnej woli.

W poniedziałek, gdy wypełniłam zgłoszenie konkursowe zalał mnie tak niesamowity optymizm i chęć tworzenia/uczenia się, że zaczęłam się zastanawiać jak ja w ogóle mogłam rozważać nie startowanie:)

Jakby ktoś jeszcze się wahał co do startu, to rejestracja została przedłużona do 12 marca. Zapraszam wszystkich!