Data science – początek przygody

Kiedy postanowiłam wystartować z tematem data science w konkursie nie bardzo wiedziałam od czego zacząć. Na pewno temat siedział mi w głowie od dawna, ale brakowało czasu, żeby się z tym na szerszą skalę zapoznać. Gdzieś na konferencjach zdarzyło mi się obejrzeć rożne ciekawe prezentacje z tym tematem związane, ale na tym sprawa się kończyła do tej pory. Wiedziałam też, że chciałabym zapoznać się też z Pythonem jeśli chodzi o programowanie kwestii z data science związanych.

Zaczęłam więc najprościej jak się dało czyli od wpisania w Google „data science python” 🙂 I tak trafiłam na całkiem fajną stronę www.edx.org i program Microsoftu, na który składa się szereg kursów związanych z data science: Microsoft Professional Program Certificate in Data Science. Jest wśród nich oczywiście właśnie szukany przeze mnie Python: Introduction to Python for Data Science oraz Programming with Python for Data Science.

Postanowiłam zacząć od początku i przerobić cały ten program aby dowiedzieć się jak najwięcej o całości tematu. Póki co podoba mi się to, że używane są narzędzia Microsoftu takie jak Excel czy BI. Fajne jest też to, że kursy są darmowe chyba, że chcemy uzyskać certyfikat na zakończenie – wówczas musimy zapłacić. Są one podzielone na części po których należy wykonać labolatorium – offline a także test – offline. Na koniec każdego kursu jest egzamin.

Druga strona na jaką trafiłam właśnie na początku poszukiwań to z kolei związana głównie z programowaniem – w R oraz w Pythonie to Datacamp. Tam z kolei mamy krótkie filmiki na temat kolejnych zagadnień języka a po nich kilka interaktywnych ćwiczeń. Bardzo mi się ta forma podoba, ponieważ nie jest nudno. Tutaj również wiele kursów jest darmowych a certyfikacja płatna.

Trzeba było też znaleźć jakiś pomysł do zakodowania by zrealizować go w ramach konkursu. I tutaj również z pomocą przyszło Google, które wręcz zalało mnie pomysłami oraz źródłami danych, które można wykorzystać. To o czym chciałabym tutaj wspomnieć to Kaggle. Tutaj możemy znaleźć całą masę rzeczy przydatnych w przygodzie z data science – zbiory danych do przetwarzania, zawody gdzie możemy podzielić się prognozami jakie udało nam się stworzyć a nawet znaleźć pracę jako Data Scientist:)

Na początek czuję się miło przytłoczona ogromem tematu, ponieważ jest cała masa fajnych źródeł do zdobycia wiedzy a to jest dokładnie to co lubię. Jeśli znacie jakie stronki warte uwagi w tym temacie dajcie znać w komentarzach.

  • Ja ostatnio dość sporo widziałem artykułów o Data Science z wykorzystaniem R.
    Czy to jest coś innego, niż Python?
    Przyznam, że ostatnio mnie zaciekawił temat BigData (chociaż w ramach DSP robię zupełnie co innego), dlatego tak mnie zainteresował Twój projekt.

  • Super-ciekawy temat. Właśnie fajne jest to że Python zawiera naturalne wsparcie dla tego rodzaju projektów, masa fajnych bibliotek. Udacity ma fajny kurs dla Machine learning, bawiłem się ScikitLearn, a co do danych to polecam projekt Gutenberg.
    A co do R to mówią że jest do małych ilości danych, ale nie wiem jak bardzo subiektywna to opinia:)

  • Iwona

    @Grzesiek – Główna różnica jaką w tym momencie widzę pomiędzy R i Pythonem jest to, że R jest przeznaczony raczej tylko do obliczeń statystycznych i wizualizacji a Python to język, który ma nieco szersze zastosowanie. Tak jak pisze @Lukasz – Python ma wsparcie do projektów związanych z Data Science, ponieważ ma całą masę bibliotek do analizy danych – ostatnio poznałam numpy i pandas. Możemy też wykorzystać go do innych celów – skryptów, robienia stron www itd. Jest to też powód dla którego wybrałam właśnie jego.
    @Lukasz – dzięki za polecenie źródeł.

  • Ja ze swojej strony mogę polecić http://machinelearningmastery.com/blog/

    Można tam znaleźć masę przystępnych tekstów pomagających wystartować z uczeniem maszynowym. Trzymam kciuki za projekt 🙂

  • Iwona

    Dzięki @Przemek!

  • shoala

    Ja bym się zainteresował R, ponieważ to właśnie na nim skupił się ostatnio Oracle i Microsoft. MS Open R, R Server, dodali nawet wsparcie do Visual Studio. R przetworzy tyle danych, na ile pozwoli pamięć RAM komputera. Nie korzysta z plików wymiany, wszystko trzyma w pamięci fizycznej. Dla statystyki Python nawet nie może próbować się równać do R, bo masa rzeczy nie jest w Pythonie zaimplementowana i nie ma do niej zaufania takiego, jak jest do R po ponad 30 latach na rynku. Ale z kolei w machine learning Python ma więcej algorytmów. Aha, w R też można tworzyć strony www i web serwisy np. w Shiny albo opencpu. Można w nim programować, przecież to normalny język programowania tyle że pod konkretne zastosowanie. Jednak Python ma przyjemniejszą składnię i jest jednak bardziej przyjazny począkującym. Zasada jest taka – machine learning = python. Profesjonalna statystyka, analizy predykcyjne – R.

  • shoala

    A no i zapomniałam dodać, że właśnie dzięki wsparciu od Microsoftu R fajnie działa w chmurze i obsługuje duże ilości danych wielowątkowo. Warto się przyjrzeć. Całkiem ciekawe, ale nie wiem ile w tym marketingu a ile reala: https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/11/1000000-predictions-per-second/

    Niestety, Python nie ma takiego wsparcia. Przynajmniej na razie.

  • Iwona

    @shoala – dzięki za komentarze! Bardzo fajnie naświetliłeś to sprawę wyboru między R a Pythonem. Przyznam jednak, że nie zmienia to moich motywacji do nauki tegoż. Nawet jeśli sam Microsoft zabiera się za R – cóż, mnie w tym momencie interesuje świat poza Microsoftem. Już nie jestem do niego przywiązana tak jak dawniej:)