Data science – początek przygody

Kiedy postanowiłam wystartować z tematem data science w konkursie nie bardzo wiedziałam od czego zacząć. Na pewno temat siedział mi w głowie od dawna, ale brakowało czasu, żeby się z tym na szerszą skalę zapoznać. Gdzieś na konferencjach zdarzyło mi się obejrzeć rożne ciekawe prezentacje z tym tematem związane, ale na tym sprawa się kończyła do tej pory. Wiedziałam też, że chciałabym zapoznać się też z Pythonem jeśli chodzi o programowanie kwestii z data science związanych.

Zaczęłam więc najprościej jak się dało czyli od wpisania w Google „data science python” :) I tak trafiłam na całkiem fajną stronę www.edx.org i program Microsoftu, na który składa się szereg kursów związanych z data science: Microsoft Professional Program Certificate in Data Science. Jest wśród nich oczywiście właśnie szukany przeze mnie Python: Introduction to Python for Data Science oraz Programming with Python for Data Science.

Postanowiłam zacząć od początku i przerobić cały ten program aby dowiedzieć się jak najwięcej o całości tematu. Póki co podoba mi się to, że używane są narzędzia Microsoftu takie jak Excel czy BI. Fajne jest też to, że kursy są darmowe chyba, że chcemy uzyskać certyfikat na zakończenie – wówczas musimy zapłacić. Są one podzielone na części po których należy wykonać labolatorium – offline a także test – offline. Na koniec każdego kursu jest egzamin.

Druga strona na jaką trafiłam właśnie na początku poszukiwań to z kolei związana głównie z programowaniem – w R oraz w Pythonie to Datacamp. Tam z kolei mamy krótkie filmiki na temat kolejnych zagadnień języka a po nich kilka interaktywnych ćwiczeń. Bardzo mi się ta forma podoba, ponieważ nie jest nudno. Tutaj również wiele kursów jest darmowych a certyfikacja płatna.

Trzeba było też znaleźć jakiś pomysł do zakodowania by zrealizować go w ramach konkursu. I tutaj również z pomocą przyszło Google, które wręcz zalało mnie pomysłami oraz źródłami danych, które można wykorzystać. To o czym chciałabym tutaj wspomnieć to Kaggle. Tutaj możemy znaleźć całą masę rzeczy przydatnych w przygodzie z data science – zbiory danych do przetwarzania, zawody gdzie możemy podzielić się prognozami jakie udało nam się stworzyć a nawet znaleźć pracę jako Data Scientist:)

Na początek czuję się miło przytłoczona ogromem tematu, ponieważ jest cała masa fajnych źródeł do zdobycia wiedzy a to jest dokładnie to co lubię. Jeśli znacie jakie stronki warte uwagi w tym temacie dajcie znać w komentarzach.

5 myśli na temat “Data science – początek przygody”

  1. Ja ostatnio dość sporo widziałem artykułów o Data Science z wykorzystaniem R.
    Czy to jest coś innego, niż Python?
    Przyznam, że ostatnio mnie zaciekawił temat BigData (chociaż w ramach DSP robię zupełnie co innego), dlatego tak mnie zainteresował Twój projekt.

  2. Super-ciekawy temat. Właśnie fajne jest to że Python zawiera naturalne wsparcie dla tego rodzaju projektów, masa fajnych bibliotek. Udacity ma fajny kurs dla Machine learning, bawiłem się ScikitLearn, a co do danych to polecam projekt Gutenberg.
    A co do R to mówią że jest do małych ilości danych, ale nie wiem jak bardzo subiektywna to opinia:)

  3. @Grzesiek – Główna różnica jaką w tym momencie widzę pomiędzy R i Pythonem jest to, że R jest przeznaczony raczej tylko do obliczeń statystycznych i wizualizacji a Python to język, który ma nieco szersze zastosowanie. Tak jak pisze @Lukasz – Python ma wsparcie do projektów związanych z Data Science, ponieważ ma całą masę bibliotek do analizy danych – ostatnio poznałam numpy i pandas. Możemy też wykorzystać go do innych celów – skryptów, robienia stron www itd. Jest to też powód dla którego wybrałam właśnie jego.
    @Lukasz – dzięki za polecenie źródeł.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *