Gdzie jestem i jak daleko mi do celu:)

Mijają dwa miesiące od początku tegorocznej edycji konkursu „Daj się poznać” więc może czas wreszcie zatrzymać się i podsumować co się do tej pory udało bądź nie udało. Na pewno muszę przyznać, że jest inaczej niż rok temu. Z jednej strony łatwiej a z drugiej – trudniej:)
Dlaczego?

Łatwiej, ponieważ przecież celem w tym roku nie było to, żeby przebić swój zeszłoroczny wynik (drugie miejsce), bo jest to przecież, obiektywnie rzecz biorąc, mało prawdopodobne. Bardziej chodzi mi o zyskanie widoczności w sieci w nowych dla mnie obszarach takich jak właśnie data science czy Python.

A trudniej, bo temat jaki wybrałam w tym roku jest dużo bardziej obszerny niż rok temu. Cóż to było napisać apkę w Androidzie w porównaniu ze zgłębieniem całkiem nowego języka jakim jest Python plus biblioteki typu NumPy i Pandas a jeszcze do tego statystyka:) Jest tego trochę, prawda? Co więcej – tym razem projekt na „Daj się poznać” nie jest jedyną rzeczą jaka mnie pochłania po pracy – z technicznych rzeczy zajmuję się jeszcze nauką Javy, doskonaleniem JavaScriptu (bo mało go używam na codzień). Po co? No cóż, o tym to może w przyszłości jeszcze napiszę;) Tymczasem trzymajcie kciuki!!

Jeśli zatem chodzi o konkurs jestem na dobrej drodze, ponieważ kontynuuje kurs na Dataquest w ścieżce Data Scientist a tak wygląda mój postęp:
Postęp

Jak widać zatem – jeszcze bardzo długa droga przede mną. Ale również długi weekend – więc mam nadzieję, że co nieco nadrobię:)

Pewne jest, że kursu nie skończę przed końcem maja, ale jest szansa na rozwiązanie tego zadania, które było częścią mojego celu, czyli: Partly Sunny with a Chance of Hashtags. Mam również nadzieję, że jeszcze uda mi się przyjrzeć „żywym” danym na Twitterze właśnie w związku z pogodą.

O książkach – tym razem programistycznych

Ostatnio coraz częściej na stronie wydawnictwa PacktPub pojawiają się ciekawe ebooki w wersjach całkowicie darmowych – dzisiaj jest to książka „Git Best Practices Guide” a wczoraj była to „Mastering C# Concurrency”. Dlatego też postanowiłam dziś przypomnieć o tej stronie, ponieważ warto mieć w zakładkach podstronę tego wydawnictwa, która codziennie proponuje nową darmową książkę – link. Staram się tam zaglądać codziennie aby nic mi nie umknęło, ale bywają i dni, kiedy ktoś mi przypomina o tym, że jest coś fajnego. Co jakiś czas pojawiają się też akcje tematyczne – na przykład tydzień z Linuxem, JavaScriptem czy tworzeniem gier. Można wtedy wyhaczyć całkiem fajne książki za darmo.

Oprócz tego PacktPub ma również sekcję „Forever Free eBooks”. Znajduje się tam zbiór książek na temat tworzenia aplikacji webowych – HTML JavaScript, Node.js a także Aplikacji oraz Big Data – Python, R, Machine Learning i Docker.

Kolejnym źródłem darmowych książek, które chciałabym Wam dzisiaj polecić jest strona Syncfusion. U nich znajdziemy ponad 100 darmowych książek, których zaletą jest to, że zawierają zawsze dokładnie około 100 stron.  Jest to naprawdę fajne jeśli chcemy szybko wejść w jakiś temat bądź coś sobie przypomnieć. Biblioteczka jest bardzo przekrojowa – są tam książki zarówno traktujące ogólnie o programowaniu, jak również bardziej specyficzne – na temat C# czy JavaScript. Jest w czym wybierać.

A Wy jakie znacie źródła (legalne) darmowych ebooków z dziedziny IT?

Pierwszy commit;) – Jupyter Notebook

W ostatnim czasie udało mi się przerobić całkiem fajny tutorial na Kaggle.com, który uczy podstaw machine learning na przykładzie pasażerów Titanica i przewidywania, którzy mieli szansę na przetrwanie. Tutorial nazywa się Titanic: Machine Learning from Disaster i pozwala on na przejście całego procesu od przetworzenia zbioru danych do uzyskania wyników, które możemy wysłać na serwer Kaggle w celu zrobienia sobie portfolio.

Ponieważ moim celem w ramach tegorocznego Daj się poznać jest właśnie wrzucenie swoich właśnych „prognoz” na Kaggle do zadania „Partly Sunny with a Chance of Hashtags” taki tutorial bardzo mi pomógł w zrozumieniu co i jak po kolei. Jest tam jednak parę rzeczy, które muszę bardziej zgłębić, by wiedzieć co robię a nie tylko odtwarzać. Jednak w tym świetnie pomaga mi uczenie się na Dataquest o którym już tutaj wspominałam.

Po przerobieniu tutoriala z Titanica moim pierwszym krokiem było przeniesienie instrukcji z tutoriala do notesu Jupyter aby później móc na tym pracować już moim zbiorem danych. Okazało się jednak, że to nie było takie proste, ponieważ po pierwsze po instrukcji:

predictions[predictions > .5] = 1
predictions[predictions <=.5] = 0

dostałam informację: „FutureWarning: in the future, boolean array-likes will be handled as a boolean array index app.launch_new_instance()” Na szczęście to póki co ostrzeżenie, więc nie szukałam w tym momencie rozwiązania dla tego problemu.
Gorzej było, gdy po instrukcji:

alg = LogisticRegression(random_state=1)

pojawiło się:

NameError Traceback (most recent call last)
in ()
----> 1 alg = LogisticRegression(random_state=1)

NameError: name 'LogisticRegression' is not defined

Na szczęście okazało się, że wystarczy instrukcję zamienić na:

alg = linear_model.LogisticRegression(random_state=1)

Jednak w tutorialu nic takiego potrzebne nie było;) No ale na szczęście wszystko ostatecznie poszło szybko i sprawnie. Tak więc krok po kroku posuwam się coraz dalej. Jednak już wiem, że temat Data science jest tak ogromny, iż jeśli nie zwiększę ilości czasu jaki mu poświęcam, zgłębienie go zajmie mi dłużej niż bym chciałą. Ale nie przeszkadza mi to zbytnio, bo jest to bardzo ciekawe!

No i udało się też wrzucić wreszcie coś sensownego do Gita – czyli mój Jupyter Notebook z póki co rozwiązaniem do kwestii Titanica.

Historia zmian danej funkcji w Git

Jeśli używamy Gita na pewno znamy polecenie

git log

które to wyświetla nam historię zmian w repozytorium. Jednak polecenie to ma pewną ciekawą możliwość, którą daje nam przełącznik -L. Mianowicie wówczas możemy podać nazwę metody oraz nazwę pliku i wyświetli nam się cała historia, ale dotycząca zmian w tej konkretnej metodzie. Jest to naprawdę wygodne, gdy chcemy dokładnie przyjrzeć się zmianom tylko w jednym miejscu bez przedzierania się przez rozbudowane porównywanie i całe pliki. Mój przykładowy plik Demo.cs wygląda tak:

using System;

public class Demo
{
	public void Demo()
	{
		// Here is the third change
	}
}

Wywołanie polecenia gita:

git log -L :Demo:Demo.cs

Zwróci coś takiego:

commit b37ad38a5ebc75e0b54f036e137832368fae754f
Author: Maga 
Date:   Sun Apr 16 21:50:47 2017 +0200

    next change

diff --git a/Demo.cs b/Demo.cs
--- a/Demo.cs
+++ b/Demo.cs
@@ -3,7 +3,7 @@
 public class Demo
 {
-       public static void Main()
+       public void Demo()
        {
                // Here is the third change
        }
 }
\ No newline at end of file

commit fadf9afd23f8008e3514f183a9873442dcd597d1
Author: Maga 
Date:   Sun Apr 16 21:50:25 2017 +0200

    next change

diff --git a/Demo.cs b/Demo.cs
--- a/Demo.cs
+++ b/Demo.cs
@@ -3,7 +3,7 @@
 public class Demo
 {
        public static void Main()
        {
-               // Here is the second change
+               // Here is the third change
        }
 }
\ No newline at end of file

commit be56749b09a606f0137c993d0df03fa336e88701
Author: Maga 
Date:   Sun Apr 16 21:48:03 2017 +0200

    Second change

diff --git a/Demo.cs b/Demo.cs
--- a/Demo.cs
+++ b/Demo.cs
@@ -3,7 +3,7 @@
 public class Demo
 {
        public static void Main()
        {
:
 {
        public static void Main()
        {
-               // Here is the second change
+               // Here is the third change
        }
 }
\ No newline at end of file

commit be56749b09a606f0137c993d0df03fa336e88701
Author: Maga 
Date:   Sun Apr 16 21:48:03 2017 +0200

    Second change

diff --git a/Demo.cs b/Demo.cs
--- a/Demo.cs
+++ b/Demo.cs
@@ -3,7 +3,7 @@
 public class Demo
 {
        public static void Main()
        {
-               // Here is the first change
+               // Here is the second change
        }
 }
\ No newline at end of file

commit bb7f033cdc9edce4eed0f7c30031b50d2cfc99d5
Author: Maga 
Date:   Sun Apr 16 21:47:46 2017 +0200

    First change

diff --git a/Demo.cs b/Demo.cs
--- a/Demo.cs
+++ b/Demo.cs
@@ -0,0 +3,7 @@
+public class Demo
+{
+       public static void Main()
+       {
+               // Here is the first change
+       }
+}

Są tutaj zmiany uporządkowane od najnowszych od najstarszych. W moim demonstracyjnym przypadku zmiany polegały jedynie na zmianie komentarza a następnie nazwy metody, ale oczywiście w prawdziwych plikach będzie tego dużo więcej. W konsoli jest to oczywiście wszystko podświetlone – zmiany usunięte są napisane czerwoną czcionką dodane zieloną.

Skąd brać dane do projektów data science? Czyli webscraping.

Webscraping – co to takiego?

Jest to proces automatycznego pobierania stron internetowych i wyciągania z nich interesujących nas informacji. Ponieważ dzieje się to automatycznie zajmuje to oczywiście mniej czasu niż gdybyśmy to chcieli zrobić ręcznie.

Od czego zacząć?

Najważniejsze co musimy zrobić chcąc skorzystać z danych umieszczonych na jakiejś stronie to upewnienie się, że jej warunki użytkowania nam na to pozwalają.
Jeśli już mamy taką stronę, której zawartość możęmy wykorzystać musimy się zastanowić jakie dane są nam potrzebne. Nastepnie z pomocą przyjdzie nam opcja Inspect (Zbadaj) w przeglądarce. Pozwoli nam ona w wygodny sposób przejrzeć strukturę HTML.

Kiedy ustalimy strukturę stron, które nas interesują jesteśmy gotowi napisać automat. W Pythonie z pomocą przyjdą nam takie biblioteki jak:

URLOPEN

Jest to funkcja modułu urllib.request, który umożliwia pobieranie stron z danego URL. Korzystamy z niej w bardzo prosty sposób:

page = urlopen("Url którego zawartość chcemy pobrać).read()

W ten sposób w zmiennej page mamy zawartość danej strony.

BEAUTIFULSOUP4

Ta biblioteka ułatwia przechodzenie po strukturze HTML. Na przykład, by wybrać wszystkie punkty danej listy wywołamy coś takiego:

data = BeautifulSoup(html, "lxml")
listelements = data.find_all("li")

Gdy już będziemy mieli dane, to możemy użyć biblioteki pandas, o której już tutaj wspominałam. Pozwala ona analizować dane w bardzo wygodny sposób.

Mogą nam się również przydać wyrażenia regularne i tutaj z przyda nam się operator Re, który również znajdziemy w Pythonie.  Pozwala on między innymi na wyszukiwanie i dopasowywanie tekstów do wzorca.

Kiedy już zdobędziemy dane, wyciągniemy co trzeba, obrobimy by format nam odpowiadał możemy użyć klasy DictWriter aby zapisać je w formacie CSV albo modułu do Sqlite by zapisać dane w bazie.