Pierwsze problemy:)

Kiedy zastanawiałam się nad tematem aplikacji na konkurs „Daj się poznać”, znalazłam stronę o której już tutaj wspominałam – kaggle.com. Jest tam wiele różnych zbiorów danych a także konkursów, gdzie można stawać w szranki z innymi. Przedmiotem jednego z takich konkursów był taki, który wybrałam na realizację w ramach „Daj się poznać” – „Partly Sunny with a Chance of Hashtags. What can a #machine learn from tweets about the #weather?”

Wczoraj pomyślałam sobie, że rzucę okiem jakoś bardziej na te dane, które tam są, bo może już coś zacznie mi się nasuwać jeśli chodzi o rozwiązanie tego problemu. Tymczasem okazało się, że jeszcze przede mną długa droga, bo podane pliki wejściowe nie mówią mi specjalnie dużo. Pewnie to przez to, że do tej pory zajmowałam się bardziej analizą danych niż machine learning. Ale przynajmniej wiem, czego nie wiem:)

Jednak poważniejszy nieco problem dla mnie pojawił się, gdy zaczęłam szukać zbiorów danych Twittera. Robiłam to już wcześniej, ale nie sprawdziłam tego do końca i okazuje się, że chyba wszystkie dane, które mogłyby mi się przydać zostały z internetu skasowane na prośbę Twittera:( Pozostaje tylko dostęp przez API, ale tam chyba nie wyciągnę zbyt wielu danych.

Jednak nie martwi mnie to zbytnio, ponieważ od początku zakładałam iż zgłoszony temat pracy może się zmienić i tak chyba będzie w tym przypadku.
Zdecyduję, gdy jeszcze troszkę się z tematu podszkolę.

  • Temat pracy można zmienić? 😀

    Odnośnie crawlerów to kiedyś można było na starym API użyć tego:
    https://github.com/geoffjentry/twitteR

    Ale to jest pod R, a potem dane użyć pod analizę 😉

  • Iwona

    Chyba nigdzie nie jest napisane, że nie można. Dzięki za linka. Sprawdzę na pewno!