Polscy badacze analizują Big Data i przewidują wyniki wyborów

Analiza publicznie dostępnych w sieci danych – blogów, forów internetowych, artykułów – pozwala dokładniej niż badania sondażowe przewidzieć wyniki demokratycznych wyborów. Pokazują to w swoich badaniach naukowcy z Uniwersytetu Warszawskiego.

W samej Polsce jest teraz ponad 27 mln internautów. Publicznie udostępniają oni co dzień w sieci ogromne ilości komentarzy, postów na blogach, plików, dokumentów. Jeśli wie się, jak w tych danych wyszukiwać konkretnych informacji, uzyskuje się niespotykany wcześniej wgląd w to, co ludzie ci myślą, jakie mają poglądy, co jest dla nich ważne, a co mniej.

Analizując publicznie dostępne w Internecie treści, można np. z kilkudniowym wyprzedzeniem przewidzieć wyniki wyborów parlamentarnych czy prezydenckich. I to z dokładnością większą niż sondażownie. Pokazali to naukowcy z Wydziału Dziennikarstwa Informacji i Bibliologii Uniwersytetu Warszawskiego. Badacze próbują też – analizując Big Data – przewidzieć trendy gospodarcze czy kierunki rozwoju technologii.

„Odpowiedzi na pytanie, co ludziom w duszy gra, uzyskujemy drogą całkowicie legalną” – komentuje uczestnik badań, dr hab. Wiesław Cetera. I podkreśla, że wszystkie dane wykorzystywane w badaniach, dostępne są publicznie, dla każdego. Badacze jedynie zbierają i „obrabiają” te informacje.

„Wyszukiwarki internetowe wyświetlają mniej niż 0,1 proc. informacji cyfrowych dostępnych w sieci. Reszta jest, z różnych powodów, pomijana” – mówi w rozmowie z PAP kierownik badań, prof. Włodzimierz Gogołek. Dlatego jego zespół wykorzystuje własne roboty – programy, które przeczesują zadane im źródła informacji w poszukiwaniu konkretnych słów. „Przed wyborami prezydenckimi w 2015 r. skierowaliśmy roboty do wszystkich źródeł polskich informacji, które pisały na temat wyborów. To były np. gazety, książki, fora, blogi, publiczne posty na Facebooku” – mówi badacz. Roboty poszukiwały stron, na których padały słowa związane z wyborami, np.: „wybory”, „Duda” i „Komorowski”.

W zebranych tekstach – po odpowiedniej obróbce – wyszukiwano tzw. sentymenty. W uproszczeniu chodzi o emocje, jakie łączone były z poszukiwanymi słowami. Pozytywnymi sentymentami były np. słowa „zadziwiać”, „cel”, „lubić”, „pewny”, „wygrana”. A negatywnymi sentymentami np. „winien”, „zniszczenie”, „upadek”. Sprawdzano, jakie sentymenty pojawiały się w otoczeniu słów „Duda” oraz „Komorowski”. I na tej podstawie wyliczano poparcie dla każdego z kandydatów. „Tydzień przed wyborami wiedzieliśmy, kto wygra. Nasze wyniki były dokładniejsze niż udostępnione przez CBOS” – chwali się prof. Gogołek. System przetestowano już podczas wyborów parlamentarnych w 2011 r. i w 2015 r., a także podczas wyborów prezydenckich w 2015 r.

Doktor hab. Wiesław Cetera wyjaśnia, że sondażownie wykonują badania na próbach np. 1–2 tys. osób. A w analizie Big Data zbiory są znacznie, znacznie większe. „To próba badawcza tak duża, że nie można jej osiągnąć w tradycyjnych badaniach. A wiadomo, że im większa próba badawcza, tym dokładniejsze wyniki badań. Nawet jeśli w tej próbie znalazły się opinie małowartościowe” – opowiada naukowiec. I dodaje, że nawet jeśli poszczególne partie przed głosowaniem zatrudniały trolle – osoby opłacone do pisania komentarzy, nie miało to dotąd większego wpływu na wyniki naszych badań.

Prognozowanie wyników wyborów to tylko jeden z przykładów tego, jak można wykorzystać Big Data. Naukowcy z UW pomagają np. ekspertom z Narodowego Centrum Badań i Rozwoju wskazywać kierunki innowacyjnych działań, w które warto inwestować.

Prof. Gogołek opowiada, że jednym z zadań, jakie jego zespół dostał od NCBR, była próba wskazania perspektyw rozwoju cloud computingu – operowania informacją w chmurze. „Jeśli są pieniądze na cloud computing, to możemy wskazać, w którym kierunku warto iść, a który to chybiona droga” – opowiada.

Naukowcy przeanalizowali ogromne zbiory danych, w tym wyniki z przetargów publicznych. „Zaczęliśmy sprawdzać, kto w Polsce jest zainteresowany cloud computingiem” – opowiada prof. Gogołek. W tych badaniach również analizowano sentymenty – emocje, które pojawiały się w informacjach związanych z cloud computingiem. Jak podsumowuje wyniki badacz, duże firmy, o ustabilizowanym własnym informatycznym potencjale, do rozwiązań cloud computingowych podchodzą niechętnie, uważając je za zbyt drogie. Za to zainteresowanie tego typu rozwiązaniami daje się zauważyć wśród mniejszych firm, głównie start-upów i dużych, które wcześniej nie inwestowały we własny potencjał informatyczny.

Wiesław Cetera z kolei miał inny pomysł na analizę Big Data. Jak opowiada, przeanalizował występowanie słów związanych z terroryzmem w portalu arabskiej stacji telewizyjnej Al-Dżazira. Z kolei studenci prof. Gogołka wykorzystywali analizę Big Data do próby przewidzenia notowań polskich spółek giełdowych.

„Ameryki nie odkrywamy. Takie systemy analizy dużych zasobów informacyjnych istnieją od wielu lat i są wykorzystywane głównie przez ekonomistów, a szczególnie bankowców. My pokazujemy kolejne przykłady zastosowania takich rozwiązań, m.in. w badaniach nauk humanistycznych, wcześniej zdominowanych badaniami jakościowymi” – kończy prof. Gogołek. (PAP)

Kilka wariantów prenumeraty Pokaż opcje
Dwutygodniowy dostęp bez zobowiązań Wybieram

Abonament już od 100 zł miesięcznie

Dwutygodniowy dostęp bez zobowiązań

Pełen dostęp do wszystkich treści portalu
to koszt 100 zł miesięcznie
przy jednorazowej płatności za rok

WYBIERAM

Dwutygodniowy dostęp do wszystkich treści
portalu za 99 zł netto, które odliczymy od ceny
regularnej przy przedłużeniu abonamentu

WYBIERAM

Pełen dostęp do wszystkich treści portalu
to koszt 100 zł miesięcznie
przy jednorazowej płatności za rok

Dwutygodniowy dostęp do wszystkich treści
portalu za 99 zł netto, które odliczymy od ceny
regularnej przy przedłużeniu abonamentu

WYBIERAM

Polityka cookies

Dalsze aktywne korzystanie z Serwisu (przeglądanie treści, zamknięcie komunikatu, kliknięcie w odnośniki na stronie) bez zmian ustawień prywatności, wyrażasz zgodę na przetwarzanie danych osobowych przez EXPLANATOR oraz partnerów w celu realizacji usług, zgodnie z Polityką prywatności. Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce.

Usługa Cel użycia Włączone
Pliki cookies niezbędne do funkcjonowania strony Nie możesz wyłączyć tych plików cookies, ponieważ są one niezbędne by strona działała prawidłowo. W ramach tych plików cookies zapisywane są również zdefiniowane przez Ciebie ustawienia cookies. TAK
Pliki cookies analityczne Pliki cookies umożliwiające zbieranie informacji o sposobie korzystania przez użytkownika ze strony internetowej w celu optymalizacji jej funkcjonowania, oraz dostosowania do oczekiwań użytkownika. Informacje zebrane przez te pliki nie identyfikują żadnego konkretnego użytkownika.
Pliki cookies marketingowe Pliki cookies umożliwiające wyświetlanie użytkownikowi treści marketingowych dostosowanych do jego preferencji, oraz kierowanie do niego powiadomień o ofertach marketingowych odpowiadających jego zainteresowaniom, obejmujących informacje dotyczące produktów i usług administratora strony i podmiotów trzecich. Jeśli zdecydujesz się usunąć lub wyłączyć te pliki cookie, reklamy nadal będą wyświetlane, ale mogą one nie być odpowiednie dla Ciebie.