Knime Analytics Platform - analiza przeciętnych wynagrodzeń i emerytur Polaków w ostatnich 15 latach

W poprzednim numerze „Informacji Zarządczej” pozyskaliśmy ciekawe dane i stworzyliśmy pierwszy workflow w KNIME. Jeden z systemów GUS – Bank Danych Lokalnych – posłużył jako źródło danych o wynagrodzeniach i emeryturach Polaków w ostatnich 15 latach. Eksportowane dane w plikach csv dodaliśmy do workflow na zasadzie „przeciągnij i upuść”.

info_11_33.jpg

Następnie, łącząc dane i wykonując kilka przekształceń przy użyciu węzłów z kategorii manipulowania danymi (Node Repository – Manipulation) uzyskaliśmy efekt w formie tabeli z czterema kolumnami: województwo, rok, wynagrodzenie, emerytura (Rysunek 1). Tym razem zajmiemy się agregacją danych. W tym celu wykorzystamy jeden z bardziej zaawansowanych węzłów do wyliczania miar statystycznych – GroupBy.

Kontrola typu zmiennych

Zanim przejdziemy do agregacji, warto jeszcze skontrolować typ zmiennych w poszczególnych kolumnach. Nagłówki kolumn widoczne w podglądzie danych zawierają pierwsze litery od nazw typów, np. „S” jak String czy „I” jak Integer. Z kolei w zakładce ze specyfikacją kolumn oprócz pełnych nazw typów możemy również sprawdzić indeks, wartości graniczne lub unikatowe (Rysunek 2).

Konwersja typu zmiennych

Wyraźnie widać, że w przypadku analizowanych danych powinniśmy zmienić typ kolumn „wynagrodzenie” i „emerytura”. Z typu tekstowego String na liczbowy Double. Inaczej wyliczanie jakichkolwiek miar statystycznych nie będzie możliwe.

Korzystając z węzła String To Number, możemy w prosty sposób skonwertować typ zmiennych.

Wystarczy wybrać docelowy typ, separator oraz dodać wybrane kolumny do sekcji Include (Rysunek 3).

Agregacja danych

Po konwersji typów możemy przejść do agregacji danych. Węzeł GroupBy wyszukujemy w repozytorium lub w widoku Workflow Coach. Dołączając na koniec, uzyskujemy całościowo workflow jak na Rysunku 4.

Warto zauważyć, że GUI KNIME umożliwia wizualne porządkowanie przestrzeni workflow za pomocą kilku użytecznych funkcji, takich jak adnotacje, meta nodes (Rysunek 5) czy skalowanie obszaru roboczego – możliwości te zostaną jeszcze zaprezentowane w ramach cyklu.

Węzeł GroupBy umożliwia grupowanie danych oraz agregowanie wartości według różnych metod statystycznych (i nie tylko) opisanych w zakładce Description (Rysunek 6).

Wykorzystałeś swój limit bezpłatnych treści

Pozostałe 65% artykułu dostępne jest dla zalogowanych użytkowników portalu. Zaloguj się, wybierz plan abonamentowy albo kup dostęp do artykułu/dokumentu.

Kilka wariantów prenumeraty Pokaż opcje
Dwutygodniowy dostęp bez zobowiązań Wybieram

Abonament już od 100 zł miesięcznie

Dwutygodniowy dostęp bez zobowiązań

Pełen dostęp do wszystkich treści portalu
to koszt 100 zł miesięcznie
przy jednorazowej płatności za rok

WYBIERAM

Dwutygodniowy dostęp do wszystkich treści
portalu za 99 zł netto, które odliczymy od ceny
regularnej przy przedłużeniu abonamentu

WYBIERAM

Pełen dostęp do wszystkich treści portalu
to koszt 100 zł miesięcznie
przy jednorazowej płatności za rok

Dwutygodniowy dostęp do wszystkich treści
portalu za 99 zł netto, które odliczymy od ceny
regularnej przy przedłużeniu abonamentu

WYBIERAM

Polityka cookies

Dalsze aktywne korzystanie z Serwisu (przeglądanie treści, zamknięcie komunikatu, kliknięcie w odnośniki na stronie) bez zmian ustawień prywatności, wyrażasz zgodę na przetwarzanie danych osobowych przez EXPLANATOR oraz partnerów w celu realizacji usług, zgodnie z Polityką prywatności. Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce.

Usługa Cel użycia Włączone
Pliki cookies niezbędne do funkcjonowania strony Nie możesz wyłączyć tych plików cookies, ponieważ są one niezbędne by strona działała prawidłowo. W ramach tych plików cookies zapisywane są również zdefiniowane przez Ciebie ustawienia cookies. TAK
Pliki cookies analityczne Pliki cookies umożliwiające zbieranie informacji o sposobie korzystania przez użytkownika ze strony internetowej w celu optymalizacji jej funkcjonowania, oraz dostosowania do oczekiwań użytkownika. Informacje zebrane przez te pliki nie identyfikują żadnego konkretnego użytkownika.
Pliki cookies marketingowe Pliki cookies umożliwiające wyświetlanie użytkownikowi treści marketingowych dostosowanych do jego preferencji, oraz kierowanie do niego powiadomień o ofertach marketingowych odpowiadających jego zainteresowaniom, obejmujących informacje dotyczące produktów i usług administratora strony i podmiotów trzecich. Jeśli zdecydujesz się usunąć lub wyłączyć te pliki cookie, reklamy nadal będą wyświetlane, ale mogą one nie być odpowiednie dla Ciebie.