Poznaj swoje dane, czyli profilowanie w Power Query

Power Query to zaskakująco wydajne narzędzie do przekształcania danych. Nieco mniej popularna jest w nim funkcja umożliwiająca szybką analizę struktury danych, aby upewnić się, czy ich kształt nie odbiega od naszych założeń.

info_28_27.jpg

Czy jest możliwe, żeby kucharz nie znał właściwości składników swojej potrawy? Teoretycznie tak, ale niewiele różni się wtedy od robota, do którego wsypujemy wszystko, co przepis każe, a on według zadanych algorytmów przygotowuje danie. Taki kucharz zawsze będzie odtwórcą, który nigdy nie wyjdzie poza te same smaki. Jeśli kucharz chce być mistrzem, tworzyć potrawy eksplodujące na języku i obezwładniające kubki smakowe, z perspektywą na dość nieoczywiste docenienie przez francuskiego producenta opon – wtedy musi dokładnie poznać swoje składniki. Powinien wiedzieć, jak pachną i smakują konkretne przyprawy, czym różnią się mąki i miody, co można czym zastąpić, co będzie współgrać, a co się wyklucza.

Po tym, może niezbyt oczywistym wstępie, co domyślniejsi zapewne już wiedzą, jaka będzie puenta tej opowieści. Z analitykami jest dokładnie tak samo jak z kucharzami. Mogą przeprowadzać uproszczone analizy bez zagłębiania się w charakterystykę danych, ale wtedy będą działać jak rozbudowany algorytm. Mogą też wyjść od podstawowej cechy każdego dobrego analityka i po prostu znać swoje dane. W ten sposób można się pokusić o stworzenie analizy dogłębnej, szytej na miarę i z budzącymi zaufanie wnioskami. Tylko co zrobić, by szybko poznać swoje dane?

W tym momencie na scenę wkracza Power Query – doskonałe narzędzie do agregacji i przekształcania danych, które oferuje niezwykle intuicyjną opcję prześwietlania danych w tabeli.

Kolory na pierwszej linii

Zacznijmy od czegoś, z czego wiele osób nie zdaje sobie sprawy. Już w momencie wczytania danych Power Query mówi nam, z jakimi danymi mamy do czynienia w każdej z kolumn. Nagłówek tabeli jest oddzielony od jej zawartości pogrubioną, kolorową linią. Linia ta, dla każdej z kolumn, pokazuje, z jakimi danymi i w jakiej proporcji mamy do czynienia. Kolor zielony odpowiada danym poprawnym. Pomarańczowy to błędy. Z kolei ciemny brąz oznacza puste wiersze. Możliwy jest także wzór w paskowaną zieleń, który odnosi się do sytuacji nie do końca jasnej, np. w przypadku kolumny z obliczeniami. Zwróćmy uwagę, że dla jednej kolumny możliwe jest istnienie różnych typów danych, co znajduje odwzorowanie w zabarwieniu jedynie części linii oddzielającej (Rysunek 1).

Jeśli najedziemy kursorem nad taki pasek, wyświetli się okno z nieco bardziej szczegółową informacją na temat danych w kolumnie. Dla każdej z grup danych (czyli prawidłowe, z błędem i puste) podane zostaną liczba wierszy oraz ich procentowy udział w całości. Jeśli kolumna zawiera błędy lub puste wiersze, u dołu okna pojawia się opcja filtrowania, usuwająca ten typ danych. W prawym, dolnym rogu tego okna, pod ikoną wielokropka, dostępne jest nieco bardziej rozbudowane menu. Polecenie Kopiuj ładuje do schowka tabelę z ilościami i procentami poszczególnych danych. Polecenia Zachowaj duplikaty i Zachowaj błędy działają jak filtry, usuwając to, co jest – odpowiednio – wartością unikatową w kolumnie lub wartością poprawną. Następne trzy polecenia to również filtr, ale tym razem usuwający kolejno duplikaty, puste wartości i błędne wartości. Ostatnie polecenie pozwala na zamianę błędów w dowolną wartość słowną lub liczbową.

Już tego typu uproszczone dane, znajdujące się u góry każdej z tabel, pozwalają na rozeznanie się w typie danych, jakie mamy do dyspozycji w tabeli, ale – oczywiście – to dopiero początek.

Wykorzystałeś swój limit bezpłatnych treści

Pozostałe 66% artykułu dostępne jest dla zalogowanych użytkowników portalu. Zaloguj się, wybierz plan abonamentowy albo kup dostęp do artykułu/dokumentu.

Kilka wariantów prenumeraty Pokaż opcje
Dwutygodniowy dostęp bez zobowiązań Wybieram

Abonament już od 100 zł miesięcznie

Dwutygodniowy dostęp bez zobowiązań

Pełen dostęp do wszystkich treści portalu
to koszt 100 zł miesięcznie
przy jednorazowej płatności za rok

WYBIERAM

Dwutygodniowy dostęp do wszystkich treści
portalu za 99 zł netto, które odliczymy od ceny
regularnej przy przedłużeniu abonamentu

WYBIERAM

Pełen dostęp do wszystkich treści portalu
to koszt 100 zł miesięcznie
przy jednorazowej płatności za rok

Dwutygodniowy dostęp do wszystkich treści
portalu za 99 zł netto, które odliczymy od ceny
regularnej przy przedłużeniu abonamentu

WYBIERAM

Polityka cookies

Dalsze aktywne korzystanie z Serwisu (przeglądanie treści, zamknięcie komunikatu, kliknięcie w odnośniki na stronie) bez zmian ustawień prywatności, wyrażasz zgodę na przetwarzanie danych osobowych przez EXPLANATOR oraz partnerów w celu realizacji usług, zgodnie z Polityką prywatności. Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce.

Usługa Cel użycia Włączone
Pliki cookies niezbędne do funkcjonowania strony Nie możesz wyłączyć tych plików cookies, ponieważ są one niezbędne by strona działała prawidłowo. W ramach tych plików cookies zapisywane są również zdefiniowane przez Ciebie ustawienia cookies. TAK
Pliki cookies analityczne Pliki cookies umożliwiające zbieranie informacji o sposobie korzystania przez użytkownika ze strony internetowej w celu optymalizacji jej funkcjonowania, oraz dostosowania do oczekiwań użytkownika. Informacje zebrane przez te pliki nie identyfikują żadnego konkretnego użytkownika.
Pliki cookies marketingowe Pliki cookies umożliwiające wyświetlanie użytkownikowi treści marketingowych dostosowanych do jego preferencji, oraz kierowanie do niego powiadomień o ofertach marketingowych odpowiadających jego zainteresowaniom, obejmujących informacje dotyczące produktów i usług administratora strony i podmiotów trzecich. Jeśli zdecydujesz się usunąć lub wyłączyć te pliki cookie, reklamy nadal będą wyświetlane, ale mogą one nie być odpowiednie dla Ciebie.